TaskMonkey Handbuch

Modell und Provider

Welches LLM wird benutzt und wie das deine Prompts beeinflusst.

TaskMonkey unterstützt mehrere LLM-Provider (OpenAI, Anthropic Claude, Google Gemini). Welches Modell dein Workspace nutzt, wird von der Betriebsseite konfiguriert. Hier geht's um die Auswirkungen auf deine Prompts und Tools.

Welches Modell nutze ich?

Frage den Betreiber oder schau in deine Workspace-Info in der UI. Typische Konfigurationen:

  • OpenAI GPT-4o — breit einsetzbar, sehr gutes Tool-Calling
  • Claude Sonnet 4 — sehr gute Reasoning-Qualität, genauere Tool-Nutzung
  • Gemini 2.0 — große Context-Window, gut für KB-intensive Tasks

Was ist modell-agnostisch

Wenn du Prompts und Tools sauber schreibst, funktionieren sie auf allen drei Providern:

  • Deklarative Tool-Definitionen (name, description, parameters)
  • Klare, knappe System-Prompts
  • Standardisierte Rückgabeformate in Tool-Handlern

Modell-spezifische Nuancen

OpenAI

  • Tool-Calling eher „direkt": gib klare Auslöser („rufe X auf wenn Y")
  • Reagiert gut auf nummerierte Schritte
  • Tendiert zu längeren Antworten — im Prompt aktiv kurz halten

Claude

  • Deutlich ausführlicher beim Reasoning, nutzt „thinking"-Token
  • Respektiert System-Prompts sehr genau
  • Mag strukturierte XML-Tags im Prompt (<anweisung>...</anweisung>) — optional nützlich
  • Folgt „NICHT XY"-Anweisungen verlässlicher als OpenAI

Gemini

  • Große Context-Windows → mehr History möglich
  • Tool-Calling funktional, aber manchmal zurückhaltender — expliziter auslösen
  • Kann bei sehr spezifischen deutschen Formulierungen holprig werden

Wenn du das Modell wechselst

Testet dann alle konversationellen Tests erneut:

tm test-conversations --task <slug>

Prompt-Nuancen, die für OpenAI optimal waren, können bei Claude leicht anders wirken. Falls Tests brechen:

tm optimize-prompt --task <slug>

Das Optimizer-Modell nimmt die Unterschiede in die Analyse auf.

Modell-Empfehlung per Aufgabentyp

Aufgabe Tendenz
Einfache CRUD-Chats alle drei ok
Komplexe Entscheidungen Claude > GPT > Gemini
Sehr langer Verlauf (viele Nachrichten) Gemini (grosse Context-Windows)
Viele gleichzeitige User Modell-Kosten + Latenz beim Betreiber besprechen
Sensible Daten Claude oder On-Premise-Modelle — mit Betreiber klären

Streaming

Alle Provider streamen Antworten. Für dich als Entwickler transparent — dein Frontend-Widget oder Mobile-Client bekommt die SSE-Events gleich aussehend, unabhängig vom Modell.

Kosten im Blick

Jede Tool-Beschreibung und jede Chat-Nachricht zählt als Tokens. Faustregeln:

  • Halte Tool-description-Felder auf 1–2 Zeilen
  • Halte parameters.properties.*.description auf einen kurzen Satz
  • System-Prompt: 300–800 Wörter ist ein guter Bereich
  • Knowledge-Base-Antworten: nutze limit in deinen Search-Tools, um große Dumps zu vermeiden

Monitor via tm monitor zeigt Laufzeiten, aber keine Token-Kosten — das siehst du in Betreiber-Reports.

Zuletzt aktualisiert: 2026-04-19