Modell und Provider
Welches LLM wird benutzt und wie das deine Prompts beeinflusst.
TaskMonkey unterstützt mehrere LLM-Provider (OpenAI, Anthropic Claude, Google Gemini). Welches Modell dein Workspace nutzt, wird von der Betriebsseite konfiguriert. Hier geht's um die Auswirkungen auf deine Prompts und Tools.
Welches Modell nutze ich?
Frage den Betreiber oder schau in deine Workspace-Info in der UI. Typische Konfigurationen:
- OpenAI GPT-4o — breit einsetzbar, sehr gutes Tool-Calling
- Claude Sonnet 4 — sehr gute Reasoning-Qualität, genauere Tool-Nutzung
- Gemini 2.0 — große Context-Window, gut für KB-intensive Tasks
Was ist modell-agnostisch
Wenn du Prompts und Tools sauber schreibst, funktionieren sie auf allen drei Providern:
- Deklarative Tool-Definitionen (name, description, parameters)
- Klare, knappe System-Prompts
- Standardisierte Rückgabeformate in Tool-Handlern
Modell-spezifische Nuancen
OpenAI
- Tool-Calling eher „direkt": gib klare Auslöser („rufe X auf wenn Y")
- Reagiert gut auf nummerierte Schritte
- Tendiert zu längeren Antworten — im Prompt aktiv kurz halten
Claude
- Deutlich ausführlicher beim Reasoning, nutzt „thinking"-Token
- Respektiert System-Prompts sehr genau
- Mag strukturierte XML-Tags im Prompt (
<anweisung>...</anweisung>) — optional nützlich - Folgt „NICHT XY"-Anweisungen verlässlicher als OpenAI
Gemini
- Große Context-Windows → mehr History möglich
- Tool-Calling funktional, aber manchmal zurückhaltender — expliziter auslösen
- Kann bei sehr spezifischen deutschen Formulierungen holprig werden
Wenn du das Modell wechselst
Testet dann alle konversationellen Tests erneut:
tm test-conversations --task <slug>
Prompt-Nuancen, die für OpenAI optimal waren, können bei Claude leicht anders wirken. Falls Tests brechen:
tm optimize-prompt --task <slug>
Das Optimizer-Modell nimmt die Unterschiede in die Analyse auf.
Modell-Empfehlung per Aufgabentyp
| Aufgabe | Tendenz |
|---|---|
| Einfache CRUD-Chats | alle drei ok |
| Komplexe Entscheidungen | Claude > GPT > Gemini |
| Sehr langer Verlauf (viele Nachrichten) | Gemini (grosse Context-Windows) |
| Viele gleichzeitige User | Modell-Kosten + Latenz beim Betreiber besprechen |
| Sensible Daten | Claude oder On-Premise-Modelle — mit Betreiber klären |
Streaming
Alle Provider streamen Antworten. Für dich als Entwickler transparent — dein Frontend-Widget oder Mobile-Client bekommt die SSE-Events gleich aussehend, unabhängig vom Modell.
Kosten im Blick
Jede Tool-Beschreibung und jede Chat-Nachricht zählt als Tokens. Faustregeln:
- Halte Tool-
description-Felder auf 1–2 Zeilen - Halte
parameters.properties.*.descriptionauf einen kurzen Satz - System-Prompt: 300–800 Wörter ist ein guter Bereich
- Knowledge-Base-Antworten: nutze
limitin deinen Search-Tools, um große Dumps zu vermeiden
Monitor via tm monitor zeigt Laufzeiten, aber keine Token-Kosten — das siehst du in Betreiber-Reports.