tm optimize-prompt

KI-Assistent, der fehlgeschlagene Conversation-Tests analysiert und Prompt-Verbesserungen vorschlägt.

Wenn Tests fehlschlagen und du nicht weißt wieso — dieser Befehl ist die KI-gestützte Hilfe, die dir die Ursache aufzeigt und einen konkreten Prompt-Vorschlag macht.

Aufruf

tm optimize-prompt
tm optimize-prompt --task inventur
tm optimize-prompt --task inventur --model gpt-4o

Was passiert

Der Befehl führt alle conversation_tests des Tasks aus (wie tm test-conversations).
Für jeden Fehlschlag: Test-Case, erwartetes Verhalten, tatsächliches Verhalten werden an ein LLM geschickt.
Das LLM analysiert das Muster und schlägt eine konkrete Prompt-Änderung vor — mit Begründung.

Output

Das Tool zeigt erst die Test-Ergebnisse, dann die Analyse und schließlich den vorgeschlagenen Prompt. Beispiel (gekürzt):

3/5 bestanden (60%)

2 fehlgeschlagen:
  ✗ Bestand prüfen
  ✗ Storno-Anfrage erkennen

Analyse:
  Das Modell unterscheidet nicht klar zwischen Bestands- und
  Verkaufsanfragen.

Vorschlag:
  Du bist der Inventur-Assistent. Rufe getStock auf, wann immer
  der Benutzer nach verfügbaren Mengen oder Beständen fragt …

Den Vorschlag übernimmst du manuell: in deinen Editor kopieren, in der Task-Datei einsetzen, tm sync. Das CLI patcht die Datei nicht selbst — so behältst du die Kontrolle und siehst alle Änderungen im git-Diff.

Parameter

-t, --task <slug> — nur Tests eines Tasks
-m, --model <name> (default gpt-4o) — welches Modell die Analyse macht

Wofür nutzen?

Unbekannte Fehlermuster analysieren lassen, wenn du keinen Verdacht hast
Schnelle zweite Meinung zur Prompt-Struktur
Coaching-Tool für weniger erfahrene Kolleginnen

Grenzen

Das Modell sieht nur Test-Cases + aktuellen Prompt. Es kennt weder deine Daten noch die Tool-Implementierungen in ihrer ganzen Tiefe.
Nutze die Vorschläge als Startpunkt, nicht als Garantie — immer mit tm test-conversations nachprüfen.
Kostet API-Credits beim Betreiber — benutze nicht inflationär.

tm optimize-prompt

#Aufruf

#Was passiert

#Output

#Parameter

#Wofür nutzen?

#Grenzen