Sonnet vs. Opus: Welches Claude-Modell für welche Coding-Aufgabe?

Q: Wie messe ich, welches Modell für mich besser ist?

Nutze `/cost` in Claude Code, um die Kosten pro Session zu tracken. Vergleiche: Wie viele Korrekturen brauchst du mit Sonnet vs. Opus? Wie lange dauert eine Aufgabe insgesamt? Die Gesamtkosten (Tokens + deine Zeit) entscheiden.

TL;DR

Opus 4.5 erreicht 80,9% auf SWE-bench, Sonnet 4.5 liegt bei 77,2%. Der Preisunterschied ist moderat: $5/$25 (Opus) vs. $3/$15 (Sonnet) pro Million Tokens. Boris Cherny arbeitet ausschließlich mit Opus und sagt: "Am Ende fast immer schneller." Opus 4.6 bringt 1 Million Token Context Window und Adaptive Thinking.

Die Benchmark-Fakten

SWE-bench Verified ist der Standardtest für KI-Coding. Er enthält echte GitHub Issues aus Open-Source-Projekten. Das Modell muss den Bug finden und beheben, ohne menschliche Hilfe.

Modell	SWE-bench Verified	Context Window
Opus 4.5	80,9%	200K Tokens
Sonnet 4.5	77,2%	200K Tokens
Opus 4.6	Noch nicht veröffentlicht	1M Tokens

3,7 Prozentpunkte Unterschied klingen wenig. In der Praxis bedeuten sie: Opus löst Aufgaben, an denen Sonnet scheitert. Die schwierigen Fälle machen den Unterschied. Einfache Aufgaben lösen beide Modelle zuverlässig.

Was die Benchmarks nicht zeigen

Benchmarks messen isolierte Aufgaben. Coding im Alltag ist anders:

Multi-File-Änderungen: Ein Feature betrifft oft 5-15 Dateien. Das Modell muss verstehen, wie alles zusammenhängt.
Kontext-Verständnis: In einer großen Codebasis muss das Modell die richtige Stelle finden, bevor es ändern kann.
Architektur-Entscheidungen: Soll das ein neuer Service werden oder eine Erweiterung des bestehenden?
Tool Use: Claude Code nutzt Tools (Dateien lesen, Befehle ausführen, suchen). Das Modell muss entscheiden, welches Tool wann sinnvoll ist.

Hier zeigt sich der Unterschied zwischen Opus und Sonnet deutlicher als in Benchmarks.

Boris Chernys Erfahrung

Boris Cherny, Autor von "Programming TypeScript" und Entwickler bei Anthropic, arbeitet ausschließlich mit Opus. Sein Argument:

"Weniger Steering, besseres Tool Use, am Ende fast immer schneller."

Was er damit meint:

Weniger Steering

Sonnet braucht öfter Korrekturen. "Das meine ich nicht, mach es so." Opus versteht die Absicht beim ersten Mal häufiger. Jede Korrektur kostet Zeit und Tokens. Weniger Korrekturen bedeuten: schnellerer Gesamtablauf, auch wenn einzelne Anfragen bei Opus etwas länger dauern.

Besseres Tool Use

Claude Code nutzt Tools: Dateien lesen, Terminal-Befehle ausführen, im Projekt suchen. Opus wählt die richtigen Tools häufiger und in der richtigen Reihenfolge. Sonnet sucht manchmal in den falschen Dateien oder führt Befehle aus, die nicht zum Ziel führen.

Am Ende fast immer schneller

Die einzelne Opus-Anfrage kostet mehr. Aber: Weniger Korrekturen + besseres Tool Use = weniger Gesamtanfragen = niedrigere Gesamtkosten und schnellere Ergebnisse.

Token-Effizienz

Opus verbraucht pro Aufgabe bis zu 65% weniger Tokens als Sonnet. Das klingt kontraintuitiv, erklärt sich aber durch den Workflow:

Sonnet: Erste Antwort -> Korrektur -> Zweite Antwort -> Nochmal korrigieren -> Dritte Antwort -> Funktioniert.
Opus: Erste Antwort -> Funktioniert.

Drei Sonnet-Anfragen verbrauchen mehr Tokens als eine Opus-Anfrage. Plus: Jede Korrektur-Runde sendet den bisherigen Kontext erneut mit. Das summiert sich.

Preisvergleich

	Sonnet 4.5	Opus 4.5
Input	$3 / 1M Tokens	$5 / 1M Tokens
Output	$15 / 1M Tokens	$25 / 1M Tokens
Verhältnis	1x	1,67x

Opus kostet pro Token 67% mehr. Aber wenn Opus 65% weniger Tokens pro Aufgabe braucht, ist die Rechnung:

Sonnet: 100.000 Tokens x $15 = $1,50 Output-Kosten
Opus: 35.000 Tokens x $25 = $0,88 Output-Kosten

Die Token-Effizienz kann den höheren Preis pro Token ausgleichen. Nicht immer, aber oft genug, dass sich die Rechnung lohnt.

Wann Sonnet die richtige Wahl ist

Tägliches Coding

Für Routineaufgaben liefert Sonnet zuverlässige Ergebnisse:

Einzelne Funktionen schreiben
Unit Tests erstellen
Bug Fixes in überschaubarem Scope
Dokumentation generieren
Kleine Refactorings innerhalb einer Datei

Budget-bewusste Teams

Wenn das monatliche KI-Budget begrenzt ist, macht Sonnet für die Masse der Aufgaben Sinn. 80% der täglichen Coding-Aufgaben sind Routine. Sonnet löst sie zuverlässig.

Schnelle Iterationen

Sonnet antwortet schneller als Opus. Für Workflows, in denen du viele kleine Anfragen in kurzer Zeit stellst, kann die geringere Latenz einen Unterschied machen.

Prototyping

Beim Prototyping zählt Geschwindigkeit mehr als Perfektion. Sonnet liefert schnelle Ergebnisse für Konzepte, die sich noch ändern werden.

Wann Opus die richtige Wahl ist

Komplexe Refactorings

Ein Refactoring, das 20 Dateien betrifft, braucht ein Modell, das die Gesamtarchitektur versteht. Opus erkennt Abhängigkeiten zwischen Dateien besser und macht weniger Fehler bei koordinierten Änderungen.

Architektur-Entscheidungen

"Soll ich hier das Strategy Pattern oder ein einfaches Switch Statement verwenden?" Opus trifft bessere Architektur-Entscheidungen, weil es den breiteren Kontext besser verarbeitet.

Multi-File-Änderungen

Ein neues Feature, das Controller, Service, Repository, Tests und Migration braucht. Opus plant die Änderungen über alle Dateien hinweg konsistenter.

Legacy-Code

Große, gewachsene Codebasen mit inkonsistenten Patterns. Opus navigiert besser durch Code, der nicht nach Lehrbuch geschrieben ist.

Debugging komplexer Probleme

"Die App crasht sporadisch unter Last, aber nur wenn Feature X und Feature Y gleichzeitig aktiv sind." Opus kann mehr Kontext gleichzeitig verarbeiten und findet die Ursache häufiger.

Opus 4.6: Adaptive Thinking

Opus 4.6 bringt zwei neue Eigenschaften:

1 Million Token Context Window

Das ist 5x mehr als bei Opus 4.5 (200K Tokens). Praktisch bedeutet das: Opus 4.6 kann eine komplette Codebasis im Kontext halten. Kein "zu viele Dateien, ich kann nicht alles gleichzeitig sehen" mehr.

Für große Projekte ist das ein qualitativer Sprung. Statt Dateien einzeln zu analysieren und den Kontext zu verlieren, sieht Opus 4.6 das ganze Bild.

Adaptive Thinking mit 4 Effort-Levels

Opus 4.6 passt seinen Denkaufwand an die Komplexität der Aufgabe an:

Level	Anwendung	Beschreibung
Low	Einfache Fragen, Formatierungen	Schnelle Antwort, minimaler Denkaufwand
Medium	Standard-Coding-Aufgaben	Normaler Denkprozess
High	Komplexe Architektur, Debugging	Ausführlicher Denkprozess
Max	Die schwierigsten Probleme	Maximaler Denkaufwand, längere Antwortzeit

Das System wählt automatisch das passende Level. Einfache Aufgaben werden schneller beantwortet, weil das Modell nicht unnötig "nachdenkt". Komplexe Aufgaben bekommen die volle Denkleistung.

Für den Nutzer bedeutet das: schnellere Antworten bei einfachen Anfragen, ohne bei schwierigen Problemen Qualität zu verlieren.

Praktische Entscheidungshilfe

Frage 1: Wie komplex ist die Aufgabe?

Einzelne Datei, klarer Scope: Sonnet reicht.
Mehrere Dateien, Abhängigkeiten: Opus bevorzugen.
Ganze Architektur betroffen: Opus oder Opus 4.6.

Frage 2: Wie gut kennst du den Code?

Dein eigener Code, du weißt wo alles ist: Sonnet. Du kannst Fehler schnell erkennen und korrigieren.
Fremder oder Legacy-Code: Opus. Es findet sich besser zurecht und braucht weniger Hilfe.

Frage 3: Wie wichtig ist das Ergebnis?

Prototyp, wird morgen geändert: Sonnet.
Produktionscode, muss sofort funktionieren: Opus.
Sicherheitskritisch: Opus, plus manuelles Review.

Frage 4: Wie viel Budget hast du?

Unter $50/Monat: Sonnet für alles, Opus für die 2-3 schwierigsten Aufgaben.
$50-200/Monat: Sonnet für Routine, Opus für Features und Refactorings.
Über $200/Monat: Opus als Standard. Die Token-Effizienz macht den Preisunterschied wett.

Mehr dazu: Claude Code Preise 2026 und Claude Pro vs. Max im Vergleich.

Die Clawdify-Perspektive

Bei Clawdify laufen beide Modelle auf dedizierter M4 Mac Mini Hardware. Die Konfiguration legt fest, welches Modell für welche Aufgabe genutzt wird. Für die meisten Kunden empfehlen wir:

Standard: Opus 4.5 als Default-Modell
Opus 4.6: Für große Codebasen und komplexe Architektur-Aufgaben
Sonnet 4.5: Für kostenbewusste Teams als Fallback bei einfachen Aufgaben

Die Modellwahl wird in der CLAUDE.md konfiguriert und lässt sich jederzeit ändern. Wie du Claude Code optimal konfigurierst und einsetzt, erfährst du in unseren Claude Code Best Practices.

FAQ

Ist Opus immer besser als Sonnet?

Nein. Für einfache, klar abgegrenzte Aufgaben liefert Sonnet vergleichbare Ergebnisse, schneller und günstiger. Der Unterschied zeigt sich bei komplexen, mehrdeutigen oder vielschichtigen Aufgaben.

Wie viel teurer ist Opus pro Monat?

Das hängt von der Nutzung ab. Durch die höhere Token-Effizienz (bis zu 65% weniger Tokens pro Aufgabe) ist der Gesamtpreis oft näher an Sonnet als der Listenpreis vermuten lässt. Typisch: 20-40% Mehrkosten bei deutlich besserem Output. Praktische Tipps zur Optimierung findest du in unserem Artikel Claude Code Kosten senken.

Kann ich zwischen Modellen wechseln?

Ja. In Claude Code kannst du das Modell pro Session wählen. Manche Teams nutzen Sonnet für den Alltag und wechseln für schwierige Aufgaben zu Opus.

Was ist SWE-bench?

SWE-bench Verified ist ein Benchmark, der echte GitHub Issues als Testfälle verwendet. Das Modell muss den Bug in einem realen Open-Source-Projekt finden und beheben. Es ist der anerkannteste Benchmark für KI-Coding-Fähigkeiten.

Lohnt sich Opus 4.6 jetzt schon?

Opus 4.6 mit dem 1M Token Context Window lohnt sich besonders für große Codebasen (über 100 Dateien) und Projekte, bei denen viel Kontext nötig ist. Adaptive Thinking macht es auch für einfache Aufgaben effizient.

Wie messe ich, welches Modell für mich besser ist?

Nutze /cost in Claude Code, um die Kosten pro Session zu tracken. Vergleiche: Wie viele Korrekturen brauchst du mit Sonnet vs. Opus? Wie lange dauert eine Aufgabe insgesamt? Die Gesamtkosten (Tokens + deine Zeit) entscheiden.

Gibt es noch andere Claude-Modelle?

Ja. Haiku ist das kleinste und günstigste Modell. Für Coding-Aufgaben ist es aber deutlich schwächer als Sonnet und Opus. Es eignet sich für einfache Textverarbeitung, nicht für anspruchsvolles Coding.

Wann kommt Opus 4.6 offiziell?

Opus 4.6 ist bereits als Modell verfügbar. Es bietet 1M Token Context Window und Adaptive Thinking mit vier Effort-Levels. Die Benchmark-Ergebnisse für SWE-bench stehen noch aus.