Sonnet vs. Opus: Welches Claude-Modell für welche Coding-Aufgabe?
SWE-bench Scores, Token-Effizienz, Preise: Ein direkter Vergleich von Sonnet 4.5 und Opus 4.5/4.6 für Coding-Aufgaben.
TL;DR
Opus 4.5 erreicht 80,9% auf SWE-bench, Sonnet 4.5 liegt bei 77,2%. Der Preisunterschied ist moderat: $5/$25 (Opus) vs. $3/$15 (Sonnet) pro Million Tokens. Boris Cherny arbeitet ausschließlich mit Opus und sagt: "Am Ende fast immer schneller." Opus 4.6 bringt 1 Million Token Context Window und Adaptive Thinking.
Die Benchmark-Fakten
SWE-bench Verified ist der Standardtest für KI-Coding. Er enthält echte GitHub Issues aus Open-Source-Projekten. Das Modell muss den Bug finden und beheben, ohne menschliche Hilfe.
| Modell | SWE-bench Verified | Context Window |
|---|---|---|
| Opus 4.5 | 80,9% | 200K Tokens |
| Sonnet 4.5 | 77,2% | 200K Tokens |
| Opus 4.6 | Noch nicht veröffentlicht | 1M Tokens |
3,7 Prozentpunkte Unterschied klingen wenig. In der Praxis bedeuten sie: Opus löst Aufgaben, an denen Sonnet scheitert. Die schwierigen Fälle machen den Unterschied. Einfache Aufgaben lösen beide Modelle zuverlässig.
Was die Benchmarks nicht zeigen
Benchmarks messen isolierte Aufgaben. Coding im Alltag ist anders:
- Multi-File-Änderungen: Ein Feature betrifft oft 5-15 Dateien. Das Modell muss verstehen, wie alles zusammenhängt.
- Kontext-Verständnis: In einer großen Codebasis muss das Modell die richtige Stelle finden, bevor es ändern kann.
- Architektur-Entscheidungen: Soll das ein neuer Service werden oder eine Erweiterung des bestehenden?
- Tool Use: Claude Code nutzt Tools (Dateien lesen, Befehle ausführen, suchen). Das Modell muss entscheiden, welches Tool wann sinnvoll ist.
Hier zeigt sich der Unterschied zwischen Opus und Sonnet deutlicher als in Benchmarks.
Boris Chernys Erfahrung
Boris Cherny, Autor von "Programming TypeScript" und Entwickler bei Anthropic, arbeitet ausschließlich mit Opus. Sein Argument:
"Weniger Steering, besseres Tool Use, am Ende fast immer schneller."
Was er damit meint:
Weniger Steering
Sonnet braucht öfter Korrekturen. "Das meine ich nicht, mach es so." Opus versteht die Absicht beim ersten Mal häufiger. Jede Korrektur kostet Zeit und Tokens. Weniger Korrekturen bedeuten: schnellerer Gesamtablauf, auch wenn einzelne Anfragen bei Opus etwas länger dauern.
Besseres Tool Use
Claude Code nutzt Tools: Dateien lesen, Terminal-Befehle ausführen, im Projekt suchen. Opus wählt die richtigen Tools häufiger und in der richtigen Reihenfolge. Sonnet sucht manchmal in den falschen Dateien oder führt Befehle aus, die nicht zum Ziel führen.
Am Ende fast immer schneller
Die einzelne Opus-Anfrage kostet mehr. Aber: Weniger Korrekturen + besseres Tool Use = weniger Gesamtanfragen = niedrigere Gesamtkosten und schnellere Ergebnisse.
Token-Effizienz
Opus verbraucht pro Aufgabe bis zu 65% weniger Tokens als Sonnet. Das klingt kontraintuitiv, erklärt sich aber durch den Workflow:
- Sonnet: Erste Antwort -> Korrektur -> Zweite Antwort -> Nochmal korrigieren -> Dritte Antwort -> Funktioniert.
- Opus: Erste Antwort -> Funktioniert.
Drei Sonnet-Anfragen verbrauchen mehr Tokens als eine Opus-Anfrage. Plus: Jede Korrektur-Runde sendet den bisherigen Kontext erneut mit. Das summiert sich.
Preisvergleich
| Sonnet 4.5 | Opus 4.5 | |
|---|---|---|
| Input | $3 / 1M Tokens | $5 / 1M Tokens |
| Output | $15 / 1M Tokens | $25 / 1M Tokens |
| Verhältnis | 1x | 1,67x |
Opus kostet pro Token 67% mehr. Aber wenn Opus 65% weniger Tokens pro Aufgabe braucht, ist die Rechnung:
- Sonnet: 100.000 Tokens x $15 = $1,50 Output-Kosten
- Opus: 35.000 Tokens x $25 = $0,88 Output-Kosten
Die Token-Effizienz kann den höheren Preis pro Token ausgleichen. Nicht immer, aber oft genug, dass sich die Rechnung lohnt.
Wann Sonnet die richtige Wahl ist
Tägliches Coding
Für Routineaufgaben liefert Sonnet zuverlässige Ergebnisse:
- Einzelne Funktionen schreiben
- Unit Tests erstellen
- Bug Fixes in überschaubarem Scope
- Dokumentation generieren
- Kleine Refactorings innerhalb einer Datei
Budget-bewusste Teams
Wenn das monatliche KI-Budget begrenzt ist, macht Sonnet für die Masse der Aufgaben Sinn. 80% der täglichen Coding-Aufgaben sind Routine. Sonnet löst sie zuverlässig.
Schnelle Iterationen
Sonnet antwortet schneller als Opus. Für Workflows, in denen du viele kleine Anfragen in kurzer Zeit stellst, kann die geringere Latenz einen Unterschied machen.
Prototyping
Beim Prototyping zählt Geschwindigkeit mehr als Perfektion. Sonnet liefert schnelle Ergebnisse für Konzepte, die sich noch ändern werden.
Wann Opus die richtige Wahl ist
Komplexe Refactorings
Ein Refactoring, das 20 Dateien betrifft, braucht ein Modell, das die Gesamtarchitektur versteht. Opus erkennt Abhängigkeiten zwischen Dateien besser und macht weniger Fehler bei koordinierten Änderungen.
Architektur-Entscheidungen
"Soll ich hier das Strategy Pattern oder ein einfaches Switch Statement verwenden?" Opus trifft bessere Architektur-Entscheidungen, weil es den breiteren Kontext besser verarbeitet.
Multi-File-Änderungen
Ein neues Feature, das Controller, Service, Repository, Tests und Migration braucht. Opus plant die Änderungen über alle Dateien hinweg konsistenter.
Legacy-Code
Große, gewachsene Codebasen mit inkonsistenten Patterns. Opus navigiert besser durch Code, der nicht nach Lehrbuch geschrieben ist.
Debugging komplexer Probleme
"Die App crasht sporadisch unter Last, aber nur wenn Feature X und Feature Y gleichzeitig aktiv sind." Opus kann mehr Kontext gleichzeitig verarbeiten und findet die Ursache häufiger.
Opus 4.6: Adaptive Thinking
Opus 4.6 bringt zwei neue Eigenschaften:
1 Million Token Context Window
Das ist 5x mehr als bei Opus 4.5 (200K Tokens). Praktisch bedeutet das: Opus 4.6 kann eine komplette Codebasis im Kontext halten. Kein "zu viele Dateien, ich kann nicht alles gleichzeitig sehen" mehr.
Für große Projekte ist das ein qualitativer Sprung. Statt Dateien einzeln zu analysieren und den Kontext zu verlieren, sieht Opus 4.6 das ganze Bild.
Adaptive Thinking mit 4 Effort-Levels
Opus 4.6 passt seinen Denkaufwand an die Komplexität der Aufgabe an:
| Level | Anwendung | Beschreibung |
|---|---|---|
| Low | Einfache Fragen, Formatierungen | Schnelle Antwort, minimaler Denkaufwand |
| Medium | Standard-Coding-Aufgaben | Normaler Denkprozess |
| High | Komplexe Architektur, Debugging | Ausführlicher Denkprozess |
| Max | Die schwierigsten Probleme | Maximaler Denkaufwand, längere Antwortzeit |
Das System wählt automatisch das passende Level. Einfache Aufgaben werden schneller beantwortet, weil das Modell nicht unnötig "nachdenkt". Komplexe Aufgaben bekommen die volle Denkleistung.
Für den Nutzer bedeutet das: schnellere Antworten bei einfachen Anfragen, ohne bei schwierigen Problemen Qualität zu verlieren.
Praktische Entscheidungshilfe
Frage 1: Wie komplex ist die Aufgabe?
- Einzelne Datei, klarer Scope: Sonnet reicht.
- Mehrere Dateien, Abhängigkeiten: Opus bevorzugen.
- Ganze Architektur betroffen: Opus oder Opus 4.6.
Frage 2: Wie gut kennst du den Code?
- Dein eigener Code, du weißt wo alles ist: Sonnet. Du kannst Fehler schnell erkennen und korrigieren.
- Fremder oder Legacy-Code: Opus. Es findet sich besser zurecht und braucht weniger Hilfe.
Frage 3: Wie wichtig ist das Ergebnis?
- Prototyp, wird morgen geändert: Sonnet.
- Produktionscode, muss sofort funktionieren: Opus.
- Sicherheitskritisch: Opus, plus manuelles Review.
Frage 4: Wie viel Budget hast du?
- Unter $50/Monat: Sonnet für alles, Opus für die 2-3 schwierigsten Aufgaben.
- $50-200/Monat: Sonnet für Routine, Opus für Features und Refactorings.
- Über $200/Monat: Opus als Standard. Die Token-Effizienz macht den Preisunterschied wett.
Mehr dazu: Claude Code Preise 2026 und Claude Pro vs. Max im Vergleich.
Die Clawdify-Perspektive
Bei Clawdify laufen beide Modelle auf dedizierter M4 Mac Mini Hardware. Die Konfiguration legt fest, welches Modell für welche Aufgabe genutzt wird. Für die meisten Kunden empfehlen wir:
- Standard: Opus 4.5 als Default-Modell
- Opus 4.6: Für große Codebasen und komplexe Architektur-Aufgaben
- Sonnet 4.5: Für kostenbewusste Teams als Fallback bei einfachen Aufgaben
Die Modellwahl wird in der CLAUDE.md konfiguriert und lässt sich jederzeit ändern. Wie du Claude Code optimal konfigurierst und einsetzt, erfährst du in unseren Claude Code Best Practices.
FAQ
Ist Opus immer besser als Sonnet?
Nein. Für einfache, klar abgegrenzte Aufgaben liefert Sonnet vergleichbare Ergebnisse, schneller und günstiger. Der Unterschied zeigt sich bei komplexen, mehrdeutigen oder vielschichtigen Aufgaben.
Wie viel teurer ist Opus pro Monat?
Das hängt von der Nutzung ab. Durch die höhere Token-Effizienz (bis zu 65% weniger Tokens pro Aufgabe) ist der Gesamtpreis oft näher an Sonnet als der Listenpreis vermuten lässt. Typisch: 20-40% Mehrkosten bei deutlich besserem Output. Praktische Tipps zur Optimierung findest du in unserem Artikel Claude Code Kosten senken.
Kann ich zwischen Modellen wechseln?
Ja. In Claude Code kannst du das Modell pro Session wählen. Manche Teams nutzen Sonnet für den Alltag und wechseln für schwierige Aufgaben zu Opus.
Was ist SWE-bench?
SWE-bench Verified ist ein Benchmark, der echte GitHub Issues als Testfälle verwendet. Das Modell muss den Bug in einem realen Open-Source-Projekt finden und beheben. Es ist der anerkannteste Benchmark für KI-Coding-Fähigkeiten.
Lohnt sich Opus 4.6 jetzt schon?
Opus 4.6 mit dem 1M Token Context Window lohnt sich besonders für große Codebasen (über 100 Dateien) und Projekte, bei denen viel Kontext nötig ist. Adaptive Thinking macht es auch für einfache Aufgaben effizient.
Wie messe ich, welches Modell für mich besser ist?
Nutze /cost in Claude Code, um die Kosten pro Session zu tracken. Vergleiche: Wie viele Korrekturen brauchst du mit Sonnet vs. Opus? Wie lange dauert eine Aufgabe insgesamt? Die Gesamtkosten (Tokens + deine Zeit) entscheiden.
Gibt es noch andere Claude-Modelle?
Ja. Haiku ist das kleinste und günstigste Modell. Für Coding-Aufgaben ist es aber deutlich schwächer als Sonnet und Opus. Es eignet sich für einfache Textverarbeitung, nicht für anspruchsvolles Coding.
Wann kommt Opus 4.6 offiziell?
Opus 4.6 ist bereits als Modell verfügbar. Es bietet 1M Token Context Window und Adaptive Thinking mit vier Effort-Levels. Die Benchmark-Ergebnisse für SWE-bench stehen noch aus.
OpenClaw Setup ohne Aufwand
Clawdify liefert einen vorkonfigurierten OpenClaw-Agenten auf dedizierter M4 Hardware. Wir installieren, du nutzt.
Setup anfragen