KI-Modelle
Das billigste Modell kam fast an die Spitze
DeepSeek v4-pro für 13 Cent auf Opus-Niveau, Qwen3-max für ~20 Dollar – ein App-Absturz. Wie Token-Preise, Reasoning-Tokens und Unzuverlässigkeit die echten KI-Kosten treiben.

Teil 4 der Reihe „5 KI-Modelle, dieselbe Aufgabe" — Teil 1: Grüne Tests beweisen nichts · Teil 2: Selbstbewusst falsch · Teil 3: Funktion leicht, App = Lackmustest · Teil 4: Kosten · Teil 5: KI im eigenen Haus
Auf einen Blick
- DeepSeek v4-pro lieferte eine lauffähige App auf Opus-Niveau — für 13 Cent.
- Qwen3-max kostete rund 150-mal so viel — und produzierte eine App, die nicht startete.
- Die durchgefallenen Modelle waren in diesem Test die teuersten.
- Versteckter Kostentreiber: „Reasoning-Tokens" (das unsichtbare Nachdenken des Modells) zählen als Ausgabe — also zum teuersten Tarif. Sie explodieren genau dann, wenn ein Modell sich festdreht.
- Fazit: Qualität gibt es für Centbeträge. Der teure Posten ist nicht der Listenpreis, sondern Unzuverlässigkeit.
Kosten sind selten das, was man denkt
Beim Thema KI-Kosten denken die meisten zuerst ans Abo. In der Praxis rechnet man für API-Zugänge pro Token ab — und die Preisunterschiede zwischen Modellen sind so extrem, dass die Modellwahl die Ökonomie eines ganzen Produkts kippen kann. Nur meist nicht in die Richtung, die man erwartet.
Ein typisches Vorurteil: „Das gute Modell kostet viel, das billige taugt nichts." Was ich in diesem Test gesehen habe, war das genaue Gegenteil. Das günstigste Modell kam fast auf die Qualität der teuren Referenz. Das teuerste produzierte eine App, die beim ersten npm run dev abstürzte.
Lass mich das mit echten Zahlen durchgehen.
Die Listenpreise — und warum sie erst der Anfang sind
Erst der Überblick: Was berechnen die Anbieter offiziell, Stand Juni 2026? Die Einheit ist Dollar pro Million Token — bei kleinen Läufen entspricht das Tausendstel-Cent-Beträgen, bei Produktionssystemen mit hohem Durchsatz wird es relevant.
| Modell | Eingabe ($/Mio Token) | Ausgabe ($/Mio Token) | Faktor Ausgabe vs. DS-flash |
|---|---|---|---|
| DeepSeek v4-flash | $0,09 | $0,18 | 1× |
| DeepSeek v4-pro | $0,44 | $0,87 | ~5× |
| Qwen3-max | $1,20 | $6,00 | ~33× |
GLM-4.6 läuft über ein Abo (~$20/Monat), nicht pay-per-token — deshalb steht es hier nicht drin. Dazu gleich mehr.
Schon auf dem Papier fällt auf: Ein Ausgabe-Token bei Qwen3-max kostet über 33-mal so viel wie bei DeepSeek-flash. Wer viel Ausgabe erzeugt — zum Beispiel weil ein Modell lange „nachdenkt" — zahlt bei Qwen eine ganz andere Rechnung als bei DeepSeek.
Aber die Listenpreise sind erst der Rahmen. Was man wirklich zahlt, hängt davon ab, wie viele Tokens ein Lauf tatsächlich erzeugt.
Reale Lauf-Kosten — und was sie über Qualität verraten
Ich hab für jeden Lauf (Aufgabe 2: das Mahnwesen-Cockpit, eine vollständige Next.js-App) die usage-Daten aus der API gezogen. Heraus kamen diese echten Kosten:
| Modell | Reale Lauf-Kosten | Bewertung | App startete? |
|---|---|---|---|
| DeepSeek v4-flash | ~$0,10 (≈ 9 Cent) | 7,5–8,0 / 10 | ja |
| DeepSeek v4-pro | ~$0,13 (≈ 12 Cent) | 8,5 / 10 (Opus-Niveau) | ja |
| GLM-4.6 | ~$20 (Monats-Abo) | 6,5 / 10 | nein |
| Qwen3-max | ~$20 (netto) | 5,5 / 10 | nein |
Zur Qwen-Zahl: Ursprünglich standen ~$60 auf der Rechnung — davon war aber ein fehlkonfiguriertes Regions-Abo (401-Fehler, Tokens wurden nie verarbeitet). Das hat Alibaba erstattet. Bleiben ~$20 echte Qwen-Nutzung. Das ändert nichts am Bild: rund 20 Dollar für eine App, die nicht startet, gegen 13 Cent für eine App auf Referenzniveau.
Zur GLM-Zahl: Die $20 sind ein Monats-Abo, kein Token-Preis. Wer GLM sowieso abonniert hat, zahlt für einen weiteren Lauf keinen Aufpreis — deshalb ist der direkte Vergleich mit DeepSeeeks Cent-Beträgen nicht fair. Trotzdem: GLM hat die App nicht zum Laufen gebracht, egal wie man die Kosten einordnet.
Das Muster bleibt stabil: Die Modelle, die durchfielen, waren die teuersten.
Der saubere per-Token-Vergleich: Faktor ~150×
Wenn man nur die sauber vergleichbaren pay-per-token-Zahlen nimmt:
- DeepSeek v4-pro: $0,13 → App startet, 8,5/10, alle 33 Tests grün
- Qwen3-max: ~$20 (echte Token-Nutzung) → App startet nicht, 404 auf der Kernroute, 5,5/10
Das ist ein Faktor von rund 150 — für ein schlechteres Ergebnis.
Dieser Faktor ergibt sich nicht nur aus den Listenpreisen. Er entsteht, weil Qwen deutlich mehr Tokens produziert hat als DeepSeek. Warum, kommt im nächsten Abschnitt.
Ein konkreter Lauf — die Multiplikation
Abstrakte Millionen-Token-Preise sagen wenig. Lass mich einen typischen Lauf mit echten Zahlen durchrechnen. Die Zahlen entsprechen ungefähr dem, was der DeepSeek-flash-Lauf gezeigt hat:
Annahme: 506 Eingabe-Tokens, 1.500 Ausgabe-Tokens
Für DeepSeek v4-flash:
Eingabe: 506 / 1.000.000 × $0,09 = $0,0000455 (≈ 0,005 Cent)
Ausgabe: 1500 / 1.000.000 × $0,18 = $0,000270 (≈ 0,027 Cent)
Gesamt: ≈ $0,000316 (≈ 0,03 Cent)
Für DeepSeek v4-pro (gleiche Token-Menge):
Eingabe: 506 / 1.000.000 × $0,44 = $0,000223 (≈ 0,02 Cent)
Ausgabe: 1500 / 1.000.000 × $0,87 = $0,001305 (≈ 0,13 Cent)
Gesamt: ≈ $0,001528 (≈ 0,15 Cent)
Für Qwen3-max (gleiche Token-Menge):
Eingabe: 506 / 1.000.000 × $1,20 = $0,000607 (≈ 0,06 Cent)
Ausgabe: 1500 / 1.000.000 × $6,00 = $0,009000 (≈ 0,90 Cent)
Gesamt: ≈ $0,009607 (≈ 1 Cent)
Für diesen einen kleinen Lauf mit identischen Token-Mengen: Qwen3-max kostet schon ~20× mehr als flash, ~6× mehr als pro. Im echten Lauf war die Lücke weit größer, weil Qwen deutlich mehr Tokens erzeugt hat. Warum das so ist, kommt jetzt.
Der versteckte Kostentreiber: Reasoning-Tokens
Moderne LLMs — besonders solche, die auf „Chain-of-Thought" oder ähnliche Reasoning-Verfahren optimiert sind — denken vor der Antwort nach. Das passiert unsichtbar: Im fertigen Output sieht man nur die finale Antwort, aber hinter den Kulissen hat das Modell Hunderte oder Tausende Tokens „gedacht".
Diese Reasoning-Tokens zählen als Ausgabe-Tokens — also zum teuersten Tarif.
Das usage-Objekt jeder API-Antwort macht sie sichtbar:
{
"usage": {
"prompt_tokens": 506,
"completion_tokens": 4280,
"prompt_cache_hit_tokens": 0,
"prompt_cache_miss_tokens": 506,
"completion_tokens_details": {
"reasoning_tokens": 2950
}
}
}
In diesem Beispiel: 4.280 Completion-Tokens insgesamt, davon 2.950 reine Reasoning-Tokens. Fast 70% des Outputs war Nachdenken — kein sichtbarer Inhalt. Und alles zum Ausgabe-Preis abgerechnet.
Das Problem ist nicht das Nachdenken an sich. Das Problem ist, wie das Nachdenken wächst. Reasoning-Tokens skalieren nicht proportional zur Aufgabe, sondern zum Aufwand des Modells, sich zu orientieren. Ein Modell, das sich in Kreisen dreht, das immer wieder neu ansetzt, das Anforderungen nicht durchhält — das erzeugt Berge von Reasoning-Tokens, ohne dass am Ende mehr Wert herauskommt.
Genau das ist Qwen3-max im Test passiert: viel Nachdenken, hohe Rechnung, eine App, die nicht startete.
DeepSeek-flash dagegen kam direkt auf den Punkt. Wenige Reasoning-Tokens, wenige Ausgabe-Tokens insgesamt, niedrige Rechnung, lauffähiges Ergebnis.
Reasoning-Token-Verbrauch ist damit ein Frühindikator: Ein Modell, das sich festdreht, signalisiert das durch explodierende Reasoning-Tokens — bevor man das Ergebnis sieht. In Produktionssystemen lohnt es sich, das zu messen.
Die Kostenformel komplett
Gesamtkosten = (prompt_tokens × preis_in)
+ ((completion_tokens - reasoning_tokens) × preis_out)
+ (reasoning_tokens × preis_out)
vereinfacht:
= (prompt_tokens × preis_in)
+ (completion_tokens × preis_out)
Reasoning-Tokens stecken bereits in completion_tokens — separate Berechnung braucht man nicht. Aber der Blick auf completion_tokens_details.reasoning_tokens verrät, wie viel des teuren Outputs überhaupt sichtbarer Code ist.
Caching als Gegengewicht
Manche APIs geben prompt_cache_hit_tokens zurück. Cache-Hits kosten je nach Anbieter bis zu 120× weniger als Cache-Misses. Bei langen System-Prompts, die sich in einem Agenten-Loop wiederholen, kann das die realen Kosten erheblich senken. Im Test war Caching nicht ausschlaggebend — aber in Produktionssystemen mit vielen Tool-Schleifen sollte man es einkalkulieren.
Was man daraus mitnimmt
Für die meisten Alltagsaufgaben — CRUD, Komponenten, Geschäftslogik, Tests — ist die Modellwahl keine Geldfrage. Gute Arbeit kostet Centbeträge.
Der teure Posten ist nicht der Listenpreis, sondern Unzuverlässigkeit. Ein Modell, das sich festdreht, verbrennt Token-Budget und liefert nichts Lauffähiges. Das kostet doppelt: die Tokens, und die Zeit, das Ergebnis hinterher selbst zu richten oder den Lauf zu wiederholen.
Was das für die Praxis heißt:
- Beim Modell darf man günstig anfangen.
- Auf Verlässlichkeit optimieren, nicht auf den Listenpreis.
- Reasoning-Token-Verbrauch beobachten — er ist ein Frühindikator für ein Modell, das nicht weiterkommt.
- Das billigste Modell war hier nicht das schlechteste. Im Gegenteil.
Häufige Fragen
Was kostet KI-Coding pro Aufgabe? Im Test: 9–13 Cent für eine vollständige Next.js-App mit DeepSeek (pay-per-token). Das sind keine Ausreißer — bei typischen Coding-Aufgaben mit wenigen Tausend Tokens landen die meisten Modelle unter einem Dollar pro Lauf. Der teure Fall tritt ein, wenn ein Modell sich festdreht und Reasoning-Tokens explodieren.
Warum ist Qwen3-max so viel teurer als DeepSeek? Zwei Faktoren: (1) Der Ausgabe-Token kostet bei Qwen3-max $6,00/Mio, bei DeepSeek-flash $0,18/Mio — ein Listenpreis-Faktor von 33×. (2) Qwen hat im Test deutlich mehr Tokens erzeugt, weil das Modell länger gebraucht hat, sich zu orientieren. Das Ergebnis war trotzdem schlechter. Faktor insgesamt: ~150× mehr Kosten für 5,5/10 statt 8,5/10.
Was sind Reasoning-Tokens und warum kosten sie Geld?
Reasoning-Tokens sind das unsichtbare Nachdenken eines Modells vor der Antwort — Chain-of-Thought, interne Planung, Orientierung. Sie tauchen im Output nicht auf, werden aber als Ausgabe-Tokens abgerechnet, also zum teuersten Tarif. Man findet sie im usage-Objekt der API unter completion_tokens_details.reasoning_tokens.
Ist DeepSeek-flash für produktiven Einsatz geeignet? Im Test: 7,5–8,0 von 10, App startet, alle Tests grün. Für 80% der typischen Coding-Aufgaben (CRUD, Komponenten, Geschäftslogik) reicht das. Für architektonisch schwierige Aufgaben oder Edge-Cases empfiehlt sich DeepSeek-pro oder Opus als Referenz.
Lohnt sich Prompt-Caching? Bei Single-Läufen kaum — die Eingabe-Token sind ohnehin günstig. Bei agentenbasierten Systemen mit vielen Tool-Runden und langen System-Prompts kann Caching 50–90% der Eingabe-Kosten sparen, weil Cache-Hits bis zu 120× günstiger sind als Cache-Misses.
Methodik-Kasten
- Abrechnung: DeepSeek pay-per-token (Cent-Beträge); GLM Abo (~$20/Monat, kein Token-Vergleich möglich); Qwen3-max ~$20 echte Token-Nutzung (fehlkonfiguriertes Regions-401-Abo von Alibaba erstattet, fällt raus).
- Preise (Stand Juni 2026): DeepSeek-flash $0,09/$0,18 · DeepSeek-pro $0,44/$0,87 · Qwen3-max $1,20/$6,00 (je Mio Token In/Out). Vor eigenen Kalkulationen frisch prüfen — Anbieter ändern Preise.
- Token-Quelle:
usage-Objekt jeder API-Antwort, automatisch geloggt. Relevante Felder:prompt_tokens,completion_tokens,completion_tokens_details.reasoning_tokens,prompt_cache_hit_tokens. - Kostenformel:
Kosten = Eingabe-Tokens × Preis_in + Ausgabe-Tokens × Preis_out— Reasoning-Tokens zählen als Teil der Ausgabe. - Aufgabe 2: Mahnwesen-Cockpit (vollständige Next.js-App, 8 Bewertungskriterien, Build + Test echt ausgeführt). Alle Modelle über dieselbe CLI (Claude Code), gleiche Prompts, gleiche Tools.
- Fairness: Claude Code ist auf Claude getunt → leichter Nachteil für Fremdmodelle. DeepSeek erreicht Opus-Niveau trotzdem → das Ergebnis ist eher eine Untergrenze.
Nächster Teil: „Erstklassige KI, die im eigenen Haus laufen darf" — über Datensouveränität, DSGVO und warum „open-weight" nicht „läuft überall" heißt.
Teil 4 der Reihe „5 KI-Modelle, dieselbe Aufgabe". Lesezeit: ~10 Min. Stand: Juni 2026.
Reihe: Methodik & Setup · Grüne Tests beweisen nichts (Teil 1) · Selbstbewusst falsch (Teil 2) · Die letzte Meile (Teil 3a) · Subtile Bugs (Teil 3b) · Token-Kosten (Teil 4) · Datensouveränität (Teil 5)