Standard-Plot · Qualität vs. Speed
Die Pareto-Frontier
Oben rechts ist am besten: höhere Output-Geschwindigkeit und höhere Qualität. Qorinix-Lanes sitzen auf der Frontier mit Qualität bei einer Geschwindigkeit, die öffentliche Referenzen nicht erreichen.
Standard-Plots · Per-Metric Ranking
Wo jedes Modell bei der wichtigsten Metrik landet
Sortierte Balkenplots machen Trade-offs klar. Qorinix dominiert Speed, Latenz und Kosten und bleibt bei Qualität konkurrenzfähig.
Detailliertes Leaderboard
Sortierbares, filterbares Leaderboard
Nach Kategorie filtern und nach jeder Spalte sortieren. Qorinix-Zeilen sind orange markiert.
| # | Lane / Modell | Qualität | TTFT p50 | Total p95 | Output Speed | JSON | Success | Kosten / M | Cache Saving | Value |
|---|
Kategorie-Gewinner
Best-in-class pro Workload
Verschiedene Workloads bewerten Trade-offs unterschiedlich. Hier sind die Gewinner nach Absicht.
Echtzeit-Agenten
Qorinix 3.1
TTFT unter 150 ms und Durchsatz über 230 tok/s für Voice-Agenten, Gaming-NPCs und Trading-Alerts.
Warum: niedrigste TTFT und Gesamtlatenz mit adaptivem Routing.High-volume Support Automation
Qorinix 3.2
62% Cache Saving bei wiederholten Anfragen mit Qualität nahe Frontier-Referenzmodellen zu weniger als halben Kosten.
Warum: semantischer Cache + Quality Lane hält Unit Economics gesund.Long-form Reasoning
Reference B
Höchster Reasoning Index im öffentlichen Referenzset; mit Qorinix-Routing für speed-tiered Resilienz kombinierbar.
Hinweis: 4-5x langsamere TTFT und rund 3.5x höhere Kosten.Cost-sensitive Batch
Reference A
Günstigste Non-Qorinix-Lane; nützlich für Offline-Batch, wo Latenz nicht zählt.
Hinweis: niedrige Cache-Savings und mittlere Qualität.Methodik
Wie der Benchmark berechnet wird
Transparenz zu Prompt-Mix, Messung und was serverseitig gehalten wird.
1 · Prompt-Mix
14,200 Prompts pro Tag über Reasoning (35%), Code (25%), JSON / Tool-use (20%), Creative (15%) und Short-form Chat (5%). Prompts rotieren alle 72 Stunden.
2 · Latenzmessung
TTFT wird serverseitig vom Request-Eingang bis zum ersten Response-Byte gemessen. Total latency läuft bis zum letzten Token.
3 · Qualitäts-Scoring
Composite aus modellbewerteter Präferenz, task-deterministischen Checks und Kohärenz der Antwort.
4 · Kosten
Ausgewiesen als Listenpreis pro 1M Output-Tokens am Messtag. Cache Savings werden auf Qorinix-internem Traffic berechnet.
5 · Was serverseitig bleibt
Exakte Modell-IDs, API-Routen, Zugangsdaten, Resilienz-Reihenfolge und Routing-Gewichte werden im öffentlichen Leaderboard nie offengelegt.
6 · Updates
Zahlen aktualisieren kontinuierlich aus Arena-Produktionsverkehr. Sichtbar ist das rollende 72-Stunden-Aggregat.
Teste diese Zahlen selbst.
Starte denselben Prompt gegen alle sechs Lanes in der Live-Arena.
