Teknologi

To point bag Opus 4.6, fem gange billigere: Gemini 3.5 Flash skriver regnestykket om

Susan Hill

Google sendte Gemini 3.5 Flash på markedet mandag til 1,50 dollar per million input-tokens og 9 dollar per million output-tokens. Den nye model holder over 280 output-tokens i sekundet, beholder det samme kontekstvindue på en million tokens som forgængeren og lander i Artificial Analysis Intelligence Index på 55 point, ni over Gemini 3 Flash. Tirsdag morgen havde en r/Anthropic-tråd allerede sat grafen ved siden af Claude Opus 4.6 og stillet det spørgsmål, markedet har kredset om i seks måneder: hvornår holder to benchmark-point op med at være fem gange prisen værd?

Intelligence Index samler en kurv af offentlige evalueringer — ræsonnement, viden, kodning, matematik og løsning af agentiske opgaver — i en samlet score fra 1 til 100. Claude Opus 4.6 i adaptivt ræsonneringstilstand ligger på 57. Gemini 3.5 Flash, udgivet 19. maj, ligger på 55. Spring på ni point mellem versioner er det største enkelttrin, Flash nogensinde har registreret, stort nok til at den nye model nu matcher Anthropics forrige Sonnet på rå intelligens til en brøkdel af Sonnets pris.

Indramningen „klogere”, som Reddit-tråden brugte, overdriver kløften til fordel for Flash. På det rene Intelligence Index er Opus 4.6 stadig foran med to point. Grafen, der sprængte tråden, er ikke Intelligence Index isoleret. Det er visningen intelligens-effektivitet mod pris, hvor aksen laver et andet arbejde, og hvor Flash 3.5 ikke bare slår Opus 4.6. Den ligger i en klasse, hvor ingen anden er i nærheden.

Opus 4.6 tager omkring 6,25 dollar per million input-tokens og 25 per million output-tokens. Flash tager 1,50 og 9. For en chat-last vægtet to mod en til fordel for output ligger det effektive forhold tættere på 4,5x end på den runde „fem gange” fra trådens rubrik. Afrundingen er fair. Hastigheden gør billedet værre for flagskibet: Flash 3.5 holder over 280 output-tokens i sekundet, mens Opus 4.6 i ræsonneringstilstand med maksimal indsats kører omkring en tiendedel af det tempo på den samme benchmark-suite. For produkter, hvor en bruger stirrer på en markør — kode-assistenter, supportagenter, ethvert interaktivt flow — er latens en egenskab, prisen ikke køber tilbage.

For et år siden fyldte argumentet for at købe den dyreste model én linje. Kvalitetsspringet til næste niveau var stejlt nok til at prisforskellen blev en afrundingsfejl mod den leverede værdi. Grafen, tråden indsatte, er en anden graf. Marginalomkostningen ved de sidste to intelligenspoint er blevet hele prisbeslutningen for produktionslaster, og afrundingsfejlen lander nu tættere på 4,75 dollar af hver seks brugte.

Der er et rent argument for at beholde Opus 4.6 i stacken. Lang-kontekst-ræsonnement over hundredvis af sider, agent-loops hvor fejl ophober sig skridt for skridt, dokumentanalyse hvor to point i en aggregeret karakter skjuler markant større opgavespecifikke forsprong. Opus er stadig modellen, en ingeniør går til, når fejlmåden er „svaret var forkert”, ikke „svaret kom sent”. Andelen af produktionslaster, der ligner det, skrumper. Den er ikke nul, og det er præcis den stribe, hvor de 25 dollar pr. million tjener lønnen.

Chat-vendinger, der flytter hovedparten af fakturerbare tokens — udfærdigelse, opsummering, klassifikation, oversættelse, kode-autoudfyldning, kundeorienteret ræsonnement — ligger alle inden for Flashs rækkevidde. Spørgsmålet, ingeniørteamene stiller hvert kvartal, er ikke længere „hvilken model er bedst”. Det er „hvilken model giver mest per dollar ved acceptabel latens”. Det andet spørgsmål vinder Flash nu med en margen, der ikke kræver finurlig fortolkning.

Trådens sekundære indramning, at konsensus overalt er, at Opus 4.6 er bedre end 4.7, fortjener en blødere håndtering. Den er anekdotisk. Anthropics to seneste Opus-versioner har fået delte anmeldelser på kodeevalueringer og på stringens i værktøjsbrug, med teams der rapporterer regressioner i lange agent-loops på 4.7 og andre der rapporterer rene sejre på identiske laster. Begge observationer kan være sande på en gang, når adfærd justeres på mange akser mellem mindre versioner. De to modeller ligger desuden mindre end et point fra hinanden i det offentlige indeks, så samfundets splittelse minder mere om en smagsstrid end om en kapacitetsstrid. Det, der ikke er til debat, er at prisen på ingen af de to Opus rører sig.

Det dybere signal i Reddit-samtalen er, hvad brugerne ikke skændtes om. Ingen i tråden forsvarede Opus-prisen på grundlag af principper. Forsvarene, der dukkede op, var last-specifikke. „Opus vinder stadig hos mig i denne agent-loop.” „Opus bliver i vores pipeline til dokumentgennemgang.” De er virkelige, men det er last-forsvar, ikke flagskibs-forsvar. Et flagskib skal vinde over spektret, ikke i en enkelt bane.

To points intelligensafstand. Femdobbelt pris. Seksdobbelt hastighedsfordel den anden vej. Et kontekstvindue på en million tokens til 1,50 dollar pr. million input. Multimodalt input, Elo på agentiske opgaver over 1650, halvfems procents rabat på cached input. Anthropics svar i næste kvartal vil fortælle sin egen historie. Sværere at skrive, i maj 2026, er argumentet, en sælger skal bære med ind til et kundemøde.

Debat

Der er 0 kommentarer.