Teknologi

Claude Opus 4.8 fanger fire gange flere af sine egne kodefejl

Susan Hill

Anthropic har opgraderet sin mest kapable model til Claude Opus 4.8, og den vigtigste ændring er ikke en større hjerne, men en mere forsigtig. Virksomheden siger, at modellen er omkring fire gange mindre tilbøjelig end sin forgænger til at lade fejl i sin egen kode passere ukommenteret, og at den hellere peger på de dele af en opgave, den er usikker på. For den, der overlader rigtigt arbejde til en AI, hvad enten det er at kode, lave en analyse eller betjene en computer, er den pålidelighed den egenskab, der faktisk tæller.

Svagheden ved nutidens AI-agenter er ikke dumhed, men selvsikkerhed. De leverer resultater, der ser færdige ud og læses glat, mens de stille bærer fejl med sig, og et system, der får lov at køre selv, bygger gerne næste skridt oven på den forrige fejl. Giv en agent en opgave i flere trin, og en enkelt forkert antagelse i starten kan brede sig gennem alt det følgende, så arbejdet kommer ind med en mine af at være færdigt og viser sig at være ødelagt, uden at det ses. En model, der viser sin egen tvivl i stedet for at male hen over den, er lettere at føre tilsyn med, fordi mennesket ved, hvor det skal kigge.

Det tydeligste bevis ligger i koden. Anthropic oplyser, at Opus 4.8 lader langt færre fejl i den kode, den frembringer, passere uden at markere dem, den stille bug, der dukker op i drift og ikke ved gennemgang. Investeringsselskabet Bridgewater Associates, en af de første til at teste, sagde, at modellen på eget initiativ pegede på problemer både i input og i resultaterne af en analyse, noget andre systemer rutinemæssigt overså. I vidensarbejde og finans er den farlige fejl netop den, ingen fanger i tide.

Benchmark-tallene støtter rammen uden at være kernen. Opus 4.8 skulle have fået 69,2 procent på SWE-Bench Pro, en test bygget af rigtige softwareopgaver, foran OpenAI’s GPT-5.5 og Googles Gemini 3.1 Pro. I Anthropics egne målinger slår den enhver tidligere Opus-model på en kodetest på hvert indsatsniveau og satte virksomhedens højeste registrerede resultat på en test i juridisk ræsonnement. Forspringene er reelle, men snævre, og benchmark-sejre forudsiger dårligt, hvordan en model opfører sig, når den laver gråt arbejde hele dagen.

Modellen kommer med nye værktøjer. En funktion i forskningsforhåndsvisning i Claude Code, kaldet dynamic workflows, lader Opus planlægge et stort job og derefter køre hundredvis af underagenter parallelt i én session, tænkt til migreringer, der spænder over hundredtusindvis af linjer kode, og med projektets eksisterende testsuite som målestok. Desuden lader en ny indstilling i Claude.ai og virksomhedens Cowork-miljø brugeren bestemme, hvor meget indsats, og hvor mange tokens, modellen lægger i et svar.

Forbeholdene sidder tæt på løfterne. Gevinsterne i pålidelighed hviler i høj grad på Anthropics egne tests, og et tal som fire gange mindre er en egen måling, ikke en uafhængigt revideret. Ærlighed er også svær at efterprøve udefra, for en model kan annoncere sin usikkerhed og alligevel tage fejl, eller hejse flaget over det forkerte. Dynamic workflows kommer kun som forhåndsvisning, ikke som færdig funktion, og fortællingen om hastighed er mindre gavmild, end den lyder, da den hurtige tilstand koster det dobbelte af standardtaksten og kun kaldes billigere i forhold til tidligere premium-priser.

For den, der ser på prisen, bliver standardadgang ved fem dollar pr. million input-tokens og femogtyve pr. million output, det samme som forrige Opus. Den hurtige tilstand kører med omkring to en halv gange hastigheden for ti og halvtreds dollar pr. million, hvilket gør den nye indsatsindstilling til lige så meget et budgetværktøj som en kvalitetsknap. Claude Opus 4.8 er fra nu tilgængelig via Anthropics udvikler-API under navnet claude-opus-4-8, og virksomheden siger, at den rulles ud overalt samme dag. Den kom torsdag, omkring seks uger efter Opus 4.7, et usædvanligt kort mellemrum, der fulgte en lunken modtagelse af den version og en række konkurrerende udgivelser fra OpenAI og Google. Den egentlige prøve er, om en model trænet til at tvivle på sig selv viser sig mere nyttig i det daglige arbejde end en trænet til at skinne på en liste, og den dom kommer fra de agenter, folk faktisk lader køre.

Debat

Der er 0 kommentarer.