Anthropics Claude Fable 5 blokerer sin egen største styrke

I 27 år lå en enkelt fejl urørt inde i OpenBSD, et af de styresystemer, som banker, firewalls og serverne bag dagligdags websteder stoler på. Enhver, der kunne nå maskinen over et netværk, kunne få den til at gå ned, og i næsten tre årtier opdagede ingen det. En Anthropic-model ved navn Mythos gjorde. Nu har den model et offentligt ansigt: Anthropic har udgivet Claude Fable 5, den første version af sit mest kapable system, som enhver kan tilmelde sig og bruge.

Det, der gør Fable 5 værd at lægge mærke til, er ikke en placering på en liste. Det er, at modellen nedenunder læser software, som en erfaren revisor læser en kontrakt, indtil den finder den ene klausul, der får alt til at briste. Under et forskningsprogram, som Anthropic kalder Project Glasswing, arbejdede forhåndsversionen sig gennem mere end tusind open source-projekter, den frie og delte kode, der driver størstedelen af internettet, og markerede over 23.000 problemer. Mere end 10.000 af dem var alvorlige nok til at blive klassificeret som høje eller kritiske.

Detaljen, der bekymrede selv Anthropics egne forskere, er, at ingen lærte modellen dette. Virksomheden oplyser, at evnen til at finde og udnytte svagheder aldrig var et træningsmål: den opstod af sig selv, efterhånden som modellen ræsonnerede bedre om kode. FFmpeg er det tydeligste eksempel. En fejl havde gemt sig i 16 år i den software til videobehandling, motoren bag utallige streamingapps og medieafspillere, indlejret i en kodelinje, som automatiske testværktøjer havde udløst fem millioner gange uden nogensinde at se faren. Modellen så den.

For de fleste ligner intet af dette noget. Den software, Mythos gennemgik, er usynlig infrastruktur: browserens motor, styresystemets kerne, mediebiblioteket begravet inde i en telefon. Men det usynlige er netop problemet. De fejl, der kom frem, havde overlevet, fordi de boede i kode, der var for gammel, for kedelig eller for dyb til, at nogen blev ved med at genlæse den. Et værktøj, der kan genlæse det hele, utrætteligt, ændrer oddsene for dem, der vedligeholder internettets fundament, og i de forkerte hænder for dem, der vil angribe det.

Tal som disse betyder kun noget op mod en målestok. På CyberGym, en test af, om en model kan genskabe en reel sikkerhedsfejl, opnår Mythos-motoren i Fable 83,1 procent mod 66,6 procent for den tidligere Claude Opus 4.6, omtrent forskellen mellem en dygtig junioranalytiker og en specialist, der sjældent rammer ved siden af. Fremgangen stopper ikke ved sikkerhed. Analysevirksomheden Hex oplyste, at Fable var den første model, der kom over 90 procent i dens interne test, og tidlige brugere beskriver lignende spring inden for softwareudvikling, dataanalyse og grænsefladedesign.

Så kommer drejet. Den offentlige Fable 5 vil ikke gøre netop det, der gør den bemærkelsesværdig. Anthropic har spærret fire områder af, cybersikkerhed, biologi, kemi og en kopieringsteknik kaldet destillation, og når en forespørgsel glider ind i dem, overdrager Fable stille samtalen til den ældre og sikrere Claude Opus 4.8. Det sker sjældent, ifølge virksomheden, og tidlige data viser, at mindst 95 procent af sessionerne kører helt på Fable. Resultatet er et usædvanligt produkt: den mest kapable model, Anthropic har leveret, bevidst forhindret i at bruge sin skarpeste evne.

Det design efterlader spørgsmål, som lanceringen ikke helt besvarer. En spærre, der træder til side 5 procent af gangene, er stadig en spærre med sømme, og grænsen mellem at forklare, hvordan en software virker, og at forklare, hvordan man bryder den, er sjældent ren. Anthropic oplyser, at et eksternt bug bounty-program kørte i mere end 1.000 timer uden at finde en universel måde at omgå grænserne på, men det er virksomhedens egne tal, efterprøvet af ingen udefrakommende tilsynsmyndighed. Der er også en omkostning, de fleste mærker først: Fable 5 koster 10 dollar pr. million tokens ind og 50 pr. million ud, de omtrentlige enheder, en model tager betaling for at læse og skrive, det dobbelte af Opus 4.8. Og alle, der bruger den, opgiver noget mere stilfærdigt, for Anthropic gemmer nu 30 dages brugsdata selv for kunder, der normalt betaler for slet ingen opbevaring, og kalder det et værn mod misbrug.

Indtil videre afhænger adgangen af, hvordan du allerede bruger Claude. Udviklere når Fable 5 med det samme via Anthropics programmeringsgrænseflade, og en separat version ved navn Mythos 5 er gået til en lille gruppe forhåndsgodkendte organisationer, ved siden af en branchealliance, der omfatter Apple, Google, Microsoft, Nvidia og Linux Foundation, som alle arbejder på at lappe det, modellen finder, før angribere kan. Anthropic har afsat 100 millioner dollar i modelkreditter og 4 millioner i direkte donationer til de open source-sikkerhedsgrupper, der udfører reparationsarbejdet.

Den bredere udrulning følger en kalender. Abonnenter på Anthropics planer Pro, Max, Team og sædebaseret Enterprise får Fable 5 uden ekstra omkostning til og med 22. juni; fra 23. juni trækker brugen på kreditter. Om spærringerne holder, når millioner af nye brugere presser på dem, er den del, der endnu er uafklaret. Det mere slående faktum er ikke. En maskine kan nu læse koden under det moderne liv og finde de revner, der undslap alle i en hel generation, og spørgsmålet derefter er ikke længere, om den kan, men hvem der må bede den om det.

Tags: cybersikkerhed, Anthropic, tech-en1, AI-modeller, Project Glasswing, Claude Fable 5