Googles AI løste matematikgåder, der havde stået åbne i 56 år, for få hundrede dollars

Et forskningssystem fra Google DeepMind har leveret fuldstændige, maskinkontrollerede beviser for ni åbne problemer, som matematikeren Paul Erdős i sin tid stillede, to af dem uløste i 56 år. Det samme system afgjorde 44 formodninger hentet fra den netbaserede encyklopædi over heltalsfølger, lukkede et 15 år gammelt spørgsmål i algebraisk geometri og strammede en kendt grænse inden for konveks optimering. Det iøjnefaldende tal betyder mindre end metoden. Hvert eneste af disse beviser blev kontrolleret af en maskine, ikke blot påstået af en.

Erdős, der døde i 1996, efterlod hundredvis af præcise og stædige spørgsmål, mange lette at formulere og brutalt svære at lukke. Gennem årtier blev de en slags stående eksamen for faget. Følgeformodningerne stammer fra en offentlig database, som matematikere graver i efter mønstre, hvor en gættet formel kan ligge ubevist i årevis. Det er ikke konstruerede testopgaver lavet for at smigre en model. Det er den reelle pukkel i den åbne matematik.

Den skelnen er hele historien. Systemet, kaldet AlphaProof Nexus, skriver sine argumenter i Lean, et formelt sprog, hvis oversætter forkaster ethvert skridt, den ikke kan bekræfte. Et bevis går igennem eller gør ikke, uden plads til et selvsikkert afsnit, der senere viser sig forkert. For den, der vil afgøre, om en AI-‘opdagelse’ er virkelig, går grænsen her mellem en pressemeddelelse og et resultat.

Under motorhjelmen kører beviseren på Gemini 3.1 Pro, mens en lettere model står for rangeringen. Løkken er næsten kedelig. Modellen skitserer et bevis i Lean, oversætteren sender fejlene tilbage, og de fejl føder det næste forsøg. Det, der holder den ærlig, er den symbolske tilbagemelding, ikke den flydende prosa. Holdet byggede fire versioner af stigende kompleksitet, en af dem i stand til at frembringe og rangere konkurrerende bevisudkast. Alligevel løste den simpleste version, en ren løkke af model og oversætter, alle ni Erdős-problemer på egen hånd.

Økonomien er den stille forbløffende del. Hvert løst problem kostede få hundrede dollars i beregningstid. Spørgsmål, der havde slugt hele karrierer, blev lukket for cirka prisen på en weekendtur. Det pensionerer ikke matematikeren. Nogen skal stadig vælge, hvilke problemer der er værd at angribe, formulere dem i en form, systemet kan læse, og afgøre, hvad et svar betyder. Det, der ændrer sig, er regnestykket over, hvad der overhovedet er værd at forsøge.

Forbeholdene vejer tungere end overskriften. Ni løste ud af 353 forsøgte Erdős-problemer er en træfprocent på omkring 2,5. Følgetallet, 44 ud af 492, ligger under ni procent. Forfatterne siger lige ud, at de fleste af disse problemer fortsat er uden for rækkevidde, ikke mindst dem, der kræver omfattende ny teori, og at sejrene samler sig der, hvor Leans matematikbibliotek allerede er dybt. Fjern det menneskebyggede stillads og den udvalgte liste over mål, og systemet har kun lidt at stå på.

Forsigtigheden er fortjent. I en episode, der blev gjort grundigt grin med, meddelte et konkurrerende laboratorium, at dets model havde løst ti Erdős-problemer, indtil matematikere påpegede, at svarene allerede stod i den udgivne litteratur. Modellen havde fundet dem, ikke bevist dem. AlphaProof Nexus er bygget til at være immun over for den fejl. Et Lean-bevis af et kendt resultat er stadig et gyldigt bevis, og et Lean-bevis af noget ægte nyt kan ikke bluffes frem. Demis Hassabis, der leder DeepMind, lagde vægt på at sige, at arbejdet ikke er kunstig generel intelligens, en usædvanligt forsigtig bemærkning fra et firma, der sjældent er tilbageholdende med sine modeller.

Der er en finere gevinst, som forskerne fremhæver. Selv fejlforsøgene var nyttige. Fordi hvert delbevis kontrolleres formelt, kunne matematikere se præcis, hvilke delmål systemet kunne og ikke kunne lukke, uden at gennemtjekke hele argumentet i hånden. Maskinen holder op med at være et orakel og bliver en utrættelig medarbejder, der viser sit arbejde og peger på, hvor det svære stadig gemmer sig.

Resultatet står ikke alene. Det falder i samme periode som en separat påstand fra en konkurrerende ræsonnementsmodel, der efter sigende har modbevist en omkring 80 år gammel Erdős-formodning i diskret geometri, et fund, som aktive matematikere forfinede og bakkede op om. To laboratorier, to metoder, det ene lænet op ad formel verifikation og det andet op ad rå ræsonnementskæder, nåede den samme front med ugers mellemrum. Konkurrencen handler ikke længere om chatbots, der lyder kloge.

Arbejdet blev udfoldet i en artikel udgivet i denne måned, og metoderne hviler på åbne værktøjer, nærmere bestemt Lean og dets fællesskabsbyggede bibliotek, så udefrakommende grupper kan inspicere og køre beviserne igen i stedet for at tro på en virksomhedsblog. DeepMind har ikke sagt, om systemet når forskere uden for virksomheden. Tallet at holde øje med er ikke ni. Det er, om de 2,5 procent bliver til ti og derefter tyve, for den dag må diskussionen om, hvad disse maskiner skal bruges til, begynde forfra.

Tags: kunstig intelligens, Google, Gemini, Paul Erdős, AlphaProof Nexus, Automated Theorem Proving