Teknologi

OpenAI’s nye stemmemodel tænker inde i selve lydsløjfen, og pausen, der afslørede AI, forsvinder

Pausen er det, der afslører. Indtil nu fungerede stemme-AI sådan — den transskriberede tale, sendte teksten til en sprogmodel, fik svaret tilbage og syntetiserede det til lyd igen. Hvert skridt tager tid. Brugeren hører stilhed, ved, at noget behandles i den anden ende, og mærker sømmen. OpenAI's nye GPT-Realtime-2 kollapser hele den pipeline til én enkelt model, hvor ræsonnementet foregår inde i selve lydsløjfen — og sømmen forsvinder.
Susan Hill

OpenAI lancerede i denne uge tre nye lydmodeller i sit Realtime API — GPT-Realtime-2, GPT-Realtime-Translate og GPT-Realtime-Whisper. Hovednavnet er den første. Virksomheden beskriver den som den første stemmemodel med “ræsonnement af GPT-5-klasse“, bygget så én model klarer lyd ind og lyd ud — med tænkningen vævet ind i samtalen i stedet for mast ind mellem transskriptions- og syntese-trinene. Tallene, der bærer det, er konkrete. Big Bench Audio-scoren sprang fra 81,4 procent til 96,6 procent sammenlignet med den tidligere referencemodel. Audio MultiChallenge steg fra 34,7 procent til 48,5 procent. Kontekstvinduet voksede fra 32.000 tokens til 128.000 — plads nok til at holde en hel kundehistorik under et opkald.

Den strukturelle forskydning er sværere at se i benchmarks. I tre år har enhver, der byggede en stemmeagent til drift, været nødt til at sy stacken sammen i hånden — Whisper eller Deepgram til transskription, en LLM til ræsonnement, ElevenLabs eller Cartesia til stemmen, og promptarbejde til at maskere latensen. Hvert hop mellem dele kostede millisekunder og klarhed. Brugeren hørte et “lad mig lige tjekke det” stoppet ind af et script, derefter intet, mens modellen tænkte, og til sidst svaret. GPT-Realtime-2 leverer de stilladser som indbygget adfærd. Præambler lader agenten sige “lad mig lige tjekke det”, mens den kalder værktøjer, så brugeren ikke sidder i stilhed. Parallelle værktøjskald lader modellen affyre flere backend-forespørgsler samtidig og fortælle, hvilken der er i gang. Genoprettelsesadfærden fanger fejl og bringer dem frem i stedet for at fryse samtalen.

Den kontroloverflade, der åbner sig for udviklere, er den mest interessante del. “Ræsonneringsindsats” er konfigurerbar — minimal, low, medium, high og xhigh — med low som standard for at holde latensen lav på simple forespørgsler. En agent, der svarer “hvornår lukker I?”, har ikke brug for ræsonnement af GPT-5-klasse. En agent, der følger en kunde igennem en refusionssag, har. Den samme model kan instrueres i, hvor hårdt den skal tænke fra tur til tur, hvilket er en reel ændring i forhold til den tidligere model, hvor ræsonneringsdybden var fast og udvikleren valgte mellem hurtig og klog ved deployment.

Skepsis har sin plads. “Ræsonnement af GPT-5-klasse” er en markedsføringslinje, ikke en verificerbar påstand — uden uafhængige benchmarks på realistisk dialog forbliver sammenligningen intern. Stemmeagenter har en separat fejltilstand, som benchmarks fanger dårligt — øjeblikket, hvor agenten siger noget forkert med rolig, naturlig stemme. Bedre ræsonnement hjælper, men fjerner ikke problemet. Prisen vejer også. GPT-Realtime-2 koster 32 dollar pr. million lyd-input-tokens og 64 pr. million output-tokens. GPT-Realtime-Translate kører på 0,034 dollar pr. minut, GPT-Realtime-Whisper på 0,017. Billigt nok til kundeservice i stort omfang. Ikke så billigt, at man bruger det i konversationelle forbrugerprodukter uden at tænke sessionslængden igennem.

Driftskonteksten fortæller resten. Zillow tændte for boligsøgning ved stemme samme dag. Deutsche Telekom rullede stemmestøtte med direkte oversættelse ud i fjorten europæiske markeder. Begge er præcis det brugsscenarie, OpenAI prissætter til — lange, transaktionelle samtaler med tæt kontekst, hvor brugeren har gavn af, at agenten faktisk ræsonnerer i stedet for blot at slå op. Priceline bygger systemer, hvor rejsende håndterer hotelreservationer og følger flyforsinkelser udelukkende med stemmen. Mønstret bag de navne, OpenAI sender ud først, er tydeligt — det er de kunder, hvis tidligere stemmesystemer fungerede dårligst — callcentre, supportlinjer, transaktionsrejser. De steder, hvor brugeren i dag råber “operatør” ind i telefonen.

Modellerne er tilgængelige i Realtime API nu. Stemmeforbedringerne til ChatGPT er stadig på vej — “Stay tuned, vi koger”, sagde OpenAI. Sam Altman indrammede lanceringen omkring et adfærdsskifte — brugere griber i stigende grad til stemmen, når de taler med AI og har brug for at “dumpe” en masse kontekst. Hvis det mønster holder, begynder afstanden mellem stemme-AI og tekst-AI at lukke sig — og sømmen, der afslørede AI i telefonen, bliver sværere at høre.

Debat

Der er 0 kommentarer.