Microsofts nye AI kan efterligne stemmer ud fra 3 sekunders lydklip

Det er allerede muligt at skabe virkelighedstro og kreative billeder på få sekunder udelukkende ved at skrive en tekstkommando i værktøjer som Midjourney og DALL·E. Andre værktøjer som ChatGPT er i stand til at føre menneskelignende samtaler.

Nu er Microsoft klar med en ny AI: Tekst til tale-AI-modellen VALL-E.

Læs også: Hvad er kunstig intelligens? Sådan ser fremtiden med AI ud

VALL-E kan efterligne enhver persons stemme

Den nye AI er i stand til at lære og efterligne en persons stemme ud fra et kort lydklip på kun tre sekunder. Efter at have lært personens stemme kan AI’en herefter sige hvad som helst med personens stemme – og det sker tilmed på en måde, hvor personens følelsesmæssige tone og det akustiske miljø bevares.

Ifølge Microsoft er der tale om en såkaldt neural codec language model, som bygger på teknologien EnCodec – et lydcodec udviklet af Meta, der opnår effektiv komprimering ved brug af AI.

Microsofts nye løsning analyserer, hvordan en person lyder ud fra de korte lydklip på 3 sekunder. Herefter opdeles lydoplysninger i mindre komponenter kaldet tokens. Ved brug af EnCodec bruger Microsofts AI træningsdata til at mache det, som den ’ved’ om, hvordan samme stemme ville lyde, hvis der blev sagt andet end de lydkomponenter, der indgår i det korte tre sekunders lydklip.

Algoritmens viden om talesyntese stammer fra lydbiblioteket LibriLight, der er indsamlet af Meta. Det består af mere end 60.000 timer tale på engelsk fra mere end 7.000 forskellige personer. Indholdet kommer fra offentligt tilgængelige lydbøger gennem LibriVox. For at VALL-E kan efterligne en persons stemme kræver det, at der allerede indgår en stemme i træningsmaterialet, som nogenlunde minder om ens egen stemme.

Læs også: Advarer om AI-botten ChatGPT: Kan skabe phishingmails

Hør hvordan VALL-E fungerer

Microsoft har offentliggjort en lang række eksempler på algoritmens evner til at efterligne stemmer. I kolonnen Speaker Prompt kan man høre de korte lydklip, som VALL-E bruger til at efterligne en persons stemme. Kolonnen Ground Truth indeholder et lydklip, hvor personen selv indtaler samme tekst, som demonstreres gennem AI’en – dette bruges til at sammenligne, hvor tæt på den virkelige stemme AI’en er. I kolonnen VALL-E kan der høres lydklip af AI’en, der efterligner personens stemme.

Tekst	Speaker Prompt	Ground Truth	VALL-E
They moved thereafter cautiously about the hut groping before and about them to find something to show that Warrenton had fulfilled his mission.
And lay me down in thy cold bed and leave my shining lot.
Number ten, fresh nelly is waiting on you, good night husband.
Yea, his honourable worship is within, but he hath a godly minister or two with him, and likewise a leech.
Instead of shoes, the old man wore boots with turnover tops, and his blue coat had wide cuffs of gold braid.
The army found the people in poverty and left them in comparative wealth.
Thus did this humane and right minded father comfort his unhappy daughter, and her mother embracing her again, did all she could to soothe her feelings.
He was in deep converse with the clerk and entered the hall holding him by the arm.
They do not go where the enemies of the gospel predominate, they go where the christians are.

Kan misbruges til at forfalske informationer

Ifølge Microsoft kan den nye AI bruges i situationer, der kræver tekst til tale i høj kvalitet. Det kan være inden for taleredigering, hvor en optagelse af en person kan redigeres og ændres ud fra en tekstudskrift. Dermed kan man få en person til at sige noget, vedkommende aldrig har sagt.

Værktøjet kan ifølge Microsoft også bruges til at skabe lydindhold i samspil med andre AI-modeller såsom GPT-3.

Microsoft har ikke offentliggjort kildekoden til algoritmen – og med god grund. VALL-E har potentiale til at blive et særdeles effektivt værktøj til at skabe falske informationer. Det kan særligt it-kriminelle få gavn af. Eksempelvis kan robotopkald fra udlandet foregive at være en nær bekendt.

Microsoft er også selv klar over, hvilke utilsigtede muligheder der er med VALL-E:

“Da VALL-E kan syntetisere tale, der bevarer talernes identitet, kan det medføre potentielle risici ved misbrug af modellen, for eksempel ved at forfalske stemmeidentifikation eller udgive sig for at være en bestemt person. For at mindske sådanne risici er det muligt at opbygge en detektionsmodel til at skelne, om et lydklip er syntetiseret af VALL-E. Vi vil også anvende Microsofts AI-principper i praksis, når vi videreudvikler modellerne.”

Læs også: Nyheder om kunstig intelligens