Sådan kan OpenAI's AI-videoværktøj Sora ændre samfundet

Lanceringen af OpenAI’s AI-værktøj Sora, der omdanner tekst til virkelighedstro video, blev i sidste måned mødt med en blanding af frygt og begejstring fra forskere, der er bekymrede for misbrug af teknologien.

OpenAI fremviste algoritmens evne til at skabe fotorealistiske videoer ud fra nogle få korte tekstbeskeder (prompts). For eksempel et klip af en kvinde, der går ned ad en neonoplyst gade i Tokyo, og en hund, der hopper mellem to vindueskarme.

Se alle de imponerende videoer genereret af Sora her.

Læs også: Hvad er kunstig intelligens? Sådan ser fremtiden med AI ud

Tekst-til-video udvikler sig chokerende hurtigt

Tracy Harwood, der er specialist i digital kultur ved De Montfort University i Leicester i Storbritannien, siger til Nature, at hun er “chokeret” over den hastighed, som AI-baserede løsninger til omdannelse af tekst til video har udviklet sig.

For et år siden grinede folk af en AI-produceret video af den amerikanske skuespiller Will Smith, der spiser spaghetti. Nu er nogle forskere bekymrede for, at teknologien kan vende op og ned på global politik i 2024.

OpenAI, som også har udviklet ChatGPT og tekst-til-billede-teknologien DALL-E, har oplyst, at man til en start kun vil gøre Sora “tilgængelig for red teamers til at vurdere kritiske områder for skader eller risici”.

”Red teaming” refererer til processen, hvor it-sikkerhedsforskere udfører simulerede angreb eller udnytter en teknologi for at se, hvordan den klarer sig mod ondsindet aktivitet såsom skabelse af misinformation og hadefuldt indhold.

Frygt for misinformation forud for kommende valg

Misinformation er en stor udfordring for disse tekst-til-video-teknologier, lyder det fra Tracy Harwood.

“Vi kommer meget hurtigt til at nå et punkt, hvor vi bliver oversvømmet med en spærreild af virkelig overbevisende information. Det er virkelig bekymrende.”

Det giver særlige problemer i forbindelse med kommende valg, herunder det amerikanske præsidentvalg i november og det kommende parlamentsvalg i Storbritannien.

“Der vil cirkulere et kolossalt antal falske videoer og falske lydoptagelser,” siger Dominic Lees, der er forsker i generativ AI og filmskabelse ved University of Reading.

En falsk lydoptagelse af lederen af det britiske Labour-parti, Keir Starmer, blev frigivet i oktober 2023, og en falsk lydoptagelse af den amerikanske præsident Joe Biden, der opfordrede demokraterne til ikke at stemme, cirkulerede i januar.

Er vandmærker løsningen?

En løsning kunne være at kræve, at tekst-til-video-baserede AI-løsninger bruger vandmærker – enten i form af et synligt mærke på videoen, der markerer, at det er AI, eller som en afslørende kunstig signatur i videoens metadata.

Dominic Lees er dog ikke sikker på, at det vil lykkes.

“I øjeblikket kan vandmærker fjernes,” og derfor er det nødvendigt, at folk aktivt tjekker, om en video, de har set, er ægte eller ej.

”Jeg tror ikke, vi ærligt kan bede publikum over hele verden om at gøre det på hver eneste video, de ser,” siger Lees.

Kreative brancher lider en hård skæbne

Bekymringer er også blevet rejst af folk, der arbejder i kreative brancher. Den amerikanske skuespiller Tom Hanks foreslog sidste år, at AI kunne gøre det muligt for ham at fortsætte med at optræde i film “fra nu af og til dommedag” efter hans død.

“Hvis du var en ung ambitiøs skuespiller, der tænkte på sin fremtid, og du fik at vide, at Tom Hanks altid ville spille hovedrollerne, ville du så planlægge en fremtid ud fra det?” siger Lees.

For nylig kom det også frem, at Sam Altman, der står i spidsen for OpenAI og ChatGPT, har spået, at AI nærmest vil udrydde reklamebranchen.

Læs også: Sam Altman: AI vil nærmest udrydde reklamebranchen

Tunge tekster kan formidles letforståeligt på video

Der er dog også potentielle fordele ved den nye AI-teknologi. Tracy Harwood nævner, at den kan bruges til at præsentere svær tekst såsom en akademisk afhandling i et format, der er lettere at forstå.

“En af de største ting, det kan bruges til, er at kommunikere resultater til et lægmandspublikum. Det kan visualisere ret komplekse koncepter,” siger hun.

En anden potentiel anvendelse kunne være i sundhedsvæsenet, hvor tekst-til-video i stedet for en menneskelig læge kan tale med patienter.

“Nogle mennesker vil måske finde det foruroligende. Andre vil måske finde det ekstremt praktisk, hvis de vil stille spørgsmål til en læge flere gange om dagen,” siger Claire Malone, der er konsulent inden for videnskabskommunikation i Storbritannien.

Læs også: Nyheder om kunstig intelligens