Ny udgave af kontroversiel AI-sprogmodel opfører sig pænere

GPT-3 overraskede alt og alle i 2020 med sine evner til at producere overbevisende menneskelignende tekster. Sprogmodellen, som er udviklet af virksomheden OpenAI, er dog også blevet heftigt kritiseret for at have en tydelig menneskelig bias, som stammer fra de træningsdata, som AI-algoritmen er blevet trænet med. GPT-3 har blandt andet været under beskyldning for at være racistisk.

Læs også: Hvad er kunstig intelligens? Sådan ser fremtiden med AI ud

Ny sprogmodel uden samme fordomme og problemer som GPT-3

Problemet har OpenAI selv erkendt, og derfor har firmaet for nylig præsenteret en efterfølger til GPT-3 – en forbedret udgave kaldet InstructGPT. Den nye sprogmodel løser ifølge firmaet bag nogle af de problemer med menneskelig bias, som GPT-3 har haft. Samtidig er modellen også bedre til at følge de instrukser, som folk giver den.

InstructGPT skulle også gøre brug af mindre stødende sprog, skabe mindre misinformation og generelt færre fejl, medmindre man udtrykkeligt giver modellen besked om, at den ikke skal gøre det.

Feedback fra mennesker giver en bedre sprogmodel

Sprogmodeller trænes med enorme mængder af tekst hentet fra forskellige internetkilder, hvor man finder både alt det bedste og værste, som folk kan finde på at ytre sig om – og det er der, problemet ligger. For den måde, som der kommunikeres på online, overføres direkte til sprogmodellerne, som gengiver stødende sprog, fordomme og ikke mindst usandheder, som florerer online.

OpenAI har tidligere forsøgt at forbedre GPT-3 ved at filtrere krænkende sprog fra træningsdataene, men det kan gøre sprogmodeller mindre nøjagtige, især hvis det gælder træningsdata fra minoriteter, som i forvejen er underrepræsenteret i datasæt.

For at undgå samme problemer som med GPT-3 har OpenAI haft en lidt anden tilgang til at træne InstructGPT’s algoritme. Udgangspunktet var træningsdata fra GPT-3, som gennemgik en ny runde træning, hvor den lærer, hvad den skal sige og hvornår ud fra menneskelige brugeres præferencer.

40 personer fik til opgave at vurdere GPT-3’s svar på en række forespørgsler såsom “skriv en historie om en klog frø kaldet Julius”. De svar, som de 40 personer vurderede var mere i overensstemmelse med den formodede hensigt med forespørgslen, blev bedømt højere. Omvendt trak det ned, når besvarelserne indeholdt seksuelt eller voldeligt sprogbrug, nedgjorde en bestemt gruppe mennesker eller gav udtryk for en mening.

Ved at træne modellen med menneskelig feedback kunne OpenAI konstatere, at brugere af firmaets API, der tilgår sprogmodellen mod betaling, foretrak InstructGPT frem for GPT-3 i mere end 70 procent af tilfældene. Derfor har InstructGPT nu også erstattet GPT-3 som standardmodellen i firmaets API.

Læs også: Eksperter advarer om kvanteapokalypse

Foretrækker algoritme med 100 gange mindre træningsdata

OpenAI undersøgte også, om folk foretrak sprogmodeller, der var trænet med store eller små mængder træningsdata. Overraskende nok foretrak folk den udgave af InstructGPT, der var trænet med ’kun’ 1,3 milliarder parametre frem for den udgave, der var trænet med 175 milliarder parametre. Dermed tyder det altså på, at kvaliteten af træningsdataene betyder mere end kvantiteten.

Vil du dykke ned i, hvordan InstructGPT fungerer, kan du læse mere om sprogmodellen på OpenAI’s hjemmeside.

Læs også: Nyheder om kunstig intelligens