Lærere opdager ikke 94 % af elevers AI-genererede afleveringer
Det er to år siden, at ChatGTP fik sin offentlige debut, og det mærkes især i uddannelsessektoren. I stigende grad bliver lektier og eksamensopgaver lavet af generativ AI i stedet for af de studerende selv – og det giver problemer.
Se også: EU’s AI-lov træder i kraft – sætter nye standarder
94 procent AI-genererede aflevering opdages ikke
Lektor Peter Scarfe fra University of Reading i Storbritannien har undersøgt, hvad der sker, når forskere opretter falske elevprofiler og indsender simple AI-genererede afleveringer i falske elevers navne, uden at lærerne vidste det.
Forskerteamet fandt ud af, at ”samlet set var AI-indsendelser på grænsen til at være umulige at opdage, idet 94 procent ikke blev opdaget.”
94 procent af alle afleveringer og opgaver med AI, som blev indsendt af universitetsstuderende, blev altså ikke markeret som mulig AI af underviserne. Men det er faktisk værre end som så, for i rapporten står der også: ”Samlet set overvurderer vores opdagelsesrate på 6 procent sandsynligvis vores evne til at opdage brug af AI i den virkelige verden til at snyde til eksamen.”
Det er ikke første gang, vi er blevet advaret om, at mennesker ikke selv kan spotte AI-indhold. Sidste år konkluderede en undersøgelse fra University of South Florida, at lingvister ikke kunne se forskel på tekst skabt af AI og tekst skrevet af mennesker.
En anden undersøgelse sidste år – denne gang fra amerikanske universiteter i Vietnam – viste, at AI-detektorer var langt bedre til at udpege AI-tekst, end menneskelige lærere var. Teamet i Vietnam skrev: ”Selvom Turnitin (et AI-detektionssystem, red.) korrekt identificerede 91 procent af artiklerne som indeholdende AI-genereret indhold, rapporterede fakultetsmedlemmer formelt kun 54,5 procent af artiklerne som potentielle tilfælde af akademisk snyd.”
I denne undersøgelse fik underviserne på forhånd at vide, at der ville blive indsendt opgaver med AI i deres kurser. Alligevel opdagede de kun lidt mere end halvdelen af dem. Undersøgelsen brugte også ”prompt engineering” til at gøre artiklerne sværere for AI-detektorer at få øje på. Alligevel registrerede maskinerne 91 procent af dem, men menneskerne kun 55 procent af dem.
Se også: Millioner af studerende bruger AI til at skrive deres opgaver
AI-afleveringer får højere karakterer
Den britiske undersøgelse viser også, at det arbejde, der blev skabt af AI, i gennemsnit blev bedømt bedre end det menneskelige arbejde.
”Vi fandt ud af, at i 83,4 procent af tilfældene var de karakterer, der blev opnået af AI-afleveringer, højere end et tilfældigt udvalg af det samme antal elevafleveringer”.
Med andre ord var der 83 procent sandsynlighed for, at en elev, der brugte den mest basale AI-prompt uden nogen form for redigering eller ændring, fik en bedre karakter end en jævnaldrende elev, der rent faktisk havde lavet arbejdet.
Perspektivering
Hvis snyd med AI bliver udbredt, kan det få alvorlige konsekvenser for offentlighedens tillid til uddannelsessystemet.
Når elever kan opnå høje karakterer ved hjælp af AI uden selv at forstå eller mestre stoffet, undermineres eksamensresultaternes værdi som indikator for viden og kompetence.
Det kan føre til en opfattelse af, at uddannelser ikke længere sikrer kvalitet eller retfærdighed, hvilket potentielt svækker troen på uddannelsessystemet som en samfundsinstans.
Dette kan påvirke både arbejdsgiveres tillid til dimittender og samfundets villighed til at investere i uddannelse. På sigt risikerer vi en udvikling, hvor merit og færdigheder vurderes uden om de formelle eksamenspapirer, hvilket kan skabe et uigennemsigtigt og mindre inkluderende arbejdsmarked.