EU-sprogmodellen TrustLLM skal bane vejen for en dansk sprogmodel

Mange danskere har stiftet bekendtskab med sprogmodeller via populære tjenester som ChatGPT og Bing Chat, der bruger sprogmodellerne GPT-3.5 og GPT-4.0, samt Google Bard, der bruger sprogmodellen PaLM.

Fælles for dem er dog, at de er udviklet af amerikanske techgiganter. Sprogmodellerne er lukkede systemer, som primært er trænet på store sprog som engelsk, og sprogmodellerne er drevet af kommercielle interesser.

Læs også: Hvad er kunstig intelligens? Sådan ser fremtiden med AI ud

Troværdig, bæredygtig og demokratiseret sprogmodel

Det vil EU nu gøre noget ved. Med det nye, ambitiøse forsknignsprojekt TrustLLM vil EU udvikle sin egen sprogmodel, der i første omgang er målrettet de germanske sprog.

Forskningsprojektet skal danne grundlag for et avanceret, åbent økosystem til næste generation af modulære og udvidelige europæiske sprogmodeller, som er troværdige, bæredygtige og demokratiserede.

Modsat sprogmodellerne fra de store, amerikanske techgiganter vil TrustLLM leve op til europæiske værdisæt for ”human-centered, trustworthy og democratised” kunstig intelligens.

Danske universiteter bidrager til TrustLLM

Forskningsprojektet foregår med bidrag fra universiteter og institutter fra Sverige, Tyskland, Island, Danmark, Norge og Holland.

Fra Danmark bidrager GTS-instituttet Alexandra Instituttet samt Københavns Universitet.

Erfaringerne med det nye forskningsprojekt skal bidrage til det nationale store stykke arbejde, der ligger foran partnerne for med tiden at lave en dansk sprogmodel.

”Vi er nu med i den gruppe af vigtige aktører, der er gået sammen om at udvikle modellerne til de germanske sprog. Med samarbejdet opbygger vi vores kompetencer yderligere og får et førstehåndsindtryk af de data, der indsamles, og som modellerne skal trænes på,” siger Torben Blach, der er Alexandra Instituttets projektleder på TrustLLM-projektet.

Partnere i TrustLLM-forskningsprojektet

Linköping University (LiU)
Fraunhofer (FHG)
Forschungszentrum Julich (FZJ)
Lindholmen Science Park (LSP)
Mideind (MID)
University of Iceland (UOI)
Copenhagen University (UCPH)
Alexandra Institute (AXI)
Norwegian University of Science and Technology (NTNU)
Nederlandse Organisatie voor Toegepast Natuurwetenschappelijk Onderzoek (TNO)
Academy for Artificial Intelligence (AKI)

Open source-projekt

Det nye forskningsprojekt skal kigge på både den etiske, forskningstunge og den forretningsmæssige side af AI.

En vigtig del af projektet er at gøre sprogmodellen open source for at demokratisere brugen af sprogmodeller, så de er bredt tilgængelige. Der findes lige nu ingen open source-sprogmodel for det danske sprog, og man er derfor tvunget til at bruge de amerikanske modeller.

Afhængigheden af amerikanske modeller gør os sårbare, for de kan pludselig blive nedlagt eller blive dyrere.

”Vi er afhængige af andres data og modellens struktur, som samtidig er lukket, så vi ikke kender logikken. Derfor skal vi gøre modellerne bedre og fikse de ting, som vi har set, at eksempelvis ChatGPT er skidt til. Det kan være bias, som vi gennem vores forskning skal minimere i træning af modellen. Vi skal også minimere antal gange, modellerne hallucinerer og finder på facts ud af det blå,” siger Dan Saattrup Nielsen.

TrustLLM-projektet kører i perioden november 2023 til oktober 2026 og er finansieret med 6,9 mio. kroner euro fra Horizon Europe Framework Programme (HORIZON).

Læs også: Nyheder om kunstig intelligens