Projekt skal udvikle sprogmodeller, der forstår danske dialekter
Digitale stemmeassistenter og produkter såsom en GPS, der bruger stemmeteknologi, kan have svært ved at forstå visse dialekter og accenter. Det skal et nyt forskningsprojekt kaldet Danish Conversational and Read-aloud Speech Dataset (CoRal) gøre noget ved.
Læs også: Dansk teknologi: Her er de største danske techvirksomheder
Dialekt-bank bestående af danske dialekter
Det godkendte teknologiske serviceinstitut Alexandra Instituttet skal i samarbejde med Digitaliseringsstyrelsen, Københavns Universitet, Alvenir og Corti udvikle et såkaldt talekorpus bestående af danske dialekter. Der findes cirka 32 forskellige dialekter i Danmark.
Det danske taledatasæt kommer til at indeholde 1.000 til 1.500 timers annoteret samtale og oplæst tale. Formålet er at sikre, at stemmestyret teknologi kan forstå de danske dialekter – noget som i dag kan volde en GPS-enhed eller stemmestyrede assistenter som Siri eller Google Assistent problemer.
Skal udvikle danske sprogmodeller
Der er ifølge Digitaliseringsstyrelsen behov for udvikling af dansk taleteknologi, så vi ikke risikerer at halte bagefter store sprog som engelsk på grund af manglende data til at træne kunstig intelligens til at forstå dansk. Der er samtidig også behov for at passe på vores dialekter og sprog, så kommende teknologiske fremskridt ikke kun beror på engelsk som sprog.
Derfor skal projektet også udvikle nogle sprogmodeller såsom tale-til-tekst og tekst-til-tale, der skal være med til at demonstrere mulighederne i at anvende taleteknologi.
Både data og modeller bliver offentligt tilgængelige som open source, så virksomheder og udviklere har mulighed for at bruge dem.
Projektets partnereAlexandra InstituttetAlexandra Instituttet er Danmarks eneste Godkendte Teknologiske Service-institut specialiseret i IT og digitalisering. Instituttet er sat i verden for at sikre, at de nyeste digitale teknologier bliver gjort tilgængelige for dansk erhvervsliv og det danske samfund som helhed. AlvenirAlvenir er en dansk spin-out virksomhed fra DTU, som arbejder domænespecialiseret talegenkendelse til b.la. dokumentation af finansielle rådgivningssamtaler. Derudover spiller Alvenir en aktiv rolle i det danske open source-miljø og har siden virksomhedens stiftelse bidraget med både sprogmodeller og dataressourcer. CortiCorti er en dansk virksomhed, der har udviklet tale-, lyd-, og tekstbaseret AI-software til at assistere patientbehandling og dokumentation i sundhedssektoren. Med den banebrydende AI-software nedbringer Corti tiden samt højner kvaliteten af den enkelte patientinteraktion. Cortis software nærmer sig 100 millioner interaktioner om året i Skandinavien og engelsktalende lande, primært USA. Datalogisk Institut på Københavns Universitet (DIKU)Datalogisk Institut på Københavns Universitet (DIKU) er Danmarks ældste og førende datalogiske institut. DIKU forsker og underviser inden for de tre hjørner af datalogi – algoritmer, mennesker og data – og instituttet deltager aktivt i udviklingen af teknologisk innovation i samfundet gennem en lang række samarbejder. DigitaliseringsstyrelsenDigitaliseringsstyrelsen udformer og implementerer digitaliseringsinitiativer i den offentlige sektor. Styrelsen understøtter effektivitet og fleksible digitale services via løsninger til borgere, private virksomheder og offentlige myndigheder. For at understøtte udviklingen af danske sprogteknologiske løsninger har regeringen, KL og Danske Regioner udviklet sprogteknologi.dk, som skal give let adgang til danske sprogressourcer. Kilde: Alexandra Instituttet |
Donér din stemme og hjælp taleteknologi
Vil du gøre en god gerning, kan du blive bidragyder til projektet. Alexandra Instituttet rekrutterer nemlig talere fra hele landet. Særligt hvis du er kvinde, ældre eller taler med accent eller dialekt, ønsker Alexandra Instituttet din hjælp.
Alt du skal gøre er at tilmelde dig som indtaler. Du skal oplyse navn, aldersgruppe, køn, e-mailadresse, region og eventuelt telefonnummer.
Rundt omkring i landet er det muligt at besøge sit lokale bibliotek, hvor man kan indtale lidt af sin dialekt – men altså kun hvis man udvælges. Det er fra i dag muligt i Nordjylland, men det er endnu ikke fastlagt, præcist hvornår det bliver muligt andre steder.
Projektet har en varighed på 2 år og 10 måneder og er støttet med 14,22 millioner kroner af Innovationsfonden. Projektets samlede budget er på 22,2 millioner kroner.
Læs også: Nyheder om dansk teknologi