Teknolog skaber gratis register over 107 mio. tidsskriftsartikler

Den amerikanske teknolog Carl Malamud har været på lidt af en opgave. Han har den 7. oktober offentliggjort et gigantisk og frit tilgængeligt katalog over intet mindre end 107.233.728 tidsskriftsartikler publiceret i hele verden.

Kataloget indeholder ikke de enkelte artikler i deres helhed, men er nærmere en indholdsfortegnelse over de mange forskningsartikler. Dertil inkluderer kataloget fragmenter af sætninger, som er angivet sammen med tidsskriftsartiklerne på de platforme, hvor de er udgivet. Det er derfor ikke muligt at finde fulde sætninger fra artiklerne, som også inkluderer artikler bag betalingsvæg. Kun uddrag af sætninger på op til fem ord kan tilgås.

Carl Malamud er derfor overbevist om, at det enorme register ikke er i strid med ophavsmændenes ophavsret. Indsamlingen af tidsskriftsartiklerne kan dog være foregået på en måde, som er i strid med de forskellige forlags betingelser.

Hjælper forskere til at analysere tidsskriftsartikler

Arkivet, som kan downloades kvit og frit af alle og enhver på hjemmesiden archive.org, er skabt for at hjælpe forskere med at få indsigt i offentliggjorte forskningsresultater, selv om de ikke har adgang til selve artiklerne.

Og noget tyder på, at projektet er til stor hjælp. Mange universiteter og institutioner har kun adgang til et begrænset antal forskningsdatabaser og forlag. Det begrænser forskere – og ikke mindst studerende – i at få adgang til al den viden, der allerede er til stede.

Kataloget, der indeholder mere end 355 milliarder ord og sætningsfragmenter, er lavet med henblik på, at forskere kan foretage såkaldt text mining – eller udvinding af tekst. Det vil sige software, der læser og analyserer teksten i stedet for den enkelte forsker.

Analyser af plantekemikalier i forskningsartikler

Gitanjali Yadav, som beskæftiger sig med bioinformatik på Cambridge University i Storbritannien, forsker i flygtige organiske forbindelser, der udledes af planter. Hun fortæller til Nature, at hun har planer om at bruge indekset for at udarbejde analyser af de plantekemikalier, der er beskrevet i verdens forskningsartikler.

“Der er ingen mulighed for mig – eller nogen anden – for eksperimentelt at analysere eller måle det kemiske fingeraftryk af hver eneste planteart på Jorden. Mange af de oplysninger, vi søger, findes allerede i den offentliggjorte litteratur,” siger Gitanjali Yadav til Nature.

Der findes allerede tjenester såsom Google Scholar, der også har indekseret en stor del af verdenens forskningsartikler – også dem bag betalingsmur, hvis altså ophavsmændene har givet tilladelse til det. Problemet med en søgemaskine som Google Scholar er dog, at man kun kan foretage en simpel manuel søgning i den. I Carl Malamuds nye katalog kan software lave avancerede søgninger med langt højere effektivitet og større udbytte.

Kataloget over de 107 millioner forskningsartikler er offentliggjort som en stor 5 terabyte komprimeret fil, som fylder hele 38 terabyte, når den er udpakket. Yadavs håb er dog, at nogen vil skabe en offentlig tilgængelig søgemaskine, der gør brug af data fra kataloget.

Se også: Nyheder om software- og it-løsninger