Ugrás a fő tartalomhoz

Történeti áttekintés

Nyílt tudomány (Open Science)

A kutatási adatok egy része közpénzből származik. Ezen kutatási adatok esetében jogos lehet az igény arra, hogy ne csak az azokat előállítók férjenek hozzájuk, hanem mindenki más is, aki bármi formában (például adófizetés útján) finanszírozza ezek előállítását. A nem közpénzből keletkező adatok esetén is felmerülhet az igény arra, hogy azok szélesebb körben is hozzáférhetőek legyenek. Az Open Science mozgalom a fentiek biztosítását, a kutatási adatok és az azokon alapuló publikációk nyílt, kontrollált közzétételét tűzte ki céljául. A kutatási adatok közzétételéhez megfelelő infrastruktúrát adnak az adatrepozitóriumok.

Adatrepozitóriumok

Az adatrepozitóriumok adatok/kutatási adatok, menedzselésére, hosszú távú tárolására, közreadására szolgálnak. Az adatrepozitóriumok két nagy típusa: a generikus és a témaspecifikus adatrepozitóriumok. Előbbiek több tudományterület, utóbbiak egy adott tudományterület adataira specializálódnak. A generikus adatrepozitóriumok a feltöltött adatokat, fájlokat adatcsomagok formájában struktúrába rendezve tárolják. Az adatcsomagokhoz szerkesztési, megtekintési jogosultságokat társítanak, verziókat kezelnek, permanens azonosítókat rendelnek hozzájuk. Az adatcsomagok alapvetően arra szolgálnak, hogy publikációk eredményeit alátámasszák, a publikációkban szereplő állítások ellenőrizhetőek, a kísérletek megismételhetőek legyenek.

FAIR irányelvek

A FAIR irányelvek egyre inkább előtérbe kerülnek. A betűszó a Findable, Accessible, Interoperable és Reusable angol szavak kezdőbetűiből áll össze. A FAIR alapelvek szerint a kutatási adatoknak ahhoz, hogy a kutatás tisztasága és ellenőrizhetősége biztosítva legyen, megtalálhatónak, egyszerű eszközökkel hozzáférhetőnek és feldolgozhatónak kell lenniük, valamint a kutatási eredményekhez vezető út ellenőrizhető módon megismételhető kell, hogy legyen. Az Open Science kezdeményezés örömmel tűzte zászlajára ezeket az elveket, hiszen leegyszerűsítik a már publikálásra került adatok feldolgozását minden hozzáértő személy számára (még akkor is, ha a FAIR irányelvek követése nem garantálja a kutatási adatok közkinccsé tételét). Az irányelvek teljesülését az emberi feldolgozás mellett az automatikus eszközök számára is biztosítani kell, utóbbiak esetében különösen a hozzáférhetőséget és esetenként az automatikus feldolgozhatóságot. Ez utóbbi kitétel megvalósulása a kutatási adatok olyan szemantikus címkézését feltételezi, amely a jelenleg használt adatrepozitóriumokban nem, vagy csak nagyon sok kompromisszum árán valósulhat meg.

FAIR digitális objektumok

Az Európai Unió egy akciótervben 2018-ban bevezette a FAIR Digitális Objektumok fogalmát. A FAIR Digitális Objektumok (FAIR Digital Object - FDO) olyan digitális objektumok, amelyek adott környezetben megfelelnek a FAIR irányelveknek: „Az adatok, szoftver és más erőforrások reprezentációja.”... „Társítva vannak hozzá perzisztens azonosítók, metaadatok és kontextuális dokumentáció, ami lehetővé teszi a felderíthetőséget, idézést és újrahasznosítást.”

A definíció alapján az FDO-nak az adott digitális környezetben meg kell tudnia mondani magáról mind emberek, mind automatikus feldolgozó eszközök számára, hogy mi is valójában. Az újrahasznosítás és reprodukálhatóság kritériuma miatt az adatrepozitóriumoknak olyan szintű metaadatolást kell biztosítaniuk, amivel formálisan meghatározhatóak a kutatási adatok feldolgozásához szükséges lépések, valamint megjelölhetők mind a forrásadatok, mind a feldolgozás eredménye. E kritérium olyan terhet ró az egyszerű generikus adatrepozitóriumokra, amely nehezen teljesíthető, azokban ugyanis a repozitálás és a formális metaadatolás szintje jellemzően az adatcsomag, amiben az egyes fájlokról nehéz megállapításokat tenni.

RO-Crate

Az RO-Crate (Research Object Crate) csomagolástechnika az FDO egy lehetséges megvalósítása, amely az ELKH ARP projekt során a FAIR irányelvek támogatására került kiválasztásra. Felhasználói szemmel az RO-Crate adatcsomag: fájlok és URI-kon keresztül megcímezhető objektumok olyan hierarchikus struktúrája (egyszerűbben: könyvtárakba rendezett fájlok és hivatkozások), amelyben minden elemhez (vagyis a teljes adatcsomaghoz, a könyvtárakhoz, a fájlokhoz és a hivatkozásokhoz) leíró adatokat, metaadatokat lehet rendelni. Ezzel megvalósulhat, hogy formálisan bármely fájlhoz hozzá lehet csatolni, keletkezésének és tartalmának információit. Az RO-Crate adatcsomag a fájlstruktúra és az annak elemeit leíró metaadatok kötött formájú fájlba csomagolt változata.

Az RO-Crate és az adatrepozitóriumok kapcsolata

Egy tetszőleges RO-Crate adatcsomag, mint adatfájl, feltölthető a generikus repozitóriumokba. Ilyenkor létrejön egy adatcsomag, aminek a tartalma a feltöltött RO-Crate adatcsomag, amelyben lehetőség van annak metaadatokkal való ellátására. Az RO-Crate adatcsomag megtestesíti egy kutatás teljes publikálásra szánt adathalmazát, azaz az RO-Crate adatcsomag egészére vonatkozó metaadatoknak és a repozitóriumokba kerülő adatcsomagra vonatkozó metaadatoknak meg kellene egyezniük, hiszen ebben az értelemben ugyanazt írják le. Erre vonatkozó támogatás azonban nincsen az adatrepozitóriumokban. Fontos tudni azt is, hogy az így feltöltött RO-Crate csomag hiába szolgáltathatna fájlszintű metaadatokat, az adatok továbbra is csak a repozitóriumba közvetlenül bevitt, adatcsomagszintű metaadatokon keresztül lesznek kereshetőek.

ARP adatrepozitórium, AROMA

Az ARP projekt az ELKH támogatásával új adatrepozitóriumot fejlesztett. Az új generikus adatrepozitórium a Harvard Dataverse továbbfejlesztése, amely az egyszerű fájlfeltöltést meghaladóan támogatja az RO-Crate adatcsomagok kezelését is. Lehetséges benne az RO-Crate adatcsomagok importja, exportja, valamint a helyben történő szerkesztése - úgy, hogy bármely művelet elvégzése során az RO-Crate egészére, valamint az adatrepozitóriumi adatcsomagra vonatkozó adatok szinkronban maradnak. A fájlszintű metaadatszerkesztés integrált eszköze az AROMA (ARP RO-Crate Manager) szoftverkomponens.