Útmutató kutatási adatok kezeléséhez

A kutatásfinanszírozók egyre nagyobb hangsúlyt helyeznek arra, hogy a támogatott projektek résztvevői ne csak az eredményeket publikálják, hanem az eredményeket megalapozó kutatási adatokat is elérhetővé tegyék. A tudományos folyóiratok szerkesztői is egyre több tudományterületen és egyre gyakrabban várják el a cikkek szerzőitől, hogy a hivatkozott adatokra ne csak utaljanak, azokat megtalálhatóvá és elérhetővé is tegyék.

A tudományos közéletben egyre elfogadottabbá válik az az irányelv, hogy a kutatási adatokat – a vonatkozó jogi és etikai szabályokat, valamint a kutatók érdekeit figyelembe véve – a lehető legnagyobb mértékben nyitottá és hozzáférhetővé kell tenni, azaz az adatkezelés legyen „nyílt, amennyire lehetséges, zárt, amennyire szükséges”.

A kutatási pályázatok többségénél – ha a projektben keletkeznek kutatási adatok – jelenleg is elvárás a finanszírozó által biztosított kutatásadat-kezelési terv sablon kitöltése, vagy a tervezett adatkezelés rövid leírása, majd nyertes pályázat esetén annak részletes kidolgozása.

Az „Útmutató kutatási adatok kezeléséhez”

segítséget nyújt a kutatási adatok kezelésének megtervezéséhez és az azt rögzítő kutatásiadat-kezelési terv elkészítéséhez;
ismerteti a kutatási adatokkal kapcsolatos legfrissebb trendeket és elvárásokat és
ajánlásokat és javaslatokat tartalmaz kutatás- és kutatótámogató szándékkal.

Az ajánlások és javaslatok az egyes tudományterületeken különböző ütemben építhetők be a kutatások menetébe.

Tudományos replikációs válság

A modern tudomány alapkövetelménye, a falszifikáció tudományterületeken átívelően fontos összetevője a tudományos mérések megismételhetőségének, ezáltal megbízhatóságának. Ma a tudományos gyakorlat világszinten nagy hangsúlyt fektet (többek között az ösztönzőrendszerek révén) az új eredmények létrehozására, amely a már meglévő tudományos eredmények (újra)ellenőrzését, a tudományos kutatás megbízhatóságának garantálását háttérbe szorítja. A 2010-es években a világsajtót is bejárta több ismert tudományos kísérlet eredménye és körülménye újravizsgálatának híre, ami általános kételyt eredményezett a tudomány társadalmi megítélése, illetve a tudományos közbeszéd terén. Az ún. tudományos replikációs válság^[1] a kutatási adatok tervezett előállítási körülményeit, biztonságos, hosszú távú tárolását, illetve közzétételét, a nyílt tudományos törekvések fontosságát is új megvilágításba helyezte.

_[1]_Bővebben:_{https://www.nature.com/articles/d41586-019-00067-3}_{; és}_{https://www.nature.com/articles/d41586-023-03486-5}

Kutatási adat

A kutatási adatok a tudományos közösség által létrehozott, rögzített, elfogadott és megőrzött tényadatok, amelyek a kutatási eredmények hitelességét támasztják alá.

Keletkezésük módja alapján a kutatási projektekben létrejöhetnek

megfigyelésen alapuló;
kísérletek során létrehozott;
szimulációs eljárás során keletkezett és
meglévő adatforrások felhasználásával (összegyűjtésével, válogatásával, értelmezésével, feldolgozásával) képzett

kutatási adatok.

Feldolgozottságuk szerint csoportosítva a kutatási adatok lehetnek

nyers vagy elsődleges adatok (pl. közvetlenül mérésből vagy gyűjtésből származó adatok);
feldolgozott vagy másodlagos adatok (az elsődleges adatokból származtatva, miután a kutató azokat feldolgozta, pl. újrakódolta, kombinálta, kategorizálta, számításokat végzett velük).

Formátumuk szerint a kutatási adatok lehetnek

digitálisan keletkezett adatok;
nem digitálisan keletkezett, de digitalizált adatok és
nem digitálisan keletkezett és nem digitalizált adatok (pl. kézzel írt jegyzetek, terepnaplók).

Példák kutatási adatokra:

táblázatok
mérések, alkalmazások, szimulációk eredményei, az azokból létrehozott adatfájlok
fotók, filmek, diapozitívok
rajzok
audio- és videófelvételek, azok szöveges leiratai
fehérje- vagy génszekvenciák
kérdőíves felmérések válaszaiból létrehozott adatfájlok
interjúfelvételek és -leiratok
kutatási folyamat során megszerzett és/vagy előállított – digitális és nem digitális – tárgyak
szövegkorpuszok

Kutatási dokumentáció

A kutatási dokumentáció a kutatási adatok mellett keletkező, azokhoz szorosan kapcsolódó, azokkal együtt kezelendő, tárolandó fájlok összessége.

Példák kutatási dokumentációra:

kutatási tervek
jegyzetek, vázlatok
módszerek és munkafolyamatok leírásai
kérdőívek, interjú vezérfonalak, kódkönyvek
modellek, algoritmusok, kódok, szkriptek, kutatásra kifejlesztett szoftverek
laboratóriumi jegyzetek, naplók, feljegyzések, jegyzőkönyvek

Kutatási adatok életciklusa

A kutatási adatok életciklusa hét fő szakaszra bontható:

Adatkezelés megtervezése
Adatgyűjtés, adatlétrehozás
Adatfeldolgozás
Adatelemzés
Adattárolás
Adatmegosztás
Adatok újrafelhasználása

A kutatási adatok életciklusa

Kutatásiadat-kezelés

A kutatásiadat-kezelés a kutatási adatokkal kapcsolatos döntések és tevékenységek összessége a kutatás tervezési szakaszától egészen a hosszú távú tárolásig. A kutatási adatok kezelésébe beletartozik a kutatási adatok gyűjtésének, feldolgozásának, tárolásának, másokkal történő megosztásának, archiválásának (hosszú távú tárolásának), elérhetővé és újrafelhasználhatóvá tételének módja, helye és egyéb körülményei is. Az átgondolt kutatásiadat-kezelés támogatja és optimalizálja a kutatást.

FAIR kutatásiadat-kezelés

A FAIR betűszót a Findable (megtalálható), az Accessible (hozzáférhető), az Interoperable (szabványos) és a Reusable (újrafelhasználható) szavak kezdőbetűi alkotják. A rövidítést és a hozzá kapcsolódó alapelveket egy kutatókból és kutatási intézményekből álló konzorcium vezette be 2016-ban a Scientific Data folyóirat FAIR Guiding Principles for scientific data management and stewardship^[1] című tanulmányban.

A FAIR alapelvek alapvető célja a tudományos adatok újrafelhasználásának támogatása. Mivel a tudományos adatok keletkezési és létrehozási sebességének, mennyiségének és összetettségének növekedése miatt a kutatók az adatok kezelésében egyre jobban számítanak a gépi támogatásra, az adatok kezelésének azon kell alapulnia, hogy a számítógépes rendszerek emberi beavatkozás nélkül vagy minimális emberi beavatkozással is meg tudják találni és el tudják érni a különböző kutatási adatokat, együtt tudjanak velük működni és újra fel tudják azokat használni. A FAIR adatkezelés így - az eredeti koncepció szerint - nem elsősorban az emberek (kutatók) általi, hanem az algoritmusok általi adatelérést hivatott elősegíteni.

_{Forrás: HUN-REN ARP projekt}

A FAIR adatkezelés nem azonos a nyílt kutatási adatok (Open Data) fogalmával: a kutatási adatoknak nem feltétlenül kell mindenki számára szabadon hozzáférhetőnek lenniük ahhoz, hogy FAIR-nek tekinthessük őket. A megtalálhatóság és hozzáférhetőség elve elsősorban a kutatási adatokat leíró metaadatokra vonatkozik, hiszen azok segítségével tudnak bekerülni az adatok a tudományos vérkeringésbe.

_[1]_{Wilkinson, M., Dumontier, M., Aalbersberg, I. et al. The FAIR Guiding Principles for scientific data management and stewardship. Sci Data 3, 160018 (2016).}_{https://doi.org/10.1038/sdata.2016.18}

Nyílt tudomány (Open Science), nyílt adatok (Open Data)

A nyílt tudomány (Open Science) a tudományos kutatások megosztásához való hozzáállás elmúlt 50 évben zajló folyamatának eredménye. Az Open Science mozgalom törekvése a tudományos kutatások együttműködésének, átláthatóságának, szabad elérhetőségének, felhasználhatóságának ösztönzése.

A digitális technológiák rohamos fejlődése és az Internet robbanásszerű terjedése járultak hozzá előbb a tudományos eredmények (publikációk, előadások) széleskörű hozzáférhetővé tételének, majd a kutatási folyamat korábbi szakaszaiban keletkező kutatási adatok, részeredmények és felhalmozódó tudás megosztásának lehetőségéhez.

A nyílt tudomány célja a tudományos kutatások során keletkező ismeretek lehetőleg minél korábbi (a kutatási projekt minél korábbi szakaszában történő), minél szélesebb körben való, lehetőleg ingyenes, szabad hozzáférhetővé tétele.

A mozgalom hátterében többek között az a felismerés áll, hogy ha a kutatási eredmények és a kutatási adatok nyitottak, az nagyobb láthatóságot biztosít a kutatásnak és növelheti a kutatómunka általános hatását.

A nyílt tudomány mozgalom a publikációkat és a kutatási adatokat is érinti. Elemei a nyílt hozzáférés (Open Access) és a nyílt adatok (Open Data). Open Access minden olyan tudományos adat, tudás, információ, amely digitálisan, online, ingyenesen elérhető, ezzel pénzügyi és jogi korlátozások nélkül biztosít lehetőséget azok szabad és jogszerű újrafelhasználására. Az Open Access fogalommal elsősorban a publikációkat, tanulmányokat jelölik, míg az Open Data használatos a kutatási adatok nyíltságának, szabad, ingyenes és jogszerű elérhetőségének jelzésére.

A nyílt tudomány alapelvei

az “As open as possible, as closed as necessary”, illetve
a „Publish earlier and release more”

elvek. Előbbi a szabad hozzáférés mellett a védendő adatokra és információkra való tudatos és gondos odafigyelésre hívja fel a figyelmet, utóbbi a kutatás minél korábbi szakaszában történő tudásmegosztásra ösztönöz.

A kutatási adatok nyílt hozzáférhetővé tételének és szabad elérésének egyik lehetséges (és jelenleg legbiztonságosabb) helye a nyílt hozzáférésű repozitóriumok (Open Access Repositories). A nyílt hozzáférésű repozitóriumok szabadon, ingyenesen biztosítanak tárhelyet és letöltési lehetőséget tudományos kutatóknak kutatási adataik megosztására vagy más kutatók kutatási adatainak megtalálására és újrafelhasználására.

A nyílt adatok és a FAIR

A nyílt kutatási adatok és a FAIR kutatási adatok nem feltétlen felelnek meg egymásnak. Egy kutatási adat lehet FAIR (például metaadatai FAIR módon elérhetők), de nem nyílt (maguk az adatok korlátozott módon hozzáférhetők).

A nyílt tudomány mozgalom egyik célja a FAIR és a nyílt adatok halmazának közelítése, az átfedés növelése, illetve a közös halmaz bővítése.

A FAIR és a nyílt módon kezelt kutatási adatok egymáshoz való viszonya

_Forrás_:_{https://www.dcc.ac.uk/}_,_{https://www.slideshare.net/sjDCC/open-fair-data-and-rdm,}_{magyarra fordítás, grafikai megjelenítés a HUN-REN ARP projekt keretében}

Nem-digitális kutatási adatok

Nem minden kutatási adat eredendően digitális. Sok kutató vezet kézzel jegyzőkönyvet, terepnaplót, emellett bizonyos kutatási adatoknak minősülő anyagok, dokumentumok eredetükből, jellegükből, vagy a kutatás jellegéből adódóan elsősorban vagy kizárólag nem-digitális formában állnak elő vagy léteznek. Ilyenek például a kézi kitöltésre szánt kérdőív, a festmény, a régészeti lelet, az ásvány vagy akár az élőlényekből származó szövet.

A nem-digitális kutatási adatok digitalizálása

Több nem-digitális kutatási adattípus esetében lehetőség van az adatok digitalizálására, amelynek előnyei:

az adatok megosztása, közzététele egyszerűbbé és olcsóbbá válik;
az adatokat általánosságban költséghatékonyabb digitálisan kezelni;
az adatok könnyebben hozzáférhetővé és kutathatóvá válnak;
a hozzáférési jogosultságok és körök egyértelműen meghatározhatóak, ezáltal az adatok nagyobb biztonságban vannak;
a nem digitálisan őrzött anyagok, dokumentumok jobban kitettek az enyészetnek, degradációnak, a digitális hosszú távú megőrzés fennmaradásukat, megfelelő minőségben való elérhetőségüket szolgálhatja;
természeti katasztrófák, vagy akár emberi mulasztás esetén sérülhetnek, akár meg is semmisülhetnek a kizárólag nem digitális formátumban elérhető kutatási adatok, tárgyak, dokumentumok – a digitalizálás ebben az esetben kulcsfontosságú megőrzési funkciót láthat el.

A nem-digitális kutatási adatok metaadatolása

A nem-digitális kutatási adatok digitalizálása általában erőforrásigényes folyamat. Amennyiben egy kutatóhelyen semmilyen, vagy csak korlátozott (pl. humánerőforrás vagy eszközök hiányában) lehetőség van a digitalizálásra, a kutatási adatok láthatóbbá, elérhetőbbé tételének módja lehet metaadataik elérhetővé tétele.

A nem-digitális adatok metaadatainak elérhetővé tételénél fel kell jegyezni

az adatok pontos (fizikai) tárolási helyét;
a hozzáférés feltételeit és módját;
a hozzáférési jogosultságokat;
valamint lehetőség szerint minél több, a potenciális érdeklődő kutatók számára releváns információt metaadatok, vagy akár rövid leírások formájában.

Metaadatok

A metaadatok a kutatási adatok minél teljesebb beazonosítására szolgálnak. A hosszú távú adattárolásnál (repozitálásnál) a kutatási adatokkal együtt tárolt metaadatok segítik a kutatási adatok kereshetőségét, megtalálhatóságát. A metaadatok előállhatnak manuálisan, algoritmus vagy mérőműszer által automatikusan, vagy ezek kombinációjával.

A metaadatok a kutatási adatokra vonatkozó tények és információk összességét jelentik - adatok az adatról. A legáltalánosabb metaadatok az adat elnevezése, készítője, forrása, a készítés dátuma és módszere, de metaadat az eredet, az időbeli hivatkozások, a földrajzi elhelyezkedés, a hozzáférési feltételek vagy a felhasználás feltételei is.

A következő konkrét példa segítségével könnyű megérteni a metaadat fogalmát. A digitális fényképezőgépek a fényképezés pillanatában automatikusan készítenek és onnantól kezdve tárolnak bizonyos információkat az elkészült digitális képpel, azaz digitális fájllal kapcsolatban. Ilyen információk lehetnek:

a kép készítésének időpontja;
a kép felbontása;
a fájl típusa;
a fájl mérete.

Ezek az adatok metaadatok, mégpedig automatikusan generált metaadatok, amelyek elsősorban a digitális dokumentumról szóló technikai információkat hordozzák.

Modern fényképezőgépek megfelelő beállítás esetén a kép készítésének pontos helyét is tárolják. Ezen túl felhasználóként mi is megadhatunk további információkat, így például egy fotó esetében megadhatjuk a képen szereplő tárgyak nevét vagy az eseményt, amelyhez kapcsolódóan a fotó készült. Ezzel további metaadatokat hozunk létre, amelyek már nem technikai, hanem leíró információkat adnak a digitális képről. Ezek a leíró adatok segítik a kép további felhasználhatóságát és visszakereshetőségét is.

Metaadatok automatikusan és manuálisan hozzárendelve tartozhatnak tehát minden digitális fájlhoz, így a digitálisan elérhető kutatási adatokhoz is. A digitálisan keletkező metaadatok (a fényképezőgépes példában például a kép készítésének percre, vagy másodpercre pontos időpontja) nem csupán a kutatási adatok iránt „kívülről” érdeklődőt támogatják az adatok keresésében és validálásában, hanem a kutató számára is rendkívül pontos és fontos információval szolgálhatnak a kutatás egyes aspektusait tekintve.

Metaadatséma

Mind a digitális dokumentumok (pl. kutatási adatok), mind az azokat tartalmazó digitális gyűjtemények (pl. adatcsomagok) rendkívül sokfélék lehetnek, és nagyon sokféle szinten és módon különbözhetnek egymástól. Így az azokat leíró metaadatok is sokfélék lehetnek, amely miatt utóbbiak használatában egységes szabványok kidolgozása vált szükségessé - az átjárhatóság és a könnyebb kereshetőség biztosítására. Ennek köszönhetően jöttek létre a különböző metaadatsémák, amelyek nagyban hozzájárulnak ahhoz, hogy a kutatási adatok és egyéb digitális információforrások könnyen kereshetőek és valóban megtalálhatóak legyenek.

A metaadatséma metaadatelemek meghatározott készlete (elemkészlet) és az ahhoz kapcsolódó szabályok összessége.

Az egyik legelterjedtebb a Dublin Core metaadatséma. A Dublin Core elemkészlete leíró metaadatokat tartalmaz, általános, minden tudományterületre alkalmazható, ennek köszönhetően rendkívül széles körben használt. Jellemző rá az egyszerűség és a rugalmasság, a séma jól érthető és átlátható.

A név első eleme a workshop helyszínére utal, ahol 1995-ben kidolgozták. Az Ohio állambeli Dublinban az OCLC/NCSA Metadata Workshop keretében szakértői csoport gyűlt össze azzal a céllal, hogy olyan metaadat-elemkészletet állítson össze, amely elégséges és megfelelő az digitális információforrások leírására. A második elem (Core, azaz mag) arra utal, hogy a kialakított elemkészlet olyan alap, amely tovább bővíthető.

Elemkészlete időközben ISO szabvánnyá vált, Magyarországon 2004-ben az „MSZ ISO 15836 Információ és dokumentáció. A Dublin Core metaadat elemkészlete” címen adták ki.

A Dublin Core 15 alapeleme kutatási adatokra adaptálva

_{Forrás: HUN-REN ARP projekt}

A különböző tudományterületek más és más, a területen jellemzően létrejövő kutatási adatok sajátosságainak megfelelő, specifikusan kialakított metaadatszabványt használhatnak. Megfelelő szabvány híján az egyes intézmények, projektek, kutatócsoportok saját szabványt hozhatnak létre. Új séma kialakításánál fontos szem előtt tartani, hogy a sémák a FAIR Szabványos elvének megfeleljenek, azaz adott tudományágon belül egymással megegyezőek, egymás között átjárhatóak legyenek. Jelenleg több nemzetközi szervezet (EOSC, RDA, GOFAIR) dolgozik azon, hogy olyan kereteket alakítson ki, amelyek iránymutatást adnak a metaadatszabványok létrehozásában.

Az egyes repozitóriumoknak gyakran saját metaadatsémáik vannak, ezek azonban általában átjárhatók egymás között. A kutatási adatokat leíró metaadatsémát, illetve az abban felsorolt elemkészletet az adatrepozitóriumok a kutatási adatok feltöltésekor ajánlják fel. Az adatrepozitóriumok rendszere a megadott metaadatokat a kutatási adatokhoz csatolja, többek között ezzel is biztosítja utóbbiak megfelelő kereshetőségét.

Kutatásiadat-kezelési terv (Data Management Plan, DMP)

A kutatásiadat-kezelés írásos, rögzített formája a kutatásiadat-kezelési terv. A kutatásiadat-kezelési vagy adatmenedzsment terv néhány oldalas összefoglaló dokumentum, amelyben a kutatás vezetője vagy kutatásiadat-felelőse rögzíti a kutatási adatokat és azok kezelésének módját, a kutatási adatok kezelésével kapcsolatos döntéseket és tevékenységeket - biztosítva az adatok szabályos (a rögzítetteknek megfelelő) és etikus gyűjtését, kezelését, biztonságos tárolását a kutatás során és annak lezárását követően.

Elkészítése a kutató, kutatócsoport saját érdeke is, de egyre általánosabb, hogy a kutatások finanszírozói és a pályáztató szervezetek már a kutatási koncepció benyújtásakor kérik az adatkezelési terv első (kezdeti) verziójának csatolását, előmozdítva ezzel az átgondolt adatkezelést, az elérhető, fenntartható és újrahasznosítható adatok létrejöttét, valamint a tudásmegosztás és a nyílt tudomány alapelveinek minél hatékonyabb alkalmazását.

A kutatásiadat-kezelés átgondolása, valamint a kutatásiadat-kezelési terv elkészítése

támogatja a kutatást;
segíti a kutatási adatok tudatos kezelését, hosszú távú megőrzését, későbbi újrahasznosulását;
hozzájárul az adatvesztés elkerüléséhez és
amennyiben van ilyen irányú intézményi vagy finanszírozói elvárás, megfelel annak.

A kutatásiadat-kezelési terv strukturált, többnyire vázlatos formában megírt, gyakran táblázatszerűen rendezett dokumentum, amelynek kidolgozottsága, részletessége a kutató döntésétől és/vagy a finanszírozó, pályáztató, kutatási intézmény elvárásaitól függ. Alapvetően az alábbi főbb pontokat tartalmazza, amelyek azonban kiegészíthetők további, adatkezeléssel kapcsolatos fontos információkkal is:

Alapadatok
- Kutatás címe
- Kutatás anyaintézménye/befogadó intézménye
- Kutatás finanszírozója
- Kutatás ideje
- Kutatás rövid leírása
- Résztvevő kutató(k) neve(i)
- Adatfelelős neve
Kutatási adatok
- Adatok gyűjtésének, létrehozásának módja
- Keletkező adatok típusa, jellemzői
- Adatok feldolgozásának módja
- Metaadatok, metaadatsémák megadása, leírása
Adattárolás, adatmegosztás
- Adatok tárolása, védelme kutatás közben
- Adatmegosztás, hozzáférési lehetőségek és jogosultságok kutatás közben
- Adatok tárolása, védelme a kutatás lezárultát követően
- Adatmegosztás, hozzáférési lehetőségek és jogosultságok a kutatás lezárultát követően
- Megsemmisítésre kerülő kutatási adatok köre
- Repozitálandó kutatási adatok és egyéb kutatási dokumentációk köre
- Nyíltan/korlátozottan/nem hozzáférhető kutatási adatok és kutatási dokumentációk köre a kutatás után
- Adatok hozzáférhetővé tételének helye
- Perzisztens (állandó egyedi) azonosítók
Etikai és jogi megfelelés
- GDPR-hatálya alá tartozó személyes, szenzitív, titkos adatok köre, védelme, kezelésének módja
Költségek és források
- Adatkezelés költségei
- Finanszírozókkal, adatszolgáltatókkal, kutatási partnerekkel kötött megállapodások
Egyéb, tudományterület-specifikus információk

Bizonyos esetekben pályázat, megbízás esetén a kiíró, megbízó, finanszírozó biztosítja a kutatásiadat-kezelési terv sablonját vagy részletes útmutatóját (pl. OTKA Kutatásiadat-kezelési terv, Template HORIZON 2020 Data Management Plan), de a kutatási intézmények is kialakíthatnak saját sablont vagy elkészítési útmutatót. Ezek hiányában a kutató maga is összeállíthatja kutatásiadat-kezelési tervét, amelyhez javasolt segítséget kérni adatgazdász szakembertől.

Az adatkezelési terv a kutatás során változtatható, a kutatási szakaszokhoz alkalmazkodó dokumentum. Javasolt a kutatás során rendszeres időközönként felülvizsgálni, ha kell, módosítani rajta, a változásokat újabb, verziószámmal ellátott változatokban rögzíteni.

Hasznos linkek DMP készítéshez:

Online elérhető kutatásiadat-kezelési terv készítő oldalak:

Adatok tárolása

Az adatkárosodás, adatvesztés kockázatának minimalizálása érdekében törekedni kell a kutatás egyes fázisaiban keletkező adatok biztonságos tárolására. A kutatási adatokról ezért mindig készüljön biztonsági mentés, lehetőleg több különböző helyen. Érdemes a „here-near-far” elvet követni, azaz egy példány legyen a saját számítógépen, egy másik lokális adathordozón (pl. külső merevlemez, intézeti szerver), egy pedig távoli szerveren (pl. repozitórium).

A kutatási adatok tárolásánál ügyelni kell a jogosulatlan hozzáférés, adatmanipuláció, visszaélés megakadályozására, különös figyelmet fordítva a szenzitív adatok biztonságos tárolására és bármilyen hozzáférés biztosítása esetén a vonatkozó szerződések, megállapodások, nyilatkozatok, előírások és etikai szabályok betartására.

Az adattárolás módjának, eszközének kiválasztásakor figyelembe kell venni, hogy

mennyi ideig szeretnénk vagy kell tárolni az adatokat;
mekkora adatmennyiségről van szó;
milyen körrel, hány emberrel, milyen eléréssel szeretnénk megosztani az adatokat;
keletkeznek-e szenzitív adatok;
mekkora erőforrás áll rendelkezésre,
vannak-e intézményi vagy egyéb előírások az adatok tárolásával kapcsolatban.

A kutatási adatok tárolására leggyakrabban használt megoldások:

személyes helyi adattárolási megoldások (pl. saját számítógép, külső merevlemez)
intézményi helyi adattárolási megoldások (pl. intézményi számítógép, intézményi szerver, külső merevlemez)
személyes felhőalapú tárolási szolgáltatások (pl. OneDrive)
intézményi felhőalapú tárolási szolgáltatások (pl. intézeti felhő)
Git típusú repozitóriumok
személyes weboldal
intézeti/projekt weboldal
adatbázisok
adatrepozitóriumok

Az adattárolás két típusa:

kutatás alatti adattárolás
kutatás lezárulta utáni hosszú távú adattárolás (archiválás)

A két típusú adattárolás módját, helyét alaposan átgondolva, a fenti szempontokat és lehetőségeket mérlegelve kell meghatározni. Az adatokat már a kutatás során is lehet repozitóriumban tárolni, de a repozitóriumok (egyelőre) elsősorban a kutatás lezárulta utáni adattárolásra szolgálnak. Jelenleg az adatrepozitóriumi tárolás a kutatási adatok hosszú távú tárolásának legbiztonságosabb módja.

Fájlstruktúra, fájlok elnevezése

A mappákat és adatfájlokat úgy rendszerezzük és nevezzük el, hogy megfeleljenek az adott kutatás logikájának és mások is értelmezni tudják azokat. Törekedjünk arra, hogy a projekten dolgozó összes munkatárs azonos szabályokon alapuló fájlelnevezéseket használjon. Az adatkezelési tervben tüntessük fel a metódust, amely alapján a fájl- és mappastruktúrák és az elnevezések létrejönnek.

A fájlok nevébe felvehető, azok megkülönböztetését elősegítő információ lehet:

a kutatás / projekt / kísérlet címe vagy betűszava
hely / térbeli koordináták
kutató neve / kezdőbetűi
keletkezés dátuma
adatok típusa
verziószám

Példa a fájlstruktúra- és fájlelnevezési rendszerre

Kutatási adatok közzététele, publikálása

A kutatási adatokat a kutatás lezárultát követően (vagy akár már a kutatás tartama alatt) a „nyílt, amennyire lehetséges, zárt, amennyire szükséges” elv alapján javasolt közzétenni. Fontos, hogy a publikálás az intézményi, finanszírozói és kiadói elvárások, az adott tudományterületen alkalmazott gyakorlatok, valamint a kutató igényeinek figyelembevételével, a FAIR alapelveknek megfelelően történjen. Célja a láthatóság, a hozzáférés, illetve a hosszú távú megőrzés biztosítása.

A közzététel módja lehet:

általános, tudományterületi vagy intézményi adatrepozitóriumban
kiegészítő adatokként folyóiratcikkel együtt
adatcikk formájában adatfolyóiratban
nyilvános adatbázisban

A kutatási adatok közzétételekor figyelembe kell venni a korábban megtett nyilatkozatokban, megszerzett engedélyekben, hozzájárulásokban, szerződésekben foglaltakat, valamint a közzététel helyének szabályozásait, ajánlásait.

A kutatási adatok közzétételekor figyelembe kell venni a kutatási adatok jellegét. A közzétételt, illetve annak pontos módját alaposan át kell gondolni például

kereskedelmi potenciállal rendelkező kutatási adatok;
titkosítás alá eső kutatási adatok;
szenzitív kutatási adatok:
személyes adatokat tartalmazó kutatási adatok,
bizalmas adatokat (pl. betegadatokat) tartalmazó kutatási adatok,
egyéb védelem (pl. természetvédelem) alá eső kutatási adatok;
szerződéses megállapodással rendelkező harmadik fél adatai;
nemzetközi vagy nemzeti stratégiát, autonómiát, biztonságot veszélyeztető kutatási adatok

esetében.

Adatrepozitórium

A kutatási adatok hosszú távú tárolása különböző módokon történhet. Az archiválás legbiztonságosabb helye az adatrepozitórium, amely digitális kutatási adatok biztonságos és hosszú távú tárolására, archiválására, valamint közzétételére, megosztására és hozzáférhetővé tételére szolgáló komplex infrastruktúra.

A repozitóriumban közzétett kutatási adatokhoz különböző hozzáférési jogosultságokat lehet rendelni. A kutatónak biztosítania kell, hogy a legmegfelelőbb hozzáférési szintet rendelje kutatási adataihoz. A hozzáférés lehet

nyílt - ebben az esetben korlátozás nélkül érhetők el a kutatási adatok, vagy
korlátozott - ebben az esetben csak azok kaphatják meg a kutatási adatokat, akik előzetes hozzáférést kérnek, és akiket az engedélyező megbízott (pl. az adott kutatás kutatásiadat-felelőse vagy kutatásvezetője) felhatalmaz az adatokhoz való hozzáférésre.

Miért jó adatrepozitóriumban elhelyezni a kutatási adatokat?

Az adatrepozitóriumban való adatelhelyezés elsődleges célja az adatok hosszú távú tárolásának és hozzáférhetőségének biztosítása.

Az adatrepozitórium-használat előnyei:

biztonságos archiválás
- biztonságos, hosszú távú tárolás
- biztonságos adatkezelés
elérhetőség
- biztonságos (nyílt vagy korlátozott) adatmegosztás
- láthatóság
- kereshetőség
- hozzáférhetőség (különösen a közpénzből készült kutatások esetében)
- adat-újrafelhasználhatóság
ellenőrizhetőség
- kutatási adatok ellenőrizhetőségének biztosítása
- megbízható változáskövetés (adatok bővítésének, cseréjének, változtatásának dokumentálása)
- a pályázatok, intézményi előírások, folyóiratok elvárásainak való megfelelés

Mit repozitáljunk?

A kutatási adatok adatrepozitóriumban történő elhelyezése elsősorban a kutatás során gyűjtött, mért, keletkezett, felhasznált és származtatott kutatási adatokat érinti. A kutatási adatok azonban önmagukban nem vagy nem megfelelően értelmezhetők, így ugyanannyira fontos az azokat kiegészítő, megmagyarázó, kontextusba helyező, illetve az azok megtalálhatóságát biztosító információk, információforrások repozitóriumba helyezése is.

A repozitóriumba helyezendő csomag tartalma:

kutatási adat
kutatási dokumentáció
kutatási algoritmus, szoftver, modell (ha van)
readme fájl
metaadatok

Annak érdekében, hogy a kutatás később is érthető, áttekinthető, újrafelhasználható legyen, kiemelten javasolt readme fájl készítése és mellékelése a repozitóriumban való elhelyezéskor. A readme fájl összefoglalóan ismerteti a kutatás körülményeit, illetve a legfontosabb tudnivalókat (a kutatás rövid leírását, hátterét, módszertanát, az adatcsomag tartalmát, a fájlok leírását stb.) ahhoz, hogy a kutatási adat és dokumentáció a felhasználó számára (aki nem vett részt a kutatásban, nem ismeri a kutatókat) akár évek, évtizedek múlva is érthető, használható legyen. A readme fájl lehet vázlatos vagy összefüggő szöveges dokumentum, és alapulhat a kutatás bármely leírásán (pl. a kutatási terven, pályázati anyagon).

A metaadatok megadása általában nem külön fájlban, hanem az adatrepozitórium felületén történik, azok az adatelhelyezéskor megjelenő mezők kitöltésével kerülnek az adatok mellé.

Kutatási szoftverek repozitálása

A kutatási szoftverek a kutatási folyamat során vagy az adott kutatás céljára létrehozott forráskódfájlok, algoritmusok, szkriptek, számítási munkafolyamatok és futtatható fájlok. Azokat a szoftvereket, szoftverkomponenseket, amelyeket adott kutatásban használnak, de nem abban a kutatásban vagy arra a kutatásra hozták létre (pl. operációs rendszerek, kereskedelmi szoftverek, mások által korábban megírt kódok, szkriptek, algoritmusok stb.) nem kutatási szoftvernek hanem kutatásban használt szoftvernek kell tekinteni.

A saját, a kutatáshoz kifejlesztett szoftver segítségével zajló kutatások későbbi megismerhetősége és megismételhetősége szempontjából a kutatási szoftver megfelelő tárolása és közzététele kulcsfontosságú.

A kutatási szoftverek repozitálásásának további pozitív hozadékai lehetnek a:

Hivatkozhatóság: a publikált kutatási szoftver bekerülhet a szakmai önéletrajzba, lehetővé téve ezáltal az arra való hivatkozást
Szakterületi hozzájárulás: a tudomány- vagy szakterületen dolgozó kutatók hasznosnak találhatják a használt módszertant, kódot, vagy adatokat
Intézménytörténet: sok kutatóhelyen nagy a munkatársi fluktuáció; a kutatási adatok és a hozzájuk tartozó dokumentáció és kutatási szoftver közzétételével biztosítható, hogy az újonnan csatlakozók számára is értelmezhető és megismételhető lehessen az adott kutatás
Jövőbeli énünk segítése: a kutatási szoftver és a hozzá szervesen kapcsolódó folyamatok dokumentálása a kutatót magát is segíti lépései pontos visszakövetésében. Amennyiben a kutatás lezárultát követően szükségessé válik a szoftver visszakeresése (akár mert lassú egy folyóirat elbírálási folyamata, akár mert magunk szeretnénk újra rátekinteni korábbi munkánkra egy jelen kutatás kapcsán), gondos megőrzéssel és pontos dokumentációval sok időt és erőfeszítést spórolhatunk meg.

Hogyan repozitáljunk?

Ahhoz, hogy az adatrepozitóriumba feltöltött kutatási anyag később olvasható és újrafelhasználható legyen, a következő előkészítő lépéseket szükséges megtenni:

Megfelelő kutatási adatok és kutatási anyagok kiválasztása, az egy adatcsomagba tartozó fájlok meghatározása: a kutatás eredményeinek alátámasztására használt vagy az adatgyűjtés során keletkezett egyéb értékes, később felhasználható, repozitálandó adatok, dokumentációk és egyéb kutatási anyagok gondos odafigyeléssel való kiválasztása (nem kell minden, a kutatás során keletkezett fájlt adatrepozitóriumba helyezni)
Anonimizálás: szükség esetén, amennyiben a kutatási anyag személyes, szenzitív vagy titkos adatokat tartalmaz, az adatok anonimizálása, hash-elése, vagy az érintett kutatási adatok megfelelő védelemmel való ellátása, a hozzáférés korlátozása, vagy az ilyen adatok nem repozitálása
Adattisztítás: szükség esetén az adatok tisztítása, megfelelő előkészítése a további felhasználásra. Például:
- táblázat esetén annak ellenőrzése, hogy az A1-es cellában van az első oszlop első sorának első cellája
- táblázatba beágyazott táblázatok, diagramok kerülése
- táblázat esetén az egyesített cellák kerülése
- színekkel való kódolás kerülése
- speciális karakterek kerülése
Az adatok körültekintő címkézése: a kutatási adatok értelemszerű címkékkel, leírással, magyarázattal való, a tudományterület elvárásaival és szokásaival egyező ellátása az adatok értelmezhetőségének biztosítására. Például:
- táblázat esetén minden oszlophoz érthető elnevezés a fejlécben
- táblázat esetén lehetőleg egysoros fejléc alkalmazása
- minden táblázathoz saját adat- vagy jelmagyarázat biztosítása
Megfelelő fájlformátum használata: amennyiben lehetséges, a tudományterületen bevett, elterjedten használt, nyíltan elérhető szoftvert igénylő, gépi olvasásra alkalmas, utólag nem (könnyen) módosítható fájlformátum használata (a repozitálásra szánt fájlok fájlformátuma eltérhet a kutatás alatt használt fájlok formátumától)
Érthető fájlelnevezés: a fájlok lehetőleg érthető, következetes, a tartalomra utaló elnevezése
Átgondolt, áttekinthető adat- és fájlstruktúra kialakítása: az adatok és fájlok olyan, a tudományterületnek és a kutatás menetének megfelelő rendszerezése, amely lehetővé teszi azok későbbi átláthatóságát
Önálló fájlok feltöltése: táblázatok, még ha egybe tartoznak is, önálló fájlként való repozitálása, Excel fájl lapjainak lehetőleg önálló táblázatként való repozitálása
Verziókövetés: amennyiben egy adott kutatási adat vagy dokumentáció több verziója is bekerül a repozitóriumba, azok egyértelmű megkülönböztetése a változás nyomonkövethetőségének biztosítására
Readme fájl készítése: a kutatás és az adatok értelmezésének és kontextusba helyezésének biztosítása érdekében kiemelten javasolt readme fájl elhelyezése az adatokkal együtt
Részletes metaadatolás: az adatok értelmezhetősége és kereshetősége biztosítására a tudományterületen és az adatrepozitóriumban használt metaadatsémának megfelelően
Jogok, etikai szempontok, licencek meghatározása: csak azon kutatási adatok és dokumentációk repozitálása, amelyek a jogi és etikai feltételeknek megfelelnek, illetve olyan hozzáférés beállítása, amely biztosítja azok megismerését, betartását

Milyen fájlformátumot használjunk repozitáláshoz?

Fontos kérdés a hosszú távú tárolásban az adatrepozitóriumban elhelyezett kutatási adatok fájlformátuma. A nemzetközi gyakorlat különböző ajánlásokat fogalmaz meg a területen, az alapgondolat azonban megegyezik: olyan formátumokban javasolt az adatok hosszú távú megőrzése és megosztása, amelyek open source programokkal megnyithatók és amelyek hosszú távon is biztosítják az adatok elérhetőségét.

A kutatás alatt keletkező és a kutatás után megőrzendő fájlok formátuma nem feltétlen kell, hogy megegyezzen egymással. A kutatáshoz használt könnyen szerkeszthető fájlokat, illetve a speciális formátumokban mentő műszerek vagy algoritmusok segítségével keletkező fájlokat érdemes lehet a kutatás végén átkonvertálni hosszú távon jobban használható típusba. Ha van rá lehetőség, akkor javasolt akár az adatállomány több módon elmentett változatát is megosztani.

Ajánlott, elfogadható és nem ajánlott fájlformátumok

_Forrás:_{https://openscience.hu/f-a-i-r-kutatasi-adatkezeles/}_és_{https://ukdataservice.ac.uk/learning-hub/research-data-management/format-your-data/recommended-formats/}

Hol repozitáljunk?

A megfelelő adatrepozitórium kiválasztása során általános és kutatásfüggő szempontokat érdemes figyelembe venni.

Általános szempontrendszert dolgozott ki 2020-ban egy kutatócsoport TRUST Alapelvek (TRUST Principles) néven. A betűszó a Transparency (átláthatóság), Responsibility (felelősség), User focus (felhasználóorientáltság), Sustainability (fenntarthatóság) és Technology (technológia) kifejezések kezdőbetűiből áll.

A TRUST Alapelvek szerint a megbízható repozitórium ismérvei:

Átláthatóság: legyen átlátható és a felhasználók számára elérhető szolgáltatási és adattárolási politikája
Felelősség: vállaljon felelősséget az adatok hitelességéért és integritásáért, valamint az adatrepozitóriumi szolgáltatás megbízhatóságáért
Felhasználóorientáltság: biztosítson a felhasználói igényeknek megfelelő adatkezelést
Fenntarthatóság: garantáljon hosszú távú adatkezelést és –tárolást
Technológia: rendelkezzen biztonságos, állandó és megbízható szolgáltatásokat nyújtó infrastruktúrával

További fontos általános szempontok lehetnek a megfelelő repozitórium kiválasztásánál:

Biztonság: biztosítsa az adatok megfelelő védelmét
PID biztosítása: adjon perzisztens (egyedi) azonosítót (pl. DOI) a repozitált kutatási adatoknak, adatcsomagoknak
Kereshetőség: kínáljon megfelelő metaadatsémát, amely alapján a repozitált adatok és metaadatok kereshetőek és megtalálhatóak
Nyíltság: a repozitórium és ezzel a metaadatok legyenek mindenki számára elérhetőek
Testreszabhatóság: az adatok elérhetősége (az adatokhoz hozzáférők körének meghatározása) legyen egyénileg megadható
FAIR: biztosítsa a FAIR alapelveknek megfelelő adatkezelést

Megfontolandó szempontok lehetnek továbbá például:

Széles körben való elfogadottság: feleljen meg a folyóirat/finanszírozó/kutatási intézmény követelményeinek, ha vannak ilyenek
Ingyenesség: legyen ingyenes (a megfelelő affiliáció birtokában) mind a feltöltés, mind a használat
Helpdesk biztosítása: legyen mögötte gyors és megbízható segítő személyzet

Előfordulhat, hogy adott kutatás esetében az adatok tárolásához specifikus adatrepozitórium kiválasztására van szükség. Ilyen eset például, ha adott folyóirat csak a saját repozitóriumát fogadja el az adatok publikációhoz való csatolásához, vagy ha egy adott műszerrel való mérés után az adatok csak a műszert üzemeltető intézmény repozitóriumában vagy adattárában tárolhatóak.

Alapvető elv, hogy ha elérhető, válasszunk tudományterületi vagy intézményi repozitóriumot. Amennyiben ilyen nem áll rendelkezésre, abban az esetben válasszunk általános repozitóriumot adataink tárolására. Ajánlott, hogy az itthon keletkezett kutatási adatokat hazai adatrepozitóriumba (is) töltsük fel, különösen, ha közpénzből finanszírozott kutatás adatairól van szó.

Intézményi adatrepozitóriumok a HUN-REN-ben

A HUN-REN kutatói számára jelenleg rendelkezésre álló adatrepozitóriumok

a Kutatási Dokumentációs Központ (KDK) repozitóriuma, valamint
a HUN-REN Adatrepozitórium Platform (HUN-REN ARP) adatrepozitórium, amely a korábbi Concorda adatrepozitórium továbbfejlesztett és kibővített változata.

A KDK repozitóriumában a Társadalomtudományi Kutatóközpont (TK) négy intézetének kvalitatív és kvantitatív módszerekkel készült kutatásainak kutatási adatai és dokumentációja (interjúk felvételei, leiratai, vezérfonalai; kérdőíves felmérések kérdőívei, módszertani leírásai, adatbázisai; terepnaplók, megfigyelések jegyzőkönyvei stb.) érhetők el, különböző (szöveg, kép, videó stb.) formátumokban. A metaadatok minden esetben nyíltan hozzáférhetők.

A HUN-REN ARP Adatrepozitórium a HUN-REN által fenntartott, a TK, a SZTAKI és a Wigner kutatóintézetek közreműködésében fejlesztett intézményi adatrepozitórium. Az adatrepozitórium minden HUN-REN kutatóhely számára elérhető, minden tudományterület adatait tárolni képes infrastruktúra. Az ARP repozitóriuma Harvard Dataverse alapú, azt azonban további funkciókkal kiegészítő többkomponensű rendszer.

A HUN-REN ARP a HUN-REN által fenntartott, a TK, a SZTAKI és a Wigner kutatóintézetek közreműködésében fejlesztett intézményi adatrepozitórium. Az adatrepozitórium minden HUN-REN kutatóhely számára elérhető, minden tudományterület adatait tárolni képes infrastruktúra. Az ARP repozitóriuma Harvard Dataverse alapú, azt azonban további funkciókkal kiegészítő többkomponensű rendszer.

Egyedi, állandó azonosító (persistent identifier, PID)

Egy megbízható adatrepozitórium képes a benne őrzött digitális objektumok (adatok, adatcsomagok) fellelhetőségét és azonosíthatóságát biztosítani. Ennek a képességnek fontos komponense, hogy a repozitált digitális objektumokhoz perzisztens azonosítók kapcsolódjanak, azok az objektumok metaadatai között szerepeljenek. A perzisztens (állandó) azonosítók a digitális objektumok hosszú távú, globális és egyértelmű azonosítására szolgálnak, általában számokból és betűkből álló, linkkel ellátott kódként generálják azokat. A perzisztens azonosítók fontos feladata, hogy konzisztens módon biztosítsák az adatok elérését, azaz abban az esetben is, ha azok tárolási helye megváltozik. A perzisztens azonosítók így az adatrepozitóriumtól független entitások kell hogy legyenek. A leggyakoribb perzisztens azonosítók a DOI, az ARK, a Handle, az ORCID vagy a ROR. Az előbbiek adatok, adatcsomagok, az utóbbi kettő kutatók (szerzők), és (kutatással foglalkozó) intézmények azonosítására szolgálnak.

A DOI (Digital Object Identifier) a legelterjedtebben alkalmazott azonosító mind a tudományos publikációk, mind a kutatási adatok esetében. Előnye az elterjedtségen, szabványosságon túl a központi metaadattár (az egyes DOI ügynökségek, mint a DataCite és a CrossRef külön adattárat működtetnek), az adatáramlást elősegítő megoldások léte és terjedése (CrossRef - ORCID kapcsolat) és a scientometriai beágyazódás (DOI aratás a cikkekből).

A szabványos azonosítókon belül léteznek lokális, helyi adatbázisokkal kiszolgálhatók, ilyen például az ARK (Archival Resource Key). Elterjedt perzisztens azonosító továbbá a Handle, amely nem kereskedelmi alapon fejlesztett decentralizált azonosítórendszer, globális (vagy lokális) bővebb metaadattára azonban nincsen.

Felhasználói engedélyek (licencek)

A kutatási adatok közzétételekor el kell dönteni, hogy a közzétett adatokkal mások mit kezdhetnek, hogyan használhatják fel azokat. Ennek meghatározására szolgálnak a licencek. A legelterjedtebb Creative Commons (CC) licencek kutatási adatok esetében is jól használhatók, mivel ismertek, átláthatók és a keresőmotorok számára is olvashatók.

A licencek tulajdonképpen engedélyekként értelmezhetők bizonyos feltételek teljesülése esetén.

Mielőtt licencet választanánk adataink megosztásához, érdemes utánajárni, hogy a kutatási adatok tulajdonosa és/vagy a kutatás finanszírozója tett-e bármilyen megkötést e tekintetben (akár a finanszírozáshoz, akár a helyi irányelvekhez kapcsolódóan). A Creative Commons licencek hét különböző típusát különböztetjük meg, amelyek két jog és négy korlátozó feltétel variációiból állnak össze. Utóbbiak a:

Kép	Megosztási jog^[2]
Kép	Feldolgozási jog^[3]
Kép	„Hivatkozd!” feltétel (BY)^[3]
Kép	„Ne üzletelj vele!” feltétel (NC)^[4]
Kép	„Ne változtasd!” feltétel (ND)^[5]
Kép	„Ugyanígy oszd meg!” feltétel (SA)^[7]

A jogok és feltételek részletesen a következőket takarják:

Megosztási jog: lehetőséget nyújt arra, hogy a licencelt mű szabadon másolható, terjeszthető, bemutatható és előadható legyen.

Feldolgozási jog: lehetőséget nyújt arra, hogy a licencelt mű alapján származékos művek (feldolgozások) legyenek létrehozhatók.

„Hivatkozd!” feltétel: a licencet kibocsátót (azt kibocsátani joggal rendelkezőt) fel kell tüntetni az adatok használatakor, megosztásakor, egyéb jellegű megjelenítésekor.

„Ne üzletelj vele!” feltétel: célja, hogy megakadályozza az adatokkal való üzleti jellegű visszaélést; sok esetben ún. duális rendszerben kerül használatra, az üzleti felhasználást lehetővé tévő, fizetős licenccel párban.

„Ne változtasd!” feltétel: megengedi egy anyag másolását és terjesztését, de tiltja annak mindennemű változtatását, adaptálását, átformálását vagy lefordítását, vagyis csak az eredeti verzió használható és terjeszthető. Röviden: nem engedélyezett az eredeti anyag felhasználása más anyagok vagy adaptációk létrehozásához.

„Ugyanígy oszd meg!” feltétel: az adatokból származó, azokat felhasználó új munkák megjelentetésekor azokat a forrásadatokhoz tartozó licencekkel azonos licencekkel kell ellátni.

Creative Commons licencek

A Creative Commons-nak van magyarul is elérhető licencválasztó felülete, amely a fenti döntések meghozatalát követően megmutatja, melyik licenc illik leginkább az adott kutatáshoz.

Részletesebb útmutatás (angol nyelven) a Digital Curation Centre oldalán található.

_[1]_{To share (right)}
_[2]_{To remix (right)}
_[3]_{Attribution requirement (BY)}
_[4]_{Non-commercial requirement (NC)}
_[5]_{No derivative works requirement (ND)}
_[6]_{Share alike requirement (SA)}

Etikai szempontok, adatvédelem

Szenzitív adat minden személyes adat, valamint minden olyan további adat, amely egyének, fajok, tárgyak vagy helyszínek azonosítására alkalmas, és amelynek nyilvánosságra kerülésével fennáll a diszkrimináció, a károkozás vagy a nem kívánt figyelem kockázata.

Személyes adat minden olyan információ (például: név, lakcím, igazolvány szám, testi, szellemi, gazdasági, kulturális, származásbeli, politikai, vallási vagy világnézeti tényező, egészségügyi adat vagy szexuális életre vagy irányultságra vonatkozó információ), amely alapján valamely természetes személy azonosítható.

Egyes kutatások során szenzitív (személyes, bizalmas, titkos vagy egyéb módon érzékeny) adatok is keletkezhetnek, amelyeket kiemelt gondossággal kell kezelni a kutatás alatti tárolási mód kiválasztásakor, az adatok más kutatókkal vagy egyéb személyekkel való megosztásának esetén, és a hosszú távú megőrzés kialakításakor is. A szenzitív, különösen a személyes adatok kezelésének módját a kutatásiadat-kezelési tervben külön részletesen meg kell adni, a hozzájuk kapcsolódó kezelési (pl. az érintettektől) és egyéb (pl. etikai) engedélyeket be kell szerezni.

A kutatás során különös figyelmet kell fordítani arra, hogy a személyes adatok kezelése összhangban legyen a GDPR rendelkezéseivel.

Etikai és adatvédelmi szempontok minden olyan kutatás esetében felmerülnek, ahol személyek a kutatás alanyai. Szenzitív adatok továbbá egyéb területen is keletkezhetnek, ilyen lehet például egy veszélyeztetett faj előfordulási helyét vizsgáló, vagy egy üzleti érdekeket, titkos információkat tartalmazó kutatás, de más speciális területen vagy kutatásban is keletkezhetnek hasonló adatok.

Minden kutatást a kutatásetikai és az adatvédelmi szempontok figyelembevételével kell elvégezni. Amennyiben szükséges, a kutatás előkészítésekor vagy a kutatás alatt be kell szerezni az elvárt, kutatási adatokkal kapcsolatos kutatóhelyi és/vagy tudományterületi nyilatkozatokat, engedélyeket, valamint személyes adatokat is kezelő kutatás esetén a kutatás alanyainak nyilatkozatait. A bennük, valamint az egyéb, a kutatás előtt vagy során beszerzett engedélyekben, nyilatkozatokban, megállapodásokban és szerződésekben foglaltakat a kutatás során végig figyelembe kell venni, az érintett kutatási adatokat azoknak megfelelően kell kezelni.

A szenzitív adatok kezelésekor többek között az alábbi szempontokat kell körültekintően átgondolni és figyelembe venni:

A kutatás előkészítése során:
- A kutatási terv elkészítése során végig kell gondolni és a kutatási tervben jelezni, hogy keletkeznek-e szenzitív adatok a kutatás folyamán
- A kutatás során törekedni kell arra, hogy csak feltétlenül szükséges személyes adatok legyenek rögzítve és tárolva
- Tájékoztató és beleegyező nyilatkozatban kell rögzíteni, hogy a kutatás hogyan biztosítja a különböző szakaszokban – beleértve az adatok megosztásának, újrafelhasználásának lehetőségét is – a szenzitív, különösen a személyes adatok védelmét
- Amennyiben a kutatás lezárulása után, hosszú távon is érdemes megőrizni és/vagy elérhetővé tenni egyes személyes adatokat, úgy a kutatás elején valamennyi, a kutatás személyes adattal érintett alanyától írásos beleegyezést kell kérni a szenzitív adatok tárolásához és/vagy nyilvánosságra hozatalához
A kutatás során:
- Különös figyelmet kell fordítani a szenzitív, különösen a személyes adatok tárolására, a hozzáférés, megosztás meghatározására és módjára (pl. felületére)
- Kizárólag feltétlenül szükséges esetben, és a lehető legrövidebb ideig indokolt a személyes adatok kezelése és tárolása
- A kutatásban való részvételnek a résztvevők szabad akaratából kell történnie
A kutatás lezárultát követően
- Ha kutatási szempontból már nem indokolt a személyes adatok megőrzése, gondoskodni kell azok biztonságos és teljes törléséről
- Ha a szenzitív, különösen a személyes adatok nem törölhetők, álnevesítéssel, anonimizálással csökkenthető az adatkezelés negatív következményeinek kockázata
  - A GDPR szerint anonimizált adatok esetében nem kell alkalmazni a személyes adatok védelmére vonatkozó szabályokat
- A kutatási adatok repozitálásakor, szenzitív, különösen személyes adatokat is tartalmazó kutatásnál különös odafigyeléssel kell figyelembe venni a kiválasztott adatrepozitórium vagy adattár felhasználási feltételeiben leírtakat
- A legtöbb esetben csak olyan kutatási adatok repozitálhatók, amelyek nem tartalmaznak szenzitív, különösen személyes adatot, vagy más, személyek beazonosítására alkalmas információt
- Kivételt jelenthet, ha:
  - valamennyi érintett személy (pl. a kutatás finanszírozója, kutatásvezetője és valamennyi, személyes/érzékeny adattal érintett alanya) kifejezett írásos beleegyezését adta a személyes/érzékeny adatok tárolásához és nyilvánosságra hozatalához, és a feltöltő ezek birtokában, valamint a megfelelő hozzáférési szintek beállításával helyezi el azokat
  - valamennyi azonosított vagy azonosítható személy elhunyt, és nincs olyan körülmény vagy jogszabály, amely kifejezetten korlátozná a személyes adatok vagy információk kiadását
  - a személyes/érzékeny adatokat is tartalmazó kutatási adatokhoz történő repozitóriumi hozzáférés engedélyköteles (a feltöltő szándékának és jogosultságának megfelelő beállításokkal) és az engedélykérés a rendszerben megoldott

Mesterséges intelligencia a kutatásban

Tudományterületfüggő, hogy milyen mértékben, de általános tendencia, hogy egyre több kutatásban használnak valamilyen módon mesterséges intelligenciát, mesterséges intelligencia alapú algoritmust, mesterséges intelligencia által támogatott kutatási eszközöket. Mesterséges intelligencia segítségével készült adat, adatelemzés, szöveg, tanulmány vagy egyéb kutatási anyag esetében fel kell tüntetni az alkalmazott módszert és eszközt, illetve megfelelő (visszakereshető) módon hivatkozni kell rá.

A kutatási adatok kezelésének költségei

Már a kutatás tervezésekor figyelmet kell fordítani a kutatási adatokhoz kapcsolódó költségek kalkulálására, illetve a finanszírozás megtervezésére, annak a kutatás költségeibe való beépítésére.

Ilyen költségek lehetnek például:

a kutatás alatti adattárolás felmerülő költségei (pl. fizikai vagy digitális tárolók, fizetős felhőszolgáltatások költségei)
a kutatás lezárulta után az adatok archiválásra való előkészítésének költségei (pl. adatrendezés, adattisztítás költségei)
a személyes, szenzitív vagy bizalmas adatok miatti anonimizálás vagy egyéb eljárás költségei
a kutatási adatok hosszú távú megőrzésének és megosztásának költségei (pl. kutatási honlap létrehozásának és fenntartásának díja, repozitóriumi szolgáltatás díja)
a kutatási adatok FAIR módon való megosztásának költségei (pl. adatgazdász segítségének díja, perzisztens azonosító költsége)

A ténylegesen kifizetendő költségek nagymértékben függhetnek a kutató vagy kutatás befogadó intézményétől, illetve annak ingyenesen biztosított szolgáltatásainak körétől. A kutatás tervezésekor érdemes körültekintően tájékozódni az igénybevehető, térítésmentesen rendelkezésre álló lehetőségekről, támogatási formákról.

A kutatási adatokkal kapcsolatban felmerülő költségek tervezésében és kiszámolásában segítséget nyújthat a UK Data Service Data management costing tool and checklist lehetősége.

Kutatási adatokkal kapcsolatos fogalmak, meghatározások

Kutatási adatokkal és kutatásiadat-kezeléssel kapcsolatos fontos fogalmak és definíciók találhatóak az Adatrepozitórium Platform oldal Fogalomtár aloldalán, valamint a Framework for Open and Reproducible Research Training oldal jegyzékében.

Adatrepozitóriumok használatával kapcsolatos ismeretek terjesztése, kutatásiadat-kezelési tanácsadás a HUN-REN ARP-projektben

A repozitóriumi infrastruktúra kialakítása mellett a HUN-REN Adatrepozitórium Platform projekt kiemelt feladata az adatrepozitóriumok használatával kapcsolatos ismeretek terjesztése, a szükséges HUN-REN- és intézményi szintű adatkezelési irányelvek és szabályozások létrehozása vagy annak támogatása, valamint a hazai és nemzetközi adat- és metaadat-kezelési, -tárolási szabványok és ajánlások, jógyakorlatok meghonosítása, ezzel is lehetővé téve a FAIR adatrepozitórium-kultúra megteremtését a HUN-REN intézményhálózatán belül.

Ennek érdekében

A HUN-REN ARP honlapján folyamatosan frissülő ismeretanyag olvasható a kutatási adatokkal és azok kezelésével kapcsolatban
A honlapon és különböző kommunikációs csatornákon keresztül folyamatos tájékoztatást kapnak a kutatók a közelgő rendezvényekről, eseményekről
A HUN-REN ARP szakértői rendszeresen tartanak előadásokat, képzéseket, a korábbi események felvételei megtekinthetők a HUN-REN ARP oldalán
A HUN-REN ARP Nagykövet Program keretében elkezdődött az intézményi adatgazdász hálózat kialakításának megalapozása, az intézményi jógyakorlatok kialakítása
A HUN-REN ARP munkatársai rendelkezésre állnak bármilyen, a témával kapcsolatos kérdésben, probléma megoldásában

A HUN-REN kutatói információkat szerezhetnek a HUN-REN ARP Portálról, valamint az ARP szakembereitől. Az ARP szakemberei készséggel állnak rendelkezésre konzultációs lehetőséggel és támogatás nyújtásával a kutatás bármely szakaszában az adatkezeléssel és a repozitóriumhasználattal kapcsolatban felmerülő kérdések megválaszolására a support@researchdata.hu email címen.