Ugrás a tartalomra

HUN-REN Adatrepozitórium Platform

Ki, mit, hova, miért? / Barancsuk Lilla

Előadók
Barancsuk Lilla

Barancsuk Lilla (EK KL): Többszáz gigabájtos kutatási adatcsomag repozitálása a HUN-REN ARP-ben

Az elmúlt évek során kutatócsoportunk az ultrarövidtávú napelemtermelés-becslés témakörében végzett vizsgálatokat, melyek során nagyméretű, több száz gigabájtos égboltkamerás és időjárásiadat-halmaz keletkezett. A képek és kísérő mérések feldolgozása mesterséges neurális hálók segítségével történt, a kutatás során keletkezett adatokat a HUN-REN Adatrepozitórium Platformon (ARP) keresztül tettük elérhetővé.
Az adatcsomag mérete komoly kihívások elé állította az ARP platform infrastruktúráját: a többszázezer képfájlt tartalmazó készlet egyetlen adatcsomagként történő feltöltése jelentősen lassította a platform működését. A megoldás egy alternatív tárolási struktúra kidolgozása lett: egy új Dataverse példány és több különálló, zip-fájlokat tartalmazó adatkészlet létrehozása.
A megoldás publikusan elérhető:
https://repo.researchdata.hu/dataverse/all-sky-imagery
Az adatcsomag jelenlegi állapotában már könnyen kezelhető, más kutatók számára is egyszerűen hozzáférhető, felfedezhető, letölthető. A munkafolyamat során szoros együttműködésben dolgoztunk az ARP szakértőivel, valamint saját fejlesztésű Python-alapú szkriptet használtunk a feltöltés automatizálásához. A projekt során szerzett tapasztalatok rámutattak arra, hogy a tudományos adatkezelésben rendkívül fontos a technológiai rugalmasság és a szakértőkkel való együttműködés, főképpen ilyen mennyiségű adat repozitálása esetén.
Előadásomban bemutatom a teljes folyamatot a kezdeti próbálkozásoktól az új struktúra kialakításáig, valamint megosztom azokat a technikai és együttműködési tanulságokat, amelyek hasznosak lehetnek más, hasonlóan nagyméretű adatkészleteken dolgozó kutatók számára is.

A szakmai fórum a kutatásiadat-kezelés, a kutatástámogatás, az adatrepozitóriumok és a nyílt tudomány témaköreiben zajló hazai és nemzetközi kezdeményezések, jógyakorlatok, együttműködések, valamint kihívások és technológiai megoldások bemutatására nyújtott teret. Az előadók elméleti és gyakorlati szempontból vizsgálták a kutatási adatok kezelésében és a kutatástámogatásban megfigyelhető trendeket, különös tekintettel a területtel foglalkozó szakemberek és az elérhető infrastruktúrák fejlődési és kapcsolódási lehetőségeire, megoldásaira.

Távoli videó webcím