LABIMI/F
Projekt LABIMI/F LABIMI/F – Langzeitarchivierung biomedizinischer Forschungsdaten | |
Zeitraum: | Juni 2011 bis Mai 2013 |
Beteiligt: | Abteilung Medizinische Informatik, Universitätsmedizin Göttingen Institut für Biometrie und Medizinische Informatik, Universitätsklinikum Magdeburg Institut für Medizinische Informatik und Statistik und AG Genomische Gastroenterologie, Klinik für Innere Medizin I, Universitätsklinikum Schleswig-Holstein Arbeitsgemeinschaft der Wissenschaftlichen Medizinischen Fachgesellschaft e.V. (AWMF) Technologie- und Methodenplattform für die vernetzte medizinische Forschung e.V. (TMF) Zuse-Institut Berlin (ZIB) |
gefördert von: | Deutsche Forschungsgemeinschaft (DFG) |
Website: | Projekt-Webseiten |
Langzeitarchivierung biomedizinischer Forschungsdaten
Projektbeschreibung
LABIMI/F realisiert an Beispielen aus der Genomforschung und der biomedizinischen Bildanalyse eine
prototypische Infrastruktur zur Archivierung von Forschungsdaten. Dafür wurden die entsprechenden
Arbeitsprozesse inkl. der daraus resultierenden Datenformate und -größen analysiert und bereits
existierende Metadatenstandards zur Annotation dieser Daten identifiziert. Die Genomforschung
produziert seit dem Aufkommen von Next-Generation-Sequencing (NGS) eine Vielzahl verschiedener
Daten unterschiedlicher Formate und Größen. Die prominentesten Vertreter sind die Datenformate
FASTQ und SAM bzw. dessen komprimierte Form BAM. Bei der Speicherung von Bilddaten haben sich
die Formate DICOM und NIFTI-1 durchgesetzt.
Um den Forschungskontext und somit die Qualität der Nachnutzung archivierter Forschungsdaten zu
erhalten und so einen Informationsverlust über die Zeit entgegen zu wirken, müssen die Forschungsdaten
mit Metadaten annotiert werden. Dabei ist die Auswahl der zu erhebenden Metadaten ist für
eine spätere Nachnutzung essenziell und sollte bestehende bereits erarbeitete minimale Metadatenschemata
und Standards, wie z.B. Minimalinformationen über Genomsequenzen (MIGS), berücksichtigen.
Die Relevanz und Art der einzelnen Metadaten ist dabei vom Experiment und Verwendungszweck
abhängig. Daher ist es zu empfehlen vor der Archivierung die minimalen Metadatenschemata
in Zusammenarbeit mit dem Wissenschaftler zu prüfen und gegebenenfalls für die konkrete Anwendung
anzupassen. Außerdem sollte dieser Prozess auch über die Archivierungsdauer fortgesetzt werden,
um Änderungen in fachlichen Aspekten, Standards und Technik zu folgen.
Das Nachnutzen von annotierten Forschungsdaten kann allerdings nur erfolgen, wenn Forscher bereit
sind, ihre Forschungsdaten zu veröffentlichen. Aufgrund der Forderungen von der DFG und des
Wissenschaftsrates, alle Forschungsdaten zu archivieren, akzeptieren Forscher i.d.R. das annotierte
Archivieren ihrer Forschungsdaten. Der Archivierungsprozess (vor allem die Annotation) sollte sich
möglichst optimal in die Arbeitsabläufe von Forschern integrieren, um eine große Akzeptanz zu gewährleisten.
Die Bereitschaft eigene Forschungsdaten zu teilen, wird oft durch die Befürchtung der
Fremdverwertung gehemmt. Um dieser Angst entgegen zu wirken und den Austausch von Forschungsdaten
zu fördern, wurde in LABIMI/F eine Archivierungsinfrastruktur aufgebaut, welche die
Metainformationen zu Forschungsdaten in einem teilweise öffentlich durchsuchbaren DSpace-
Repositorium veröffentlicht, die Forschungsdaten selbst jedoch durch die Ablage im föderierten Dateisystem
XtreemFS unter der Kontrolle des Forschers verbleiben.
Die prototypische Implementierung der LABIMI/F-Infrastruktur verwendet ausschließlich open
source Software und ermöglicht eine Recherche der Metadaten. Zudem steht aus dem Projekt eine
grafische Schnittstelle für die Annotation der Forschungsdaten und den Import in die Archivierungsinfrastruktur
bereit. Die Metadaten können über XML-Schemata spezifiziert und validieren werden.
Die aufgebaute Infrastruktur steht in Göttingen zur Langzeitarchivierung verschiedenster Studiendaten
bereit. Zusätzlich zur prototypischen Implementierung wird das Projekt von einem Datenschutzund
Betriebskonzept, sowie einer beispielhafte Dienstgütevereinbarung mit drei Qualitätsstufen
flankiert und bietet somit neben der Installationshilfe, Anregungen sowie Hilfestellungen zum Betrieb
von Langzeitarchivierungsinfrastruktur.