DINI-nestor-WS3: Unterschied zwischen den Versionen
Maxi (Diskussion | Beiträge) |
|||
(Eine dazwischenliegende Version von einem anderen Benutzer wird nicht angezeigt) | |||
Zeile 38: | Zeile 38: | ||
|Begrüßung und Einführung durch die DINI/nestor-AG Forschungsdaten<br/>Janna Neumann (Technische Informationsbibliothek) | |Begrüßung und Einführung durch die DINI/nestor-AG Forschungsdaten<br/>Janna Neumann (Technische Informationsbibliothek) | ||
|- | |- | ||
|Begrüßung durch das Konrad-Zuse-Zentrum für Informationstechnik <br/> TIm Hasler (ZIB) | |[[:Datei:01--hasler--begruessung-zib.pdf|Begrüßung durch das Konrad-Zuse-Zentrum für Informationstechnik]] <br/> TIm Hasler (ZIB) | ||
|- | |- | ||
|rowspan="4"|10:45 bis 12:00 Uhr | |rowspan="4"|10:45 bis 12:00 Uhr | ||
Zeile 45: | Zeile 45: | ||
|<strike>Aspekte der Langzeitarchivierung in Policies von Forschungsdatenrepositorien <br/> Jessika Rücknagel (HU Berlin) </strike> Der Vortrag muss leider entfallen. | |<strike>Aspekte der Langzeitarchivierung in Policies von Forschungsdatenrepositorien <br/> Jessika Rücknagel (HU Berlin) </strike> Der Vortrag muss leider entfallen. | ||
|- | |- | ||
| Vertrauenswürdiges digitales Langzeitarchiv – Zertifizierung an der TIB <br/> Franziska Schwab (Technische Informationsbibliothek) | | [[:Datei:02--schwab--vertrauenswuerdige_lza_zertifizierung_an_der_tib.pdf|Vertrauenswürdiges digitales Langzeitarchiv – Zertifizierung an der TIB]] <br/> Franziska Schwab (Technische Informationsbibliothek) | ||
|- | |- | ||
|Konzept für die Definition Signifikanter Eigenschaften von sozialwissenschaftlichen Forschungsdaten <br/> Natascha Schumann, Reiner Mauer, Stefan Müller, Astrid Recker (GESIS – Leibniz Institut für Sozialwissenschaften) | |[[:Datei:03--schumann--signifikante-eigenschaften-sowi-forschungsdaten.pdf|Konzept für die Definition Signifikanter Eigenschaften von sozialwissenschaftlichen Forschungsdaten]] <br/> Natascha Schumann, Reiner Mauer, Stefan Müller, Astrid Recker (GESIS – Leibniz Institut für Sozialwissenschaften) | ||
|- | |- | ||
|''12:00 bis 13:00 Uhr'' | |''12:00 bis 13:00 Uhr'' | ||
Zeile 55: | Zeile 55: | ||
|'''Block 2: Moderation: Jens Ludwig''' | |'''Block 2: Moderation: Jens Ludwig''' | ||
|- | |- | ||
|NaLiDa: Nachhaltigkeit linguistischer Daten <br/> Claus Zinn, Erhard Hinrichs, Thorsten Trippel (Universität Tübingen) | |[[:Datei:04--zinn--nachhaltigkeit-linguistischer-daten.pdf|NaLiDa: Nachhaltigkeit linguistischer Daten]] <br/> Claus Zinn, Erhard Hinrichs, Thorsten Trippel (Universität Tübingen) | ||
|- | |- | ||
|Digitales Datenmanagement seit 1988 – Überführung eines digitalen Forschungsarchivs aus dem Bereich Systemökologie in das ETH Data Archive <br/> Ana Sesartic (ETH Zürich) | |[[:Datei:05--sesartic--datenmanagement-1988-ueberfuehrung-datenarchiv.pdf|Digitales Datenmanagement seit 1988 – Überführung eines digitalen Forschungsarchivs aus dem Bereich Systemökologie in das ETH Data Archive]] <br/> Ana Sesartic (ETH Zürich) | ||
|- | |- | ||
|''13:50 bis 14:10 Uhr'' | |''13:50 bis 14:10 Uhr'' | ||
Zeile 65: | Zeile 65: | ||
|'''Block 3: Moderation: Maxi Kindling''' | |'''Block 3: Moderation: Maxi Kindling''' | ||
|- | |- | ||
|Langzeitarchivierung von Forschungsdaten in interdisziplinären Forschungsverbünden. Ein Praxisbericht aus dem Forschungszentrum Europa an der Universität Trier <br/> Marina Lemaire (Universität Trier) | |[[:Datei:06--lemaire--Langzeitarchivierung_Forschungsdaten_interdisziplinaere_Forschungsverbuende.pdf|Langzeitarchivierung von Forschungsdaten in interdisziplinären Forschungsverbünden. Ein Praxisbericht aus dem Forschungszentrum Europa an der Universität Trier]] <br/> Marina Lemaire (Universität Trier) | ||
|- | |- | ||
|Langzeitarchivierung aus der Perspektive eines interdisziplinären Großprojektes: Ein Erfahrungsbericht aus dem SFB/TRR 32 <br/> Constanze Curdt, Dirk Hoffmeister, Georg Bareth, Ulrich Lang (Universität Köln) | |[[:Datei:07--curdt--interdisziplinaeres-grossprojekt-erfahrungsbericht-sfb.pdf|Langzeitarchivierung aus der Perspektive eines interdisziplinären Großprojektes: Ein Erfahrungsbericht aus dem SFB/TRR 32]] <br/> Constanze Curdt, Dirk Hoffmeister, Georg Bareth, Ulrich Lang (Universität Köln) | ||
|- | |- | ||
|15:00 bis 15:30 Uhr | |15:00 bis 15:30 Uhr | ||
Zeile 130: | Zeile 130: | ||
==Protokoll== | ==Protokoll== | ||
Der dritte Workshop der DINI/nestor AG Forschungsdaten fand am 19.06.2015 im Konrad-Zuse-Zentrum in Berlin statt. Thema des Workshops war die Langzeitarchivierung von Forschungsdaten. Inhaltlich war das Thema in drei Blöcke aufgeteilt. Nach zwei Beiträgen, die jeweils einen Einblick in institutionelle Langzeitarchivierungskonzepte boten, folgten disziplinäre Beispiele sowie im dritten Block die kurzfristige Projektperspektive aus dem Kontext von Verbundforschungsprojekten. . | |||
Nach einer kurzen Einführung durch die Veranstalter stellte Franziska Schwab (TIB) den Zertifizierungsprozess für vertrauenswürdige digitale Langzeitarchive am Beispiel des Goportis-Verbundes und Rosetta von ExLibris vor. Sie erläuterte die schrittweise Zertifizierung angefangen vom Data Seal of Approval (DSA) zum nestor Siegel für vertrauenswürdige Langzeitarchive. Dabei ging sie auf die Problematiken und Herausforderungen ein, die eine Zertifizierung sowohl im Verbund als auch mit einem kommerziellen Produkt mit sich bringt. | |||
Im zweiten Vortrag stellte Natascha Schumann (GESIS) Arbeiten an einem Konzept für die Definition signifikanter Eigenschaften für Forschungsdaten aus den Sozialwissenschaften vor. Hierbei beziehen sich die signifikanten Eigenschaften auf eine Teilmenge aller Eigenschaften, die ein Forschungsdatum beschreiben. Unterschieden wird hierbei zwischen Eigenschaften, die den Inhalt und den Kontext, die Erscheinung und Struktur sowie das Verhalten betreffen. Bezogen auf die Daten unterscheidet man weiterhin verschiedene Datenformate. Es müssen jedoch ebenfalls verschiedene Zielgruppen und Nutzungszwecke sowie Entstehungsprozesse der Daten einbezogen werden. | |||
Der zweite Block betrachtete schwerpunktmäßig die disziplinspezifische Perspektive. Im ersten Vortrag berichtete Claus Zinn (Universität Tübingen) vom Projekt Nachhaltigkeit Linguistischer Daten (NaLiDa) zur Archivierung linguistischer Forschungsprimärdaten. Zur Beschreibung der Daten wurde fachwissenschaftliches Vokabular verwendet und für jede Sprachressource ein eigenes Schema entwickelt. Das Metadatenframework (CMDI) ist bereits ISO zertifiziert und wird von anderen Projekten nachgenutzt (clarin.eu/cmdi). Für das Datenrepositorium, das über eine OAI-PMH-Schnittstelle verfügt, wird die Software Fedora verwendet. Zur Verstetigung des Repositoriums sind die Integration der Metadaten in die Suchangebote der Universitätsbibliothek sowie das Mapping der Metadaten auf EAD oder Dublin Core geplant. | |||
Im nächsten Vortrag stellte Ana Sesartic (ETH Zürich) das seit 1988 existierende Datenmanagement der Fachgruppe Systemökologie an der ETH Zürich vor. Die Fachgruppe kümmerte sich schon sehr früh um die Archivierung ihrer heterogenen Daten. Dabei wurde ein Workflow für einen Archivierungseintrag erstellt, Daten immer in mehreren Formaten gespeichert und Metadaten als ASCII-Datei mitgeliefert. Bei der Überführung des Archivs in die ETH-Infrastruktur tauchen allerdings verschiedene Probleme auf. Die größten Aufgaben gibt es bei der Archivierung von Software und Hardware sowie bei der Überwindung von UNIX/Mac/Windows-Barrieren. Die wenigsten Schwierigkeiten traten bei Forschungsdaten auf, die fortlaufend genutzt und deshalb kontinuierlich gepflegt wurden. | |||
Im dritten Teil des Workshops wurde der Blick auf projektbezogene Ansätze gelegt. Marina Lemaire berichtete aus dem Forschungszentrum Europa an der Universität Trier, welches ein Konzept zum Forschungsdatenmanagement im Kontext eines Forschungsverbundes erarbeitet hat. Dabei wurde im SFB 600 „Fremdheit und Armut“ prototypisch ein virtuelles Datenrepositorium (ViDa) entwickelt. Ein neu gegründetes Servicezentrum eSciences übernimmt nun das Forschungsdatenmanagement und den Regelbetrieb der virtuellen Forschungsumgebung des SFBs. Für die Übergabe der Daten an ViDa wird ein Datennehmervertrag mit den Wissenschaftlern unterzeichnet. | |||
Im letzten Vortrag stellte Constanze Curdt die Strategie für die Langzeitarchivierung im Kontext des SFB/TRR 32 „Muster und Strukturen in Boden-Pflanzen-Atmosphären-Systemen: Erfassung, Modellierung und Datenassimilation“ vor. Aufgrund eines vielfältigen Spektrums an Forschungsdaten wurde im Rahmen eines INF-Projektes eine projektspezifische Lösung entwickelt. Die am Regionalen Rechenzentrum Köln liegende Projektdatenbank besteht aus einer Architektur mit drei Ebenen, die bereits ca. 370 GB Daten und ca. 1100 Metadatensätze gespeichert hat. Nach Ende der Projektphase soll die Datenbank in Kooperation mit dem Rechenzentrum, der Universität und der Bibliothek in einen nachhaltigen Betrieb überführt werden. | |||
Die anschließende Abschlussdiskussion wurde mit der Frage eingeleitet, in welchem Verhältnis die Maßnahmen zur digitalen Langzeitarchivierung und -verfügbarkeit von Forschungsdaten gegenüber dem Forschungsdatenmanagement stehen, das in den meisten Projekten zum jetzigen Zeitpunkt erforderlich ist und daher meist im Vordergrund der Auseinandersetzung steht. Nach wie vor scheint die Sicherung der Langzeitverfügbarkeit insbesondere mit Blick auf langfristige und nachhaltige Infrastrukturen sehr stark vom Engagement und der Verantwortungsübernahme einzelner Einrichtungen abzuhängen und keine selbstverständliche Aufgabe zu sein, für die entsprechende Ressourcen sicher eingeplant werden können. Weiterhin spielen bislang Fragen nach geeigneten Dateiformaten (abgesehen von den „klassischen“ Datentypen Bild, Text, Video) keine zentrale Rolle ebenso wenig wie die Evaluation technischer Strategien zur Langzeitarchivierung. Neben finanziellen und organisatorischen Herausforderungen besteht insbesondere Bedarf zu der Frage der Bewertung und Auswahl von für die Langzeitarchivierung vorgesehenen Forschungsdaten, die der Frage nach Speicherkapazität voran steht: Welche Daten sollen aufbewahrt und langfristig verfügbar gemacht werden? Wie lässt sich der Wert der ausgewählten Forschungsdaten plausibel machen (bspw. unter Berücksichtigung der angewandten Methodik) und rechtfertigt der Wert dieser Daten die mit der Langzeitarchivierung verbundenen Aufwände? | |||
Die Diskussion dieser Problematik traf auf allgemeine Zustimmung bei den anwesenden TeilnehmerInnen und wurde aus diesem Grund als ein Themenvorschlag für weitere Workshops der AG in der anschließenden öffentlichen AG-Sitzung aufgenommen. Neben verschiedenen weiteren Themenvorschlägen (z.B. Software- und Toolentwicklung für FD-Infrastrukturen, Digital Life Cycle Management, Kooperationsmodelle) wurden zugleich Vorschläge für die Austragungsorte der nächsten Workshops gesammelt (Termin voraussichtlich im Oktober 2015). Zu den potentiellen Austragungsorten zählen bspw. Köln (ggf. in Kooperation mit der ZB Med, Universität Köln, GESIS), TU Dresden, Universität Duisburg-Essen, CAU Kiel, Universität Halle sowie die Universität Düsseldorf. Die Sprecher machten zudem den Vorschlag mit dem 4. Workshop eine andere Form der Dokumentation der Workshop-Ergebnisse als bisher durch ein Protokoll anzustreben. Geplant ist eine Zusammenstellung zum Status quo der jeweils in den Workshops betrachten Aspekte im Umgang mit digitalen Forschungsdaten – hier ist an Fact Sheets z.B. in Bezug auf technische Aspekte gedacht sowie die Dokumentation von nationalen und internationalen Trends. | |||
Weiterhin wurde aufgrund des Ausscheidens von Prof. Dr. Peter Schirmbacher (HU Berlin) als Co-Sprecher Maxi Kindling (ebenfalls HU Berlin) als Nachfolgerin bestätigt. | |||
[[Kategorie:Vernetzung]] | [[Kategorie:Vernetzung]] |
Aktuelle Version vom 30. Juni 2015, 07:28 Uhr
3. DINI/nestor-Workshop "Langzeitarchivierung von Forschungsdaten"
Ort; Konrad-Zuse-Zentrum für Informationstechnik, Takustraße 7, 14195 Berlin
Zeit: 19. Juni 2015 von 10:30 - 16.30 Uhr
Ankündigung
Digitale Langzeitarchivierung (LZA) beschreibt den dauerhaften Erhalt digitaler Informationen unabhängig von zeitlich vorgegebenen Soft- und Hardwareänderungen. Diese digitalen Informationen umfassen unterschiedlichste Daten- und Informationsobjekte in Form von Texten, Bildern und weiteren Datentypen. Die Langzeitarchivierung von Forschungsdaten und die damit verbundene Nachnutzung digitaler Daten haben in den letzten Jahren verstärkt an Bedeutung gewonnen, begegnen aber auch vielfältigen Herausforderungen.
Im Unterschied zur Erhaltung von digitalen Textdokumenten ist diese bei Forschungsdaten vor dem Hintergrund der technischen und wissenschaftlichen Diversität weitaus komplexer. Sie zeigt sich beispielsweise durch eine Vielzahl an Datenformaten und unterschiedlichste Speicherbedarfe. Unter Umständen müssen für die Möglichkeit der Nachnutzung nicht nur Daten, sondern ganze Datenumgebungen archiviert werden.
Die DINI/nestor AG Forschungsdaten greift das Thema Langzeitarchivierung von Forschungsdaten im Rahmen eines Workshops am 19.06.2015 im Konrad-Zuse-Zentrum in Berlin auf und lädt Sie hiermit herzlich dazu ein.
Mögliche Themen des Workshops umfassen die Herausforderungen und Zukunftschancen der Langzeitarchivierung von Forschungsdaten. Nachfolgende Themenvorschläge beziehen sich auf Vorschläge zu LZA-Fragestellungen, welche im Kontext des heutigen Forschungsdatenmanagements immer noch unzureichend geklärt sind:
- Welche wesentlichen technischen, organisatorischen, finanziellen und wissenschaftlichen Aspekte umfasst die digitale Langzeitarchivierung?
- Welche Voraussetzungen müssen erfüllt sein, um die Nachnutzung von Forschungsdaten zu gewährleisten?
- Welche Formen (Best Practices) der LZA gibt es bereits für Forschungsdaten?
- Was kostet die digitale LZA von Forschungsdaten und welche Infrastrukturen werden bereits für die LZA von Forschungsdaten eingesetzt?
- Welche Einrichtungen und Akteure übernehmen die Verantwortung für die LZA und wie sehen konkrete Aufgabenfelder aus?
- Welche Kriterien muss ein vertrauenswürdiges Langzeitarchiv erfüllen und wer ist verantwortlich für die Erstellung und Prüfung solcher Kriterien?
- Welche Standards für Datenformate und Metadatenformate haben sich für welche Anwendungsbereiche etabliert?
- Welche Daten sind archivierungswürdig, welche Kriterien gibt es für eine Auswahl? Wer trifft die Auswahl? Gibt es disziplinspezifische Archivierungskriterien? Welche disziplinübergreifenden Herangehensweisen gibt es?
Wir laden dazu ein, Vorträge und Erfahrungsberichten zu den oben genannten und thematisch verwandten Fragen beizutragen.
Anmeldung
Das Anmeldeformular finden Sie unter: http://dini.de/veranstaltungen/workshops/langzeitarchivierung-von-forschungsdaten/anmeldeformular/
Die Teilnehmerzahl ist auf 100 begrenzt und die Teilnahmegebühr beträgt 20 €. Wir bitten um Ihr Verständnis.
Programm
9:30 bis 10:30 Uhr | Registrierung |
10:30 bis 10:45 Uhr | Begrüßung und Einführung durch die DINI/nestor-AG Forschungsdaten Janna Neumann (Technische Informationsbibliothek) |
Begrüßung durch das Konrad-Zuse-Zentrum für Informationstechnik TIm Hasler (ZIB) | |
10:45 bis 12:00 Uhr | Block 1: Moderation: Janna Neumann |
Jessika Rücknagel (HU Berlin) | |
Vertrauenswürdiges digitales Langzeitarchiv – Zertifizierung an der TIB Franziska Schwab (Technische Informationsbibliothek) | |
Konzept für die Definition Signifikanter Eigenschaften von sozialwissenschaftlichen Forschungsdaten Natascha Schumann, Reiner Mauer, Stefan Müller, Astrid Recker (GESIS – Leibniz Institut für Sozialwissenschaften) | |
12:00 bis 13:00 Uhr | Mittagspause |
13:00 bis 13:50 Uhr | Block 2: Moderation: Jens Ludwig |
NaLiDa: Nachhaltigkeit linguistischer Daten Claus Zinn, Erhard Hinrichs, Thorsten Trippel (Universität Tübingen) | |
Digitales Datenmanagement seit 1988 – Überführung eines digitalen Forschungsarchivs aus dem Bereich Systemökologie in das ETH Data Archive Ana Sesartic (ETH Zürich) | |
13:50 bis 14:10 Uhr | Kaffeepause |
14:10 bis 15:00 Uhr | Block 3: Moderation: Maxi Kindling |
Langzeitarchivierung von Forschungsdaten in interdisziplinären Forschungsverbünden. Ein Praxisbericht aus dem Forschungszentrum Europa an der Universität Trier Marina Lemaire (Universität Trier) | |
Langzeitarchivierung aus der Perspektive eines interdisziplinären Großprojektes: Ein Erfahrungsbericht aus dem SFB/TRR 32 Constanze Curdt, Dirk Hoffmeister, Georg Bareth, Ulrich Lang (Universität Köln) | |
15:00 bis 15:30 Uhr | Abschlussdiskussion |
15:30 bis 17:00 Uhr | öffentliche AG Sitzung |
Abstracts und Präsentationsfolien
Aspekte der Langzeitarchivierung in Policies von Forschungsdatenrepositorien
Jessika Rücknagel (HU Berlin)
Policies sind ein wesentliches Werkzeug um zielgerichtetes Forschungsdatenmanagement Policies sind ein wesentliches Werkzeug um zielgerichtetes Forschungsdatenmanagement auf unterschiedlichen Ebenen zu ermöglichen. Von besonderer Bedeutung sind hierbei jene Policy-Dokumente, die sich mit Aspekten der langfristigen Verfügbarhaltung der Datensätze auseinandersetzen. In einer kleinen Studie werden exemplarisch Policies von Forschungsdatenrepositorien analysiert, die sich mit den angesprochenen Aspekten der (digitalen) Langzeitarchivierung auseinandersetzen.
Auf diese Weise soll ein Überblick über Trends und Herangehensweisen geschaffen werden, der als richtungsweisend für die Planung eigener (repositoriumsspezifischer) Preservation Policies zu betrachten ist. Folgende Forschungsfragen stehen hierbei im Mittelpunkt:
- In welchen Policy-Arten werden die Aspekte zur Langzeitarchivierung tendentiell angesprochen?
- Wie viele Preservation Policies wurden identifiziert?
- Wie konkret sind die Schriften, die als Preservation Policy klassifiziert werden wirklich? Auch im Vergleich mit Data Policies?
Vertrauenswürdiges digitales Langzeitarchiv – Zertifizierung an der TIB
Franziska Schwab (Technische Informationsbibliothek)
An die vertrauenswürdige Langzeitarchivierung werden vielfältige Anforderungen gestellt. Der Nachweis über die Umsetzung dieser Anforderungen erfolgt über Zertifizierungsverfahren.
Die entsprechenden Siegel und die transparente Darstellung der Infrastruktur, Prozesse und Verfahren machen die Vertrauenswürdigkeit eines digitalen Langzeitarchivs öffentlich sichtbar und stärken das Vertrauen der Datenproduzenten, der Nutzer und eventueller Kunden in die Befähigung der Institution, die langfristige Verfügbarkeit der ihr anvertrauten Objekte sicher zu stellen.
Im Vortrag wird der Zertifizierungsprozess an der TIB im Goportis-Kontext vorgestellt. Dabei liegt der Schwerpunkt besonders auf der Vorbereitung der Zertifizierung, aufgetretenen Herausforderungen und Lösungsansätzen sowie der Besonderheit der Zertifizierung im Verbund.
Konzept für die Definition Signifikanter Eigenschaften von sozialwissenschaftlichen Forschungsdaten
Natascha Schumann, Reiner Mauer, Stefan Müller, Astrid Recker (GESIS – Leibniz Institut für Sozialwissenschaften)
Das GESIS Datenarchiv stellt quantitative Forschungsdaten, vorwiegend aus nationalen und internationalen vergleichenden Umfragen, für die Nachnutzung bereit. Forschungsdaten werden gemäß klar definierten Anforderungen ausgewählt, aufbereitet, dokumentiert, langfristig gesichert und zugänglich gemacht.
Ein besonderes Augenmerk bei der Archivierung und Bereitstellung von Forschungsdaten aus den Sozialwissenschaften liegt auf der Einhaltung von datenschutzrechtlichen Bestimmungen
Vor diesem Hintergrund gibt der Beitrag einen kurzen Überblick über den Archivierungsworkflow im GESIS Datenarchiv und eine Beschreibung bestehender Konzepte zu „Signifikanten Eigenschaften“. Dabei handelt es sich um diejenigen Merkmale der digitalen Objekte, die im Falle von Veränderungen, z. B. durch Migrationen, erhalten bleiben müssen, damit die Daten weiterhin nutzbar bleiben. Diese Eigenschaften können sich auf die Daten selbst beziehen und unterscheiden sich je nach Dateityp. Sie müssen auch im Hinblick auf die (zukünftigen) Nutzergruppen, die „Designated Communities“ definiert werden. Während für die meisten Forschenden sichergestellt sein muss, dass die Daten in maschinell verarbeitbaren Formaten zur Verfügung stehen, sind auch Szenarien denkbar, in denen sich Forschende gar nicht für die Daten selbst, sondern ausschließlich für die verwendeten Messinstrumente interessieren (z.B. zur Entwicklung eigener Instrumente). Entsprechend sind Kenntnisse sowohl der Daten als auch der anvisierten Zielgruppe unerlässlich im Hinblick auf die Langzeitarchivierung und bei der Bestimmung der signifikanten Eigenschaften. Bei der Langzeitarchivierung von sozialwissenschaftlichen Forschungsdaten ist darüber hinaus noch eine weitere wichtige Ebene zu berücksichtigen. Zur Interpretation sozialwissenschaftlicher Daten sind Informationen zum Entstehungskontext unerlässlich. Nicht nur die Ergebnisse der Datenerhebung müssen also archiviert werden, sondern auch weitere Informationen über den Erhebungsprozess, die Methodik, verwendete Instrumente etc. Nur wenn all diese Information zugänglich sind, kann eine langfristige Nutzbarkeit der Daten sichergestellt werden. Eine wichtige Aufgabe des Archivs besteht somit auch darin, festzulegen, welche als relevant für die Nachnutzung eingestuft werden.
Das Datenarchiv ist derzeit dabei, die Definition der für seine Zwecke signifikanten Eigenschaften sowohl in Bezug auf den Forschungsprozess (Kontextinformationen) als auch auf das Archivpaket zu entwickeln. Dieser Prozess beinhaltet verschiedene Arbeitsschritte, die neben der Auseinandersetzung mit bestehender Forschungs- und Projektergebnissen (z.B. aus dem InSPECT-Projekt) die ergänzende Beschreibung unserer Archivpakete mit PREMIS Metadaten enthält. Abschließend soll in Experteninterviews überprüft werden, ob das Datenarchiv mit der Definition der signifikanten Eigenschaften die Bedürfnisse seiner Zielgruppe, sozialwissenschaftlich Forschende, trifft.
NaLiDa: Nachhaltigkeit linguistischer Daten
Claus Zinn, Erhard Hinrichs, Thorsten Trippel (Universität Tübingen)
Im Projekt “Nachhaltigkeit Linguistischer Daten” (NaLiDa) an der Universität Tübingen geht es um die digitale Archivierung linguistischer Forschungsprimärdaten. Es umfasst die Sammlung von wissenschaftlichen Daten im sprachwissenschaftlichen Umfeld, die Verwendung und Weiterentwicklung eines Metadatenframeworks zu ihrer Beschreibung, das Einpflegen der Daten in ein Repositorium, sowie die Entwicklung von Werkzeugen zur Metadatenverarbeitung und zum Metadaten-basierten Zugriff. Das Projekt zielt auf die Konstruktion eines Referenzmodells, das aus einer technologischen Infrastruktur besteht, die standardisierte und qualitätssichernde Arbeitsabläufe ermöglicht, und das beschreibt, wie diese exemplarisch effektiv in eine existierende universitäre Infrastruktur integriert werden kann. Das Projekt leistet hierbei individuelle Beratungs- und Servicedienstleistungen für Forschungsprojekte und Einzelforscher, und ist am Aufbau eines nationalen und internationalen Verbunds beteiligt, der den gegenseitigen Austausch von sprachwissenschaftlichen Forschungsprimärdaten ermöglichen soll.
Digitales Datenmanagement seit 1988 – Überführung eines digitalen Forschungsarchivs aus dem Bereich Systemökologie in das ETH Data Archive
Ana Sesartic (ETH Zürich)
Die Fachgruppe Systemökologie an der ETH Zürich befasst sich seit ihrer Gründung im Jahr 1988 intensiv mit dem Thema Management von Forschungsdaten und hat während dieser Zeit ein umfangreiches Archivkonzept für die eigenen Daten entwickelt. Dabei entstanden u.a. Metadaten-Schema und –Datenbank, Anleitungen zur Erstellung der digitalen Archive, Empfehlungen zum Umgang mit Formaten und Speichermedien, zur Qualitätssicherung und vieles mehr.
Diese frühe Beschäftigung mit dem Thema seitens der Forscher kam zustande, da in der Gruppe einerseits viele heterogene Daten produziert wurden, die sowohl aus Beobachtungen als auch aus Modellen stammen, und anderseits ein reger interdisziplinärer Austausch stattfand. Besonders hervorzuheben sind dabei die langjährige Mitarbeit am Kapitel Ökosysteme der UNO Klimaberichte, sowie die weltweit längste Datenreihe zur Beobachtung einer ökologisch bedeutenden Falterart.
Mit der Pensionierung des Gruppenleiters soll das Archiv der Fachgruppe Systemökologie zur Langzeitarchivierung in das ETH Data Archive (Rosetta) der ETH-Bibliothek überführt werden. Dabei stossen wir immer wieder auf Fragen, die wertvolle Denkanstösse bezüglich der Archivierung von Forschungsdaten allgemein geben und auf unerwartete Hürden, die auch in anderen Forschungsdisziplinen zu erwarten sind und deren Überwindung interdisziplinärer Zusammenarbeit zwischen Bibliothek, Forschern, Archivaren und Informatikdiensten bedarf.
Langzeitarchivierung von Forschungsdaten in interdisziplinären Forschungsverbünden. Ein Praxisbericht aus dem Forschungszentrum Europa an der Universität Trier
Marina Lemaire (Universität Trier)
Für die Langzeitarchivierung von Forschungsdaten ist ein professionelles Forschungsdatenmanage-ment nicht nur notwendig, sondern auch ein Teil der guten wissenschaftlichen Praxis. Die strukturier-te Aufbereitung und nachhaltige Sicherung von Forschungsdaten ist ein zentrales Aufgabenfelder bei der strategischen Neuausrichtung der wissenschaftlichen Informationsinfrastrukturen für die Geistes- und Sozialwissenschaften. Ausgehend von der Frage, wie die in den zahlreichen Digitalisierungsvor-haben sowie in Forschungsprojekten zunehmend in großem Umfang entstandenen digitalen Daten über den Projektabschluss hinaus angesichts des raschen technologischen Wandels gesichert werden können, entstanden Machbarkeitsstudien und umfassende Empfehlungen zur Langzeitarchivierung und zur Lösung der damit verbundenen technischen, organisatorischen und rechtlichen Herausforde-rungen. Zunächst konzentrierten sich diese Aktivitäten auf die Datensicherung beim Abschluss von Forschungsprojekten. Inzwischen wird dafür plädiert, das Forschungsdatenmanagement bereits in der Planungsphase von Forschungsprojekten zu berücksichtigen und dabei alle für eine adäquate langfristige Nachnutzung der Forschungsdaten notwendigen Schritte in den Blick zu nehmen. Die dazu erforderlichen Aufgaben werden in Datenlebenszyklus-Modellen systematisch beschrieben und entsprechende Richtlinien zum Umgang mit Forschungsdaten einschließlich Metadaten sowie zur Erstellung von Datenmanagementplänen dokumentiert.
An der Universität Trier wurde im Rahmen des INF-Projektes des SFB 600 „Fremdheit und Armut“ gemeinsam mit dem Zentrum für Informations-, Medien- und Kommunikationstechnologie (ZIMK) ein Virtuelles Datenrepositorium „ViDa“ (www.vida.uni-trier.de) prototypisch aufgebaut. Dabei wurde auf der Basis des Anforderungsprofils eines interdisziplinären, geisteswissenschaftlichen Verbundes nicht nur eine technische Infrastruktur entwickelt, sondern auch Workflows definiert und vertragli-che Regelungen getroffen, die den Datengebern und -nehmern für die Nutzung des Datenrepositori-ums rechtliche Rahmenbedingungen garantieren.
Die Erfahrungen, die bei der Entwicklung von ViDa und dessen Integration in den Forschungsprozess gemacht wurden, fließen nun in die Planung und Entwicklung neuer Forschungsvorhaben ein. Dabei stellen interdisziplinäre Forschungsverbünde besondere Herausforderungen an das Forschungsda-tenmanagement. Es müssen die Anforderungen mehrerer Forschungsvorhaben aus unterschiedli-chen Fächern berücksichtigt und zusammengeführt werden, um die Langzeitarchivierung und Nach-nutzung der Forschungsdaten sicherzustellen. Für die einzelnen Forschungsvorhaben müssen For-schungsdatenmanagementkonzepte entwickelt werden, die in einem übergreifenden Konzept zu-sammengeführt und den Data Policies auf der Ebene der Gesamtuniversität sowie der jeweiligen Verbünde bzw. Fächer gerecht werden. Die Planungs-, Konzeptions- und Dokumentationsarbeiten beziehen sich dabei auf den gesamten Forschungsprozess, d.h. von der Erfassung der Forschungspri-märdaten, über ihre Analyse, Publikation bis hin zur langfristigen Sicherung und Bereitstellung für künftige Forschungsvorhaben. Ebenfalls zu berücksichtigen sind die mit dem Datenmanagement ver-bundenen organisatorischen, finanziellen, technischen und rechtlichen Aspekte in den verschiedenen Phasen des Datenlebenszyklus, wobei insbesondere die für die Nachnutzung notwendigen Informati-onen in einem Datenmanagementplan dokumentiert werden. Ausgehend von einer detaillierten Analyse der Fragestellungen und Arbeitsmethoden der jeweiligen Forschungsvorhaben müssen in Zusammenarbeit mit den Forschenden Richtlinien für die Bearbeitung der Primärdaten in den ver-schiedenen Arbeitsphasen und für die systematische Erfassung der für die Beantwortung der jeweili-gen Forschungsfragen relevanten Sachinformationen, Meta- und Kontextdaten entwickelt werden. Dabei sind die durch die Disziplinenvielfalt begründete Heterogenität der Dokumente, das breite Spektrum von Arbeitsmethoden sowie die Unterschiede in Formen und Intensität digital basierter Arbeitsweisen zu beachten. Es werden deshalb unterschiedliche Datenmanagementstrategien entwi-ckelt, die sowohl die individuelle Forschungsarbeit berücksichtigen als auch die Anforderungen, die an eine spätere langfristige Verfügbarkeit und Nachnutzbarkeit gestellt werden.
Die jeweiligen Modelle zur Beschreibung der Primärdaten, ihrer Erhebung, Anreicherung mit struktu-rellen, deskriptiven und administrativen Metadaten sowie ihre Bearbeitung über die verschiedenen Phasen des Forschungsprozesses hinweg bilden die Basis für die jeweilige, spezifisch auf die For-schungsprojekte abgestimmte Konfiguration der IT-Infrastruktur.
Der Beitrag wird am Beispiel der Projektverbünde am Forschungszentrum Europa an der Universität Trier die notwendigen Planungs- und Arbeitsschritte für das Forschungsdatenmanagement skizzieren, offene Fragen identifizieren und das Virtuelle Datenrepositorium „ViDa“ vorstellen.
Langzeitarchivierung aus der Perspektive eines interdisziplinären Großprojektes: Ein Erfahrungsbericht aus dem SFB/TRR 32
Constanze Curdt, Dirk Hoffmeister, Georg Bareth, Ulrich Lang (Universität Köln)
Der Umgang mit Forschungsdaten hat in den vergangenen Jahren zunehmend an Bedeutung gewonnen. Deshalb haben Forschungsförderer und weitere Organisationen entsprechende Empfehlungen und Verpflichtungen erlassen. Im Fokus stehen hierbei vor allem die Reproduzierbarkeit von Forschungsergebnissen und die Nachnutzung der Forschungsdaten für neue Forschungsfragen. Besonders in interdisziplinären Großforschungsprojekten ist außerdem besonders der Austausch von Forschungsdaten zur Schaffung von Synergien wesentlich. In allen Fällen sollten erstellte Forschungsdaten gut aufbereitet, dokumentiert, nachhaltig gespeichert und gesichert werden. Der Zugang zu den Daten sollte entsprechend der festgelegten Zugangsrechte sowohl während der Projektlaufzeit als auch darüber hinaus gewährleistet sein.
Im Rahmen eines INF-Projektes des SFB/TRR 32 „Muster und Strukturen in Boden-Pflanzen-Atmosphären-Systemen: Erfassung, Modellierung und Datenassimilation“ (www.tr32.de, Laufzeit 2007-2018) wurde ein Forschungsdatenmanagementsystem zur systematischen Speicherung, Austausch und langfristigen Nutzung der Projektdaten aufgebaut. Die sogenannte Projektdatenbank TR32DB (www.tr32db.de) wurde entsprechend der Anforderungen der ProjektteilnehmerInnen und der DFG geplant und in der Infrastruktur des Regionalen Rechenzentrums der Universität zu Köln implementiert. Die sich hieraus ergebenen Herausforderungen und Problemen (z.B: heterogene Daten mit Dateigrößen bis zu ~8GB/Datei), sowie gesammelte Erfahrungen werden in diesem Vortrag vorgestellt. Aktuell beinhaltet die TR32DB ~1100 Datensätze, deren interoperable Metadaten frei verfügbar sind. Für mehrere dieser Datensätze steht ein DOI zur Verfügung, welcher den Datensatz als Mehrwert für den Nutzer zitierbar macht.
Protokoll
Der dritte Workshop der DINI/nestor AG Forschungsdaten fand am 19.06.2015 im Konrad-Zuse-Zentrum in Berlin statt. Thema des Workshops war die Langzeitarchivierung von Forschungsdaten. Inhaltlich war das Thema in drei Blöcke aufgeteilt. Nach zwei Beiträgen, die jeweils einen Einblick in institutionelle Langzeitarchivierungskonzepte boten, folgten disziplinäre Beispiele sowie im dritten Block die kurzfristige Projektperspektive aus dem Kontext von Verbundforschungsprojekten. .
Nach einer kurzen Einführung durch die Veranstalter stellte Franziska Schwab (TIB) den Zertifizierungsprozess für vertrauenswürdige digitale Langzeitarchive am Beispiel des Goportis-Verbundes und Rosetta von ExLibris vor. Sie erläuterte die schrittweise Zertifizierung angefangen vom Data Seal of Approval (DSA) zum nestor Siegel für vertrauenswürdige Langzeitarchive. Dabei ging sie auf die Problematiken und Herausforderungen ein, die eine Zertifizierung sowohl im Verbund als auch mit einem kommerziellen Produkt mit sich bringt. Im zweiten Vortrag stellte Natascha Schumann (GESIS) Arbeiten an einem Konzept für die Definition signifikanter Eigenschaften für Forschungsdaten aus den Sozialwissenschaften vor. Hierbei beziehen sich die signifikanten Eigenschaften auf eine Teilmenge aller Eigenschaften, die ein Forschungsdatum beschreiben. Unterschieden wird hierbei zwischen Eigenschaften, die den Inhalt und den Kontext, die Erscheinung und Struktur sowie das Verhalten betreffen. Bezogen auf die Daten unterscheidet man weiterhin verschiedene Datenformate. Es müssen jedoch ebenfalls verschiedene Zielgruppen und Nutzungszwecke sowie Entstehungsprozesse der Daten einbezogen werden.
Der zweite Block betrachtete schwerpunktmäßig die disziplinspezifische Perspektive. Im ersten Vortrag berichtete Claus Zinn (Universität Tübingen) vom Projekt Nachhaltigkeit Linguistischer Daten (NaLiDa) zur Archivierung linguistischer Forschungsprimärdaten. Zur Beschreibung der Daten wurde fachwissenschaftliches Vokabular verwendet und für jede Sprachressource ein eigenes Schema entwickelt. Das Metadatenframework (CMDI) ist bereits ISO zertifiziert und wird von anderen Projekten nachgenutzt (clarin.eu/cmdi). Für das Datenrepositorium, das über eine OAI-PMH-Schnittstelle verfügt, wird die Software Fedora verwendet. Zur Verstetigung des Repositoriums sind die Integration der Metadaten in die Suchangebote der Universitätsbibliothek sowie das Mapping der Metadaten auf EAD oder Dublin Core geplant. Im nächsten Vortrag stellte Ana Sesartic (ETH Zürich) das seit 1988 existierende Datenmanagement der Fachgruppe Systemökologie an der ETH Zürich vor. Die Fachgruppe kümmerte sich schon sehr früh um die Archivierung ihrer heterogenen Daten. Dabei wurde ein Workflow für einen Archivierungseintrag erstellt, Daten immer in mehreren Formaten gespeichert und Metadaten als ASCII-Datei mitgeliefert. Bei der Überführung des Archivs in die ETH-Infrastruktur tauchen allerdings verschiedene Probleme auf. Die größten Aufgaben gibt es bei der Archivierung von Software und Hardware sowie bei der Überwindung von UNIX/Mac/Windows-Barrieren. Die wenigsten Schwierigkeiten traten bei Forschungsdaten auf, die fortlaufend genutzt und deshalb kontinuierlich gepflegt wurden.
Im dritten Teil des Workshops wurde der Blick auf projektbezogene Ansätze gelegt. Marina Lemaire berichtete aus dem Forschungszentrum Europa an der Universität Trier, welches ein Konzept zum Forschungsdatenmanagement im Kontext eines Forschungsverbundes erarbeitet hat. Dabei wurde im SFB 600 „Fremdheit und Armut“ prototypisch ein virtuelles Datenrepositorium (ViDa) entwickelt. Ein neu gegründetes Servicezentrum eSciences übernimmt nun das Forschungsdatenmanagement und den Regelbetrieb der virtuellen Forschungsumgebung des SFBs. Für die Übergabe der Daten an ViDa wird ein Datennehmervertrag mit den Wissenschaftlern unterzeichnet. Im letzten Vortrag stellte Constanze Curdt die Strategie für die Langzeitarchivierung im Kontext des SFB/TRR 32 „Muster und Strukturen in Boden-Pflanzen-Atmosphären-Systemen: Erfassung, Modellierung und Datenassimilation“ vor. Aufgrund eines vielfältigen Spektrums an Forschungsdaten wurde im Rahmen eines INF-Projektes eine projektspezifische Lösung entwickelt. Die am Regionalen Rechenzentrum Köln liegende Projektdatenbank besteht aus einer Architektur mit drei Ebenen, die bereits ca. 370 GB Daten und ca. 1100 Metadatensätze gespeichert hat. Nach Ende der Projektphase soll die Datenbank in Kooperation mit dem Rechenzentrum, der Universität und der Bibliothek in einen nachhaltigen Betrieb überführt werden.
Die anschließende Abschlussdiskussion wurde mit der Frage eingeleitet, in welchem Verhältnis die Maßnahmen zur digitalen Langzeitarchivierung und -verfügbarkeit von Forschungsdaten gegenüber dem Forschungsdatenmanagement stehen, das in den meisten Projekten zum jetzigen Zeitpunkt erforderlich ist und daher meist im Vordergrund der Auseinandersetzung steht. Nach wie vor scheint die Sicherung der Langzeitverfügbarkeit insbesondere mit Blick auf langfristige und nachhaltige Infrastrukturen sehr stark vom Engagement und der Verantwortungsübernahme einzelner Einrichtungen abzuhängen und keine selbstverständliche Aufgabe zu sein, für die entsprechende Ressourcen sicher eingeplant werden können. Weiterhin spielen bislang Fragen nach geeigneten Dateiformaten (abgesehen von den „klassischen“ Datentypen Bild, Text, Video) keine zentrale Rolle ebenso wenig wie die Evaluation technischer Strategien zur Langzeitarchivierung. Neben finanziellen und organisatorischen Herausforderungen besteht insbesondere Bedarf zu der Frage der Bewertung und Auswahl von für die Langzeitarchivierung vorgesehenen Forschungsdaten, die der Frage nach Speicherkapazität voran steht: Welche Daten sollen aufbewahrt und langfristig verfügbar gemacht werden? Wie lässt sich der Wert der ausgewählten Forschungsdaten plausibel machen (bspw. unter Berücksichtigung der angewandten Methodik) und rechtfertigt der Wert dieser Daten die mit der Langzeitarchivierung verbundenen Aufwände?
Die Diskussion dieser Problematik traf auf allgemeine Zustimmung bei den anwesenden TeilnehmerInnen und wurde aus diesem Grund als ein Themenvorschlag für weitere Workshops der AG in der anschließenden öffentlichen AG-Sitzung aufgenommen. Neben verschiedenen weiteren Themenvorschlägen (z.B. Software- und Toolentwicklung für FD-Infrastrukturen, Digital Life Cycle Management, Kooperationsmodelle) wurden zugleich Vorschläge für die Austragungsorte der nächsten Workshops gesammelt (Termin voraussichtlich im Oktober 2015). Zu den potentiellen Austragungsorten zählen bspw. Köln (ggf. in Kooperation mit der ZB Med, Universität Köln, GESIS), TU Dresden, Universität Duisburg-Essen, CAU Kiel, Universität Halle sowie die Universität Düsseldorf. Die Sprecher machten zudem den Vorschlag mit dem 4. Workshop eine andere Form der Dokumentation der Workshop-Ergebnisse als bisher durch ein Protokoll anzustreben. Geplant ist eine Zusammenstellung zum Status quo der jeweils in den Workshops betrachten Aspekte im Umgang mit digitalen Forschungsdaten – hier ist an Fact Sheets z.B. in Bezug auf technische Aspekte gedacht sowie die Dokumentation von nationalen und internationalen Trends. Weiterhin wurde aufgrund des Ausscheidens von Prof. Dr. Peter Schirmbacher (HU Berlin) als Co-Sprecher Maxi Kindling (ebenfalls HU Berlin) als Nachfolgerin bestätigt.