DINI-nestor-WS8

Ankündigung

8. DINI/nestor-Workshop "Forschungsdatenrepositorien"

Ort: Universitätsbibliothek Stuttgart

Termin: 27./28. November 2017

Für die Veröffentlichung von Forschungsdaten gewinnen neben zentralen Fachrepositorien auch institutionelle Repositorien immer mehr an Bedeutung. Zentrale Fachrepositorien bieten eine höhere disziplinspezifische Kompetenz und bessere Vernetzung in der Fach-Community, während institutionelle Repositorien der jeweiligen Institution eine größere Sichtbarkeit geben und auch im Wortsinne “nah an den Forschenden” sind.
Für Infrastruktureinrichtungen stellen sich viele Fragen, die von strategischen, über organisatorische bis hin zu technischen Gesichtspunkten reichen: In welchen Fällen lohnt sich die Investition in den Aufbau eines eigenen Datenrepositoriums? Ist es sinnvoll, das Angebot eines vorhandenen Publikationsservers um die Funktionalität für Datenpublikationen zu erweitern? Welche Software soll eingesetzt werden? Wie groß darf eine Datenveröffentlichung sein und wie kann sie beschrieben werden? Und welche Qualifikation braucht das Beratungspersonal?

Die DINI/nestor AG Forschungsdaten greift diese und weitere Fragestellungen im Rahmen eines Workshops am 27. und 28.11.2017 an der Universitätsbibliothek Stuttgart auf und lädt Sie hiermit herzlich dazu ein. Für den Workshop erbitten wir Vorschläge für Präsentationen, die sich mit der Thematik der Forschungsdatenrepositorien beschäftigen. Weitere Fragen, die behandelt werden könnten:

Welche Vor- und Nachteile bieten die verschiedenen Anbieter für Repositoriums- software?
Welche technischen und personellen Ressourcen sind für das Angebot notwendig?
Welche Unterstützungsangebote für WissenschaftlerInnen sind erforderlich (z.B. mit Blick auf rechtliche Fragen) und wie können diese organisatorisch umgesetzt werden?
Welcher konkrete Bedarf besteht bei WissenschaftlerInnen nach der Möglichkeit, ihre Forschungsdaten zu veröffentlichen?
Wie können Publikationen miteinander verknüpft werden?
Welche Schnittstellen werden benötigt?
Welche Perspektiven für institutionsübergreifende Kooperationen gibt es?

Die Anmeldung und Veröffentlichung des Programms erfolgt am 27.10.2017.

Anmeldung

Das Anmeldeformular finden Sie auf der DINI-Webseite.

Die Teilnehmerzahl ist auf 100 begrenzt und die Teilnahmegebühr beträgt 30 €. Wir bitten um Ihr Verständnis.

Programm

27.11.

12:00 bis 13:00 Uhr	Registrierung und Mittagsimbiss
13:00 bis 13:15 Uhr	Begrüßung durch die DINI/nestor-AG Forschungsdaten und UB Stuttgart
13:15 bis 14:45 Uhr	Vortragsblock 1: Das Anforderungsspektrum von Repositorien
	Anforderungen der Ingenieurwissenschaften an ein institutionelles Forschungsdatenrepositorium der Universität Stuttgart Dorothea Iglezakis (UB Stuttgart) und Björn Schembera (Höchstleistungsrechenzentrum Stuttgart)
	UNEKE: Vom USB-Stick zur NFDI – Entwicklung eines Kriterien geleiteten Entscheidungsmodells für den Aufbau von Forschungsdateninfrastrukturen Bela Brenger (IT Center RWTH Aachen), Ania López (UB Duisburg-Essen), Stephanie Rehwald (UB Duisburg-Essen), Stefan Stieglitz und Konstantin Wilms (Universität Duisburg-Essen, Abteilung für Informatik und Angewandte Kognitionswissenschaft)
	Die Matrix – funktionelle Anforderungen an Forschungsdatenrepositorien Ralph Müller-Pfefferkorn (TU Dresden)
	Research Collection – der neue One-Stop-Shop für Forschende der ETH Zürich Barbara Hirschmann und Angela Gastl (ETH-Bibliothek Zürich)
14:45 bis 15:15 Uhr	Kaffeepause
15:15 bis 16:45 Uhr	Vortragsblock 2: Fachspezifische Anforderungen und Angebote
	Offene Forschungsdaten an der Universität Heidelberg: von generischen institutionellen Repositorien zu fach- und projektspezifischen Diensten Jochen Apel (UB Heidelberg)
	Generische Komponenten und fachspezifische Anforderungen im KA3-Projekt Teil 1, Teil 2 Christoph Stollwerk (Regionales Rechenzentrum Universität Köln) und Jonathan Blumtritt (Data Center for the Humanities, Universität Köln)
	LAUDATIO: Modellbasierte Entwicklung eines fachbezogenen und institutionellen Forschungsdatenrepositoriums Carolin Odebrecht und Rolf Guescini und Thomas Krause (Humboldt-Universität zu Berlin)
	Das institutionelle Forschungsdatenrepositorium FDAT mit Schwerpunkt Geistes- und Sozialwissenschaften an der Universität Tübingen Steve Kaminski (eScience-Center Universität Tübingen)
16:45 bis 17:15 Uhr	Kaffeepause
17:15 bis 18:30 Uhr	Vortragsblock 3: Skalierung
	One size fits all? Fedora 4 in der Berliner Staatsbibliothek Oliver Schöner (Staatsbibliothek zu Berlin)
	Die Repositorien-Infrastruktur des Deutschen Klimarechenzentrums Hannes Thiemann (DKRZ)
	OPUS und großvolumige Forschungsdaten Tim Hasler (Zuse Institut Berlin)
ab 20 Uhr	Abendessen (auf Selbstzahlerbasis)

28.11.

9:00 bis 10:30 Uhr	Vortragsblock 4: Verknüpfung von Forschungsdaten
	DepositOnce – Das Repositorium der TU Berlin für Forschungsdaten und Publikationen Pascal Becker (Universitätsbibliothek TU Berlin)
	Verknüpfung von Publikationen und Forschungsdaten in einem Invenio-basierten Repositorium Dominik Schmitz (RWTH Aachen University, Universitätsbibliothek) und Marius Politze (RWTH Aachen University, IT Center)
	Fachrepositorium Lebenswissenschaften: Integration aller Publikationstypen Birte Lindstädt und Robin Rothe (ZB Med)
	Edmond – Das Forschungsdatenrepositorium der Max Planck Gesellschaft Kristina Koller (Max Planck Digital Library)
10:30 bis 11:00 Uhr	Kaffeepause
11:00 bis 12:30 Uhr	Vortragsblock 5: (Über)institutionelle Services und Forschungsprozesse
	Open-Access Publikation von Forschungsdaten – Gestaltung des rechtlichen Rahmens im Forschungsprozess für einen offenen Umgang mit Forschungsdaten Elke Brehm und Janna Neumann (TIB Hannover)
	FDM darf nicht Weh tun -- Ein Ansatz für eine den Forschungsprozess begleitende Repositoriumslösung Johannes Frenzel (Ruhr-Universität Bochum)
	RADAR als eine Option für das institutionelle Forschungsdatenrepositorium der TU Braunschweig Robert Strötgen (TU Braunschweig), Angelina Kraft (TIB Hannover), Matthias Razum (FIZ Karlsruhe)
	Das DARIAH-DE-Repositorium Beata Mache (SUB Göttingen)
12:30 bis 12:45 Uhr	Zusammenfassung und Verabschiedung
12:45 bis 13:30 Uhr	Mittagsimbiss
ab 13:30 Uhr	Sitzung der Unter-AG Datenmanagementpläne

Während des Workshops wurde von den Vortragenden eine Tabelle zum Vergleich der Angebote/Ergebnisse ausgefüllt, die unter folgender Adresse zu finden ist: http://goo.gl/pf1n8E

Abstracts

Anforderungen der Ingenieurwissenschaften an ein institutionelles Forschungsdatenrepositorium der Universität Stuttgart
Dorothea Iglezakis (UB Stuttgart) und Björn Schembera (Höchstleistungsrechenzentrum Stuttgart)

Aus der Bedarfsanalyse des Projektes DIPL-ING (Datenmanagement in Infrastrukturen, Prozessen und Lebenszyklen in den INGenieurwissenschaften) ergeben sich aus Sicht der Ingenieurwissenschaften, in denen es keine etablierten Fachrepositorien gibt, mehrere An- forderungen an ein institutionelles Forschungsdatenrepositorium der Universität Stuttgart, die zusätzlich zur Ermöglichung zitierbarer Veröffentlichung von Forschungsdaten erfüllt sein sollten: Verknüpfung von Daten und Code, Referenzierung der Daten von einem zentralen Ort aus, so dass Ortstransparenz erreicht wird, suchbare fachspezifische Metadaten, Metriken, differenzierte Veröffentlichungswege sowie schnelle Transfermöglichkeiten.

Der Großteil der Daten wird durch Simulationen, also durch Software-Code erzeugt. Die dabei erzeugten Daten sind meist ohne die erzeugende Software/Code nicht interpretier- bar. Ein Forschungsdatenrepositorium sollte also die Möglichkeit bieten, zusätzlich zu den Daten auch die spezifische Version der erzeugenden Software zu verlinken, als Container oder - sofern möglich - gleich als Rechenumgebung zur Verfügung zu stellen. Letzteres kann notwendig werden für sehr große Datenmengen, die in einem normalen Rechenumfeld nicht verarbeitbar sind. Da die Speicherung von großen Datenmengen auf hochverfügbaren Speichermedien große Kosten verursacht, muss auch ein Zugriff auf günstigere Speichermedien wie Bandsysteme möglich sein.

Ein institutionelles Datenrepositorium besitzt einen allgemeinen Kanon von Metadaten- Feldern, der für alle Datensätze egal welcher Disziplin einheitlich ist. Dennoch sind es oft die fachspezifischen Metadaten, die innerhalb einer Disziplin von besonderer Bedeutung sind und nach denen gesucht werden können sollte. Ein Forschungsdatenrepositorium sollte daher neben einer allgemeinen Sicht auf alle Daten auch einen fachspezifischen Blick auf die Daten einer Fach-Community bieten, damit die Daten bei Weitergabe zumindest innerhalb der Community universell verstehbar bleiben.

Zentral für ein institutionelles FD-Repositorium ist es, Sichtbarkeit und Renommee für die abgelegten Datensätze zu schaffen. Hilfreich dafür wäre eine Qualitätskontrolle der abgelegten Datensätze, z.B. durch einen Peer-Review-Prozess, die Darstellung von Metriken (Nutzung, Zitationen, Altmetrics) und eine Feedback-Funktion für Nutzer von Datensätzen.

UNEKE: Vom USB-Stick zur NFDI – Entwicklung eines Kriterien geleiteten Entscheidungsmodells für den Aufbau von Forschungsdateninfrastrukturen
Bela Brenger (IT Center RWTH Aachen), Ania López (UB Duisburg-Essen), Stephanie Rehwald (UB Duisburg-Essen), Stefan Stieglitz und Konstantin Wilms (Universität Duisburg-Essen, Abteilung für Informatik und Angewandte Kognitionswissenschaft)

Entsprechend der Forderung des Rates für Informationsinfrastrukturen soll langfristig eine Nationale Forschungsdateninfrastruktur (NFDI) entstehen, die flächendeckend die Grundversorgung mit FDM-Speicherinfrastrukturen und -Services sicherstellt. Bisher bestehen neben gut ausgebauten Infrastrukturen einzelner Fach-Communities eine Vielzahl von Insellösungen an den Hochschulen für die Vorhaltung von Forschungsdaten. Interoperabilität sowie Migrierbarkeit sind zentrale Anforderungen beim Auf- und Ausbau institutioneller Speicherkonzepte, um die Anschlussfähigkeit an möglicherweise entstehende fachspezifische oder nationale Lösungen zu sichern.

Damit stehen Hochschulen bei der Implementierung ihrer Forschungsdateninfrastruktur vor der Entscheidung, ob auf dem Weg zur NFDI für die Speicherung von Forschungsdaten lokale Speicherstrukturen und Repositorien nötig sind oder bestehende externe Angebote genutzt werden können. Hierfür fehlen bisher objektive Kriterien. Das BMBF-geförderte Kooperationsprojekt UNEKE der Universität Duisburg-Essen und der RWTH Aachen entwickelt und evaluiert diese Kriterien und bettet diese in eine Roadmap ein, die sowohl die individuellen Rahmenbedingungen der Hochschulen als auch fachspezifische Bedarfe berücksichtigt.

Der Beitrag stellt die Vorhaben des Projekts UNEKE sowie eine erste Version des Kriterienkatalogs zur Auswahl von Speicherlösungen auf Grundlage der in Interviews und Workshops erhobenen Bedarfe der Wissenschaftler vor.

Die Matrix – funktionelle Anforderungen an Forschungsdatenrepositorien
Ralph Müller-Pfefferkorn (TU Dresden)

Forschungsdatenrepositorien sind ein zentraler Baustein für das Teilen von Forschungsdaten, da sie Plattformen zum Speichern, Archivieren, Veröffentlichen, Verwalten und Abrufen von Daten bereitstellen. Die Interessengruppe “Repository Platforms for Research Data” der Research Data Alliance möchte zur Verbesserung von Repositorien sowohl auf technischer Ebene als auch bei der Nutzbarkeit beitragen. Dazu wurden und werden Erfahrungen beim Aufbau, Betrieb und der Nutzung von Repositorien gesammelt, Anforderungen an Softwareprodukte definiert und Schwachstellen aktueller Lösungen in einer Kooperation von Nutzern, Anbietern und Entwicklern identifiziert. Ein Ergebnis der Gruppe war z.B. die Ende letzten Jahres veröffentlichte Matrix, die aus konkreten Anwendungsfällen funktionelle Anforderungen an Repositorien definierte und bewertete.

Research Collection – der neue One-Stop-Shop für Forschende der ETH Zürich
Barbara Hirschmann und Angela Gastl (ETH-Bibliothek Zürich)

Seit dem Sommer 2017 ist die Research Collection (https://www.research-collection.ethz.ch/) die zentrale Plattform für Forschende und Angestellte der ETH Zürich, um ihren Publikations-, Dokumentations- und Archivierungspflichten nachzukommen. Sie können hier ihren Forschungsoutput für die akademische Berichterstattung und für die Erzeugung von Publikationslisten auf ihren Webseiten erfassen, ihre Open- Access-Texte publizieren und zudem ihre Forschungsdaten archivieren oder öffentlich zugänglich machen. Mit diesem integrativen Ansatz verfolgt die ETH-Bibliothek eine „One-Stop-Shop“-Strategie. Forschungsdaten werden nicht in einem separaten Repositorium archiviert oder publiziert, sondern über dieselbe Plattform wie etwa Dissertationen und Postprints. Für die Umsetzung dieses Ansatzes kommt ein DSpace-System zum Einsatz. Mit der Unterstützung eines externen Dienstleisters wurde es gezielt erweitert.

In unserem Workshop-Beitrag werden wir vertieft auf die Anforderungsanalyse sowie die Spezifikation und Umsetzung von Workflows und Features für Forschungsdaten eingehen. Schon vor Beginn des Projekts verfügte die ETH-Bibliothek über Erfahrungen hinsichtlich der Forschungsdatenarchivierung und –publikation, denn bis zur Einführung der Research Collection erfüllte das ETH Data Archive (Rosetta) beide Aufgabe. Vor dem Hintergrund dieser Erfahrungswerte formulierten wir spezifische Systemanforderungen an die Research Collection hinsichtlich: - Metadaten - Zugangsregelungen - Aufbewahrungsfristen - Preservation Export ins ETH Data Archive

Nach einigen Monaten Betriebszeit können wir eine erste Bilanz ziehen. Zum Beispiel in Bezug auf die angedachten und jetzt umgesetzten neuen Workflows und die daraus hervorgehenden neuen Anforderungen an die für den Betrieb der Plattform verantwortlichen Mitarbeitenden.

Offene Forschungsdaten an der Universität Heidelberg: von generischen institutionellen Repositorien zu fach- und projektspezifischen Diensten
Jochen Apel (UB Heidelberg)

Seit 2014 betreibt das Kompetenzzentrum für Forschungsdaten der Universität Heidelberg das institutionelle Forschungsdatenrepositorium heiDATA auf Basis der am IQSS Harvard entwickelten Open-Source-Software Dataverse. Ziel des Vortrages ist es, in einer Zwischenbilanz für heiDATA die für die Tagung formulierten Leitfragen (zumindest ansatzweise) zu beantworten. Darüber hinaus wird die Bild- und Multimediadatenbank heidICON als weitere Plattform für die Veröffentlichung von Forschungsdaten vorgestellt sowie aufgezeigt, wie die Heidelberger Publikationsangebote für Forschungsdaten aktuell im Rahmen des Projekts CS-FDP weiterentwickelt werden. CS-FDP wird im Rahmen der E-Science-Initiative des Landes Baden-Württemberg gefördert und verfolgt u.a. das Ziel individuelle Portallösungen zur Veröffentlichung von Datenbeständen zu entwickeln.

Generische Komponenten und fachspezifische Anforderungen im KA3-Projekt
Jonathan Blumtritt (Data Center for the Humanities, Universität Köln) und Christoph Stollwerk (Regionales Rechenzentrum Universität Köln)

Das vom BMBF seit September 2016 geförderte KA3-Projekt (Zentrum für Analyse und Archivierung von AV-Daten) entwickelt ein Forschungsdatenrepositorium für die Archivierung, Bereitstellung von audiovisueller Daten in den Geisteswissenschaften. Ebenso wird der verteilte kooperative Diskurs in Wissenschaftscommunities unterstützt. Das Projekt wird von Prof. Himmelmann, Institut für Linguistik an der Universität zu Köln (UzK) geleitet. Des Weiteren sind an der UzK das DCH (Data Center for the Humanities), das D.A.R.E.-Projekt (Digital Averroes Research Environment), sowie das Regionale Rechenzentrum beteiligt. Dies wird durch Partner an der FU Hagen, dem Max-Planck-Institut für Psycholinguistik in Nijmegen, sowie dem FHG-IAIS in St. Augustin ergänzt. Im Mittelpunkt stehen die Anforderungen von Fachdisziplinen, deren Forschung wesentlich auf der Erhebung und Analyse von multimodalen Sprachdaten basiert. Im Kölner Kontext werden insbesondere die Sprachdokumentation unter Einbeziehung von Anwendungsfällen aus der Oral History, Musikethnologie und weiteren Disziplinen berücksichtigt.

In enger Kooperation mit den Fachwissenschaften werden Workflows wissenschaftlicher Arbeitsprozesse, sowie Lebenszyklen für spezifische Forschungsdaten entwickelt. Gleichzeitig setzt das Zentrum auf Standards, sowie generische und institutionell etablierte Dienste und Schnittstellen, die fächerübergreifend genutzt werden können.

Die Projektpartner sind in ihren Communities breit verankert. Das damit vorliegende Know-How bildete in der frühen Projektphase die Grundlage zur Festlegung von Schnittstellen und Komponenten der virtuellen Forschungsumgebung. Maßgebliche Funktionalitäten zum Abruf, zur Recherche, zur Konvertierung, zur Analyse, zur Autorisierung und Authentifizierung und auch der Annotation werden durch zahlreiche API‘s in einer Mikro-Architektur ermöglicht, die auf einer strikt Container-virtualisierten-Lösung basiert. Die APIs zur Suche (Query: Open Data Protocol), zur Metadaten-Bereitstellung (Harvesting: OAI-PMH), zur Authentifizierung von Nutzern (Auth-API: SAML2 via Shibboleth), zur Autorisierung von Zugriffen (ACL‘s), zur Konvertierung von Medien (Medien-Konvertierung: IIIF) und zur Analyse von Forschungsdaten (voll-automatisierte Annotation/Transkription: FAIR) basieren prinzipiell auf offenen Standards, sowie auf praxiserprobten, bereits etablierten Lösungen. In allen Entwicklungsstufen wird die Compliance mit den Richtlinien der europäischen Forschungsinfrastruktur CLARIN sichergestellt. Das Kölner Zentrum strebt die Zertifizierung als CLARIN-B-Zentrum an.

LAUDATIO: Modellbasierte Entwicklung eines fachbezogenen und institutionellen Forschungsdatenrepositoriums
Carolin Odebrecht und Rolf Guescini und Thomas Krause (Humboldt-Universität zu Berlin)

Nachnutzung von Forschungsdaten erfordert die langfristige Speicherung und Aufndbarkeit in Repositorien. Die Speicherung kann von verschiedenen Institutionen übernommen werden, die für die langfristige Erreichbarkeit garantieren, aber die Speicherung allein erlaubt noch nicht zwingend die erfolgreiche Nachnutzung. Dazu ist auch eine umfangreiche Dokumentation über den Inhalt und den Entstehungsprozess der Forschungsdaten notwendig. Diese muss weit über die reine Dokumentation der Autorenschaft oder einer Verschlagwortung zur vereinfachten Auffindbarkeit hinausgehen. In LAUDATIO wurde ein Metamodell für Korpusmetadaten entwickelt, das spezifisch auf die Eigenschaften von historischen Textkorpora angepasst wurde, aber auch Elemente allgemeiner Korpusmodellierung einbindet. Der modellbasierte Ansatz erlaubt eine Abstraktion, die eine Dokumentation unabhängig vom Format, Korpus oder Forschungskontext ermöglicht. Die Entwicklung eines solchen Modells ist nur in enger Zusammenarbeit mit den Erstellern der Forschungsdaten und mit Kenntnis des wissenschaftlichen Nutzungskontextes möglich. LAUDATIO nutzt dieses umfangreiche Modell auch als Grundlage für die Abbildung der Daten in der Anwendung und für die Konzepte des Datenaustauschs und der Wiederverwendung. So können Korpora um neue Annotationsebenen erweitert werden, wobei neue Versionen der Korpora und Metadaten entstehen. Die neuen Metadaten enthalten diese Erweiterung als expliziten Schritt und dokumentieren die neuen Daten in der gleichen Form wie die bestehenden. So kann über Korpus- und Dokumentgrenzen hinweg einheitlich nach den verschiedenartigen Daten gesucht werden. Diese strukturierte Suche erfordert neue technische Konzepte und Entwicklungen, die in LAUDATIO in enger Kooperation zwischen den Fachwissenschaftlern und dem Computer- und Medienservice (CMS, das Rechenzentrum der Humboldt-Universität zu Berlin) geschehen. Das CMS als zentrale universitäre Einrichtung bringt dabei die notwendige technische Expertise zur Einreichung und Betrieb eines nachhaltigen Repositoriums in das Projekt ein und löst den nur oberflächlich existierenden Widerspruch zwischen disziplinspezifischer Vernetzung und Nähe zu den Forschenden auf.

Das institutionelle Forschungsdatenrepositorium FDAT mit Schwerpunkt Geistes- und Sozialwissenschaften an der Universität Tübingen
Steve Kaminski (eScience-Center Universität Tübingen)

Das eScience-Center der Universität Tübingen bietet mit dem Forschungsdatenrepositorium FDAT erforderliche Dienstleistungen und die nötige technische Ausstattung für die Langzeitarchivierung und Nachnutzung von Forschungsdaten an. Getragen wird diese Infrastruktur durch die Universitätsbibliothek und das Zentrum für Datenverarbeitung, sowie durch die von der Universität Tübingen verabschiedeten Leitlinien zum Umgang mit Forschungsdaten.

FDAT folgt bei der technischen Umsetzung seiner Dienstleistungen den Richtlinien eines offenen Archivinformationssystems OAIS, seine Kernkomponente bildet dabei die Open Source Archivsoftware Fedora Commons 4.

Das eScience-Center bietet konkrete technische und beratende Unterstützung bei der Konvertierung in archivwürdige Langzeitformate, der Wahl bzw. Definition geeigneter Metadatenschema zur Auffindbarkeit der Daten, der Erfassung von Daten und Metadaten mittels geeigneter Open Source Software sowie bei der Definition von Nutzergruppen und Zugriffsbeschränkungen.

FDAT folgt dem Appell der DFG zur Nutzung offener Lizenzen für Forschungsdaten und unterstützt konkret die Verwendung von Creative Commons Lizenzen. Um die Auffindbarkeit, den Nachweis und die Zitierbarkeit archivierter Forschungsdaten langfristig zu gewährleisten, werden Metadaten in FDAT zwingend Open Access publiziert und über geeignete Schnittstellen angeboten, wie etwa OAI-PMH.

One size fits all? Fedora 4 in der Berliner Staatsbibliothek
Oliver Schöner (Staatsbibliothek zu Berlin)

Die Staatsbibliothek zu Berlin speichert und präsentiert zahlreiche digitale Objekte aus ganz unterschiedlichen Sammlungen. Die hierfür verwendeten Softwarelösungen skalieren nur bedingt und sind teilweise schwer zu warten. Es stellte sich daher die Frage, ob es auf dem Markt eine Repository-Software gibt, die nicht nur bestehende Software abzulösen erlaubt; sie sollte auch so flexibel sein, dass sie potzenziell sehr vielen denkbaren Anforderungen gerecht zu werden vermag. Als ein geeigneter Kandidat wurde Fedora 4 in Verbindung mit dem auf Ruby on Rails basierenden Open-Source-Framework Samvera (vormals Hydra) für die Benutzeroberfläche identifiziert. Auch mit geringem Personalaufwand – so die Hoffnung – sollte es möglich sein, in kurzer Zeit einen Prototyp zu erstellen. Der konkrete Nachweis hierfür gelang mit der Sammlung RGZ/RGSt (Entscheidungen des Reichsgerichts in Zivil- und Strafsachen 1880 bis 1945). Hierfür musste zunächst ein Parser geschrieben werden, der Fedora 4 mit nicht-standardisierten Metadaten und PDF-Dateien speist. Ein Solr-Index macht die Daten durchsuchbar. Insgesamt werden ca. 30.000 digitale Objekte gespeichert und seit Dezember 2016 der Fachöffentlichkeit präsentiert. Für die Zukunft stellt sich die Frage, ob Fedora auch mit erheblich größeren Datenmengen umzugehen vermag und wie aufwendig die Anpassungen von Samvera sein werden.

Die Repositorien-Infrastruktur des Deutschen Klimarechenzentrums
Hannes Thiemann (DKRZ)

Das Deutsche Klimarechenzentrum GmbH ist die zentrale Serviceeinrichtung für die Klimaforschung in Deutschland. Neben Hochleistungsrechnern und großen Datenspeichersystemen betreibt es eine Vielzahl von Diensten, die den gesamten Lebenszyklus von Klimamodelldaten abdecken. Dazu gehören mehrere Repositorien, wie z.B. ein Datenknoten in der global aufgestellten Earth System Grid Federation oder auch das World Data Center for Climate (WDCC), ein zertifiziertes Langzeitarchiv. In dieser Präsentation werden die verschiedenen Dienste für Forschungsdaten vorgestellt, wobei ein besonderes Gewicht auf das Langzeitarchiv gelegt wird. Insbesondere die Herausforderungen, die die Datenmengen im Petabyte-Bereich und die interdisziplinäre Nachnutzung bewirken, werden vorgestellt.

OPUS und großvolumige Forschungsdaten
Tim Hasler (Zuse Institut Berlin)

DepositOnce – Das Repositorium der TU Berlin für Forschungsdaten und Publikationen
Pascal Becker (Universitätsbibliothek TU Berlin)

Die Technische Universität Berlin war eine der ersten Universitäten in Deutschland, die bereits 2012 eine zentrale Infrastruktur für das Forschungsdatenmanagement aufgebaut hat. Bereits im zugrundeliegenden Konzept werden Forschungsdaten und Publikationen als Einheit angesehen, die gegenseitig aufeinander referenzieren und in einem gemeinsamen Repositorium gespeichert werden sollen. 2015 wurden die im Hochschulschriftenserver gespeicherten Publikationen migriert. Seitdem gibt es nicht mehr zwei getrennte Systeme; DepositOnce ist das einzige Repositorium der TU Berlin und umfasst Publikationen und Forschungsdaten. Der Vortrag wird sich mit der Frage auseinandersetzen, welche Vor- und Nachteile ein System hat, das sowohl Forschungsdaten als auch Publikationen beinhaltet. Anhand der unterschiedlichen Anforderungen von Forschungsdaten und Publikationen wird aufgezeigt, was ein Repositorium, das (auch) Forschungsdaten bereitstellen soll, mehr bieten muss als ein Repositorium für Publikationen. Dabei werden Aspekte von DepositOnce vorgestellt und Lösungen mit DSpace aufgezeigt.

Verknüpfung von Publikationen und Forschungsdaten in einem Invenio-basierten Repositorium
Dominik Schmitz (RWTH Aachen University, Universitätsbibliothek) und Marius Politze (RWTH Aachen University, IT Center)

Die RWTH Aachen betreibt mit „RWTH Publications“ (http://publications.rwth-aachen.de) ein Repositorium mit den Funktionen Publikationsnachweis, Publikationsserver, Forschungsdatenveröffentlichung und Verknüpfung zwischen Publikationen und veröffentlichten oder archivierten Forschungsdaten. Das Repositorium basiert auf der am CERN entwickelten Repositoriumssoftware „Invenio“ (http://invenio-software.org), die im Rahmen des Projekts „join2“ (http://join2.de) gemeinschaftlich mit den Helmholtz-Einrichtungen DESY Hamburg, DKFZ Heidelberg, GSI Darmstadt und Forschungszentrum Jülich erheblich weiter entwickelt wurde. Zentrale Elemente sind umfangreiche Importmöglichkeiten sowie die aufwändige Verknüpfung der erfassten Daten mit geeigneten Normdaten zu Personen, Instituten, Periodika und Projekten sowie der Datensätze untereinander. Die UB ist als Datenzentrum bei der TIB registriert und vergibt über diesen Weg DOIs für die im Repositorium veröffentlichten Volltexte und Forschungsdaten. Forschungsdaten werden aktuell vor allem im Kontext von Dissertationen mit veröffentlicht. Allerdings wird einer Veröffentlichung von Forschungsdaten an einer technischen Universität immer mit einer gewissen Reserviertheit begegnet und auch die EU-Projektförderung kennt gute Gründe, warum Daten ggf. nicht veröffentlicht werden können. Um den essentiell wichtigen Link zwischen Publikationen und den zugrundeliegenden Daten nicht zu verlieren, ist das Repositorium explizit darauf ausgelegt, Publikationen auch dann mit Daten verknüpfen zu können, wenn diese nicht veröffentlicht sind, sondern z.B. durch die Anwendung SimpleArchive (https://doc.itc.rwth-aachen.de/display/FDM/simpleArchive) im Archivsystem der RWTH gespeichert werden. Zudem besteht die bereits gerne genutzte Möglichkeit, im Repositorium Datensätze und Daten zu speichern, die nur für das jeweilige Institut zugänglich sind. Auf diese Weise ist eine verlässliche Dokumentationsumgebung entstanden, die die Verbindung zwischen Daten und Publikationen fokussiert und gleichzeitig Skalierungsmöglichkeiten für die vielen unterschiedlichen Anforderungen zum Grad der Zugänglichkeit von Informationen ermöglicht. Das Repositorium ist Teil einer umfassenderen Service-orientierten Gesamtinfrastruktur für die Unterstützung von vielfältigen Forschungsdatenmanagementprozessen. Diese integrierte IT Landschaft nutzt Technologien wie Single Sign On und aufeinander abgestimmte und vernetzte User Interfaces um die Nutzerfreundlichkeit zu verbessern.

Fachrepositorium Lebenswissenschaften: Integration aller Publikationstypen
Birte Lindstädt und Robin Rothe (ZB Med)

Edmond – Das Forschungsdatenrepositorium der Max Planck Gesellschaft
Kristina Koller (Max Planck Digital Library)

Die Max Planck Digital Library (MPDL) stellt den Wissenschaftlern der Max Planck Gesellschaft (MPG) kostenlos ein eigenes Forschungsdatenrepositorium namens Edmond zur Verfügung. Edmond verwendet die von der MPDL selbst entwickelte open source Software imeji. Vorteil von imeji gegenüber bereits vorhandenen Softwarelösungen ist, dass imeji dem Nutzer kein Metadaten-Schema zur Beschreibung der Daten vorgibt sondern ihn dabei unterstützt, flexible Metadaten entsprechend der disziplinspezifischen Beschaffenheit der Forschungsdaten zu erheben. Dadurch, und weil es alle existierenden Datenformate unterstützt, ist Edmond eine gute Plattform für das Publizieren von Forschungsdaten aus unterschiedlichen Disziplinen. Imeji wird kontinuierlich weiterentwickelt und bietet dadurch den Wissenschaftlern die Möglichkeit, ihre eigenen Anforderungen mit einfließen zu lassen. Die Erfahrung hat allerdings gezeigt, dass das Hauptinteresse darin besteht, Forschungsdaten schnell und unkompliziert zu veröffentlichen und mit einer DOI zu versehen.

Open-Access Publikation von Forschungsdaten – Gestaltung des rechtlichen Rahmens im Forschungsprozess für einen offenen Umgang mit Forschungsdaten
Elke Brehm und Janna Neumann (TIB Hannover)

Die Publikation von Forschungsdaten wird vor allem im Rahmen der Forschungsförderung verstärkt eingefordert, auch um Forschungsergebnisse nachvollziehbar, reproduzierbar und nachnutzbar zu machen. Im Kontext des Umgangs mit Forschungsdaten im gesamten Forschungsprozess gibt es eine Reihe von rechtlich relevanten Regelungen und Vereinbarungen mit unterschiedlich beteiligten Akteuren. In der Regel werden diese unabhängig voneinander vereinbart, wenig aufeinander abgestimmt und auch im Rahmen von Datenmanagementplänen so getroffen, dass Datenpublikationen mitunter verhindert bzw. erschwert werden können. Im Rahmen dieses Vortrags stellen wir vor, wie im Hinblick auf die Rechtslage an den Daten Fallgruppen gebildet und rechtliche Regelungen identifiziert werden können. Dabei werden sowohl alle beteiligten Akteure wie Datenproduzenten, Forschungsförderer und Repositoriumsbetreiber als auch der jeweilige rechtliche Rahmen der Forschungsdaten betrachtet. Es werden Empfehlungen gegeben, zu welchem Zeitpunkt im Forschungsprozess welche Regelungen vereinbart und beachtet und welche Akteure einbezogen werden sollten. So können bereits die Datenmanagementpläne für den Forschungsprozess im Hinblick auf die Nachnutzung von Forschungsdaten gestaltet und im Rahmen von Schulungen und Beratungsgesprächen geeignete Lizenzempfehlungen für die Open-Access-Publikation von Forschungsdaten gegeben werden. Ziel ist, möglichst viele publikationsrelevante Daten im Sinne der FAIR Principles Open Access publizieren zu können und unnötige Restriktionen sowie Beschränkungen zu vermeiden.

FDM darf nicht Weh tun -- Ein Ansatz für eine den Forschungsprozess begleitende Repositoriumslösung
Johannes Frenzel (Ruhr-Universität Bochum)

An der RUB ist seit ca. einem halben Jahr eine AG aus Mitgliedern von UB und IT.Services mit dem Aufbau einer einer Forschungsdatenmanagement-Infrastruktur beauftragt. Zentrales Element dieser wird ein Repositorium darstellen. Auf der Grundlage von Vorarbeiten im Bereich DMP und Speicherarchitekturen sowie in Zusammenarbeit mit Forscher-innen und -gruppen (SFB, FG, EXC, Einzelprojekte) wurde begleitend der Bedarf analysiert, individuelle Lösungen mitentwickelt und eine Integration in die Gesamtarchitektur sichergestellt. Diese soll auch den unterschiedlichen Anforderungen der Forschungsförderer genügen. Kernbedarfe sehen die Forscher-innen eindeutig bei DMP und Speicher für Daten, z.B. bis zu 300 TiB für einen SFB. Diese Datenmengen fallen im Forschungsprozess an ("Heisse Daten"), werden mit Metadaten angereichert und sollen innerhalb der Forscherverbünde geteilt werden. Aber, die Forschenden fordern auch, dass sie durch FDM keine oder nur sehr wenig Zeit zum Forschen verlieren. Basierend auf diesen Rahmenbedingungen sieht unser Ansatz ein Repositorium nicht erst am Ende eines Projekts vor, sondern soll dieses weitestgehend begleiten. Digitale Werkzeuge müssen weitestgehend direkt aus dem etablierten Workflow der Forscher-innen angebunden werden, um Daten effizient einzupflegen. Somit übernimmt des Repositorium in diesem, angestrebten Prozess auch Aufgaben, welche unter die Anforderungen der DFG ( Gute wissenschaftliche Praxis) fallen sowie weitere technische Prozesse, wie z.B. Backup und Garantie der Datenintegrität. Weitere Anforderungen an das Repositorium und Oberfläche, wie Suche, Publikations, Rechte- und Rollenmanagement, Schittstellen zur Speicherhardware und Archivfunktionen, werden diskutiert sowie die Entscheidung zu quellenoffener und von einer grossen Community aktiv (weiter)entwickelten Software begründet.

RADAR als eine Option für das institutionelle Forschungsdatenrepositorium der TU Braunschweig
Robert Strötgen (TU Braunschweig), Angelina Kraft (TIB Hannover), Matthias Razum (FIZ Karlsruhe)

Die TU Braunschweig befindet sich gerade in der Entscheidungsfindung für ein institutionelles Forschungsdatenrepositorium. Dabei ist natürlich zu berücksichtigen, dass es an der TU bereits einen Publikationsserver gibt, der bisher als reines Dokumentenrepositorium (im Rahmen des Reposis-Dienstes der Verbundzentrale Göttingen) genutzt wird. Bei der anstehenden Entscheidung sind wirtschaftliche Argumente genauso zu berücksichtigen wie die Integration in Workflows der Benutzer/innen, die Anbindung an die internen Geschäftsprozesse und natürlich das Anforderungsprofil der TU Braunschweig als technische Universität. In dem Vortrag wird RADAR (www.radar-service.eu) als ein Cloud-basiertes institutionelles Forschungsdatenrepositorium vorgestellt und mit anderen Optionen (z.B. Erweiterung des aktuell genutzten Dokumentenrepositoriums oder lokaler Betrieb einer geeigneten Repository-Lösung) verglichen. Hier spielen insbesondere die Anforderungen der TU Braunschweig hinsichtlich Schnittstellen, Erstellung von Kollektionen und Brandings eine Rolle. Abschließend werden die sich ergebenen Argumente für und gegen eine Lösung mit RADAR im Vergleich zu lokalen Lösungen dargestellt.

Das DARIAH-DE-Repositorium
Beata Mache (SUB Göttingen)

Nach einer fast einjährigen Testphase (Beta) wird das DARIAH-DE-Repositorium in den kommenden Wochen offiziell freigeschaltet. Als zuverlässige Möglichkeit, Forschungsdaten zu beschreiben, zu speichern, zu veröffentlichen und zur Nachnutzung bereitzustellen, wird das Repositorium den im Bereich der Geistes- und Kulturwissenschaften Forschenden zur Verfügung stehen. Das Repositorium ist ein Modul in der DARIAH-DE Forschungsdaten- Föderationsarchitektur, die auch Funktionen wie Metadaten-Mapping (Data Modeling Environment), Registrierung und Beschreibung von (nicht nur) digitalen Sammlungen (Collection Registry) sowie eine generische und auch eine facettierten Suche (Generische Suche) anbietet.

DARIAH-DE versteht das Repositorium als Self-Management-System, das den Fachwissenschaftlern ermöglicht, selbstverantwortlich und selbstbestimmt mit ihren Forschungsdaten umzugehen. Die Vertrauenswürdigkeit des Repositoriums soll zertifiziert werden („Data Seal of Approval“).

Dokumentation

Während des Workshops wurde von den Vortragenden eine Tabelle zum Vergleich der Angebote/Ergebnisse ausgefüllt, die unter folgender Adresse zu finden ist: https://goo.gl/pf1n8E