RDA-DE-Trainings-Workshop-2017: Unterschied zwischen den Versionen
Rmp (Diskussion | Beiträge) Keine Bearbeitungszusammenfassung |
Rmp (Diskussion | Beiträge) Keine Bearbeitungszusammenfassung |
||
(30 dazwischenliegende Versionen von 2 Benutzern werden nicht angezeigt) | |||
Zeile 16: | Zeile 16: | ||
<br /> | <br /> | ||
==Anmeldung== | ==Anmeldung== | ||
Die Anzahl der Teilnehmer ist auf 40 begrenzt. Anmeldefrist ist der | Die Anzahl der Teilnehmer ist auf 40 begrenzt. Anmeldefrist ist der 1. Juni 2017. Falls dann noch Plätze verfügbar sind, kann auch noch nachgemeldet werden. Für die Teilnahme wird ein Beitrag von 35 € erhoben. Dazu wird bis spätestens zur Anmeldefrist eine Rechnung zugesandt. | ||
Die Anmeldung finden Sie [http://event.zih.tu-dresden.de/events/view/21 hier] | Die Anmeldung finden Sie [http://event.zih.tu-dresden.de/events/view/21 hier] | ||
==Agenda== | ==Agenda== | ||
=== Übersicht === | |||
Die Veranstaltung beginnt am 8.Juni um 11.00 und endet am 9. Juni um 16.00, so dass nur eine Übernachtung eingeplant werden muss. | Die Veranstaltung beginnt am 8.Juni um 11.00 und endet am 9. Juni um 16.00, so dass nur eine Übernachtung eingeplant werden muss. | ||
Zeile 27: | Zeile 27: | ||
{| class="wikitable" style="text-align:center" | {| class="wikitable" style="text-align:center" | ||
! | |||
! colspan="3" | Donnerstag, 8. Juni 2017 | |||
|- | |- | ||
| 11:00 - 12:00 || colspan="2" | Plenum: RDA und RDA-DE - Wieso? Weshalb? Warum? (Raum 1004) [http://tu-dresden.de/zih/die-einrichtung/struktur/ralph-mueller-pfefferkorn Ralph Müller-Pfefferkorn] | |||
|- | |- | ||
| | ! Zeit || Track A - für Einsteiger (Raum 1004) || Track B - für Fortgeschrittene (Raum E006) | ||
|- | |- | ||
| 12:00 - 13:15 || colspan="2" | Mittagspause in der Mensa (auf Selbstzahlerbasis) | | 12:00 - 13:15 || colspan="2" | Mittagspause in der Mensa (auf Selbstzahlerbasis) | ||
|- | |- | ||
| 13:15 - 15.15 || Einführung in das Forschungsdatenmanagement <br /> [http://www.cms.hu-berlin.de/de/dl/dataman Kerstin Helbig] || Arbeiten mit PIDs <br /> [http://www.gwdg.de/web/guest/about-us/organization/departments/escience Ulich Schwardmann] | | 13:15 - 15.15 || A1: Einführung in das Forschungsdatenmanagement <br /> [http://www.cms.hu-berlin.de/de/dl/dataman Kerstin Helbig] || B1: Arbeiten mit PIDs <br /> [http://www.gwdg.de/web/guest/about-us/organization/departments/escience Ulich Schwardmann] | ||
|- | |- | ||
| 15:15 - 15:45 || colspan="2" | Kaffeepause | | 15:15 - 15:45 || colspan="2" | Kaffeepause | ||
|- | |- | ||
| 15:45 - 17:45 || Einführung in das Forschungsdatenmanagement <br /> [http://www.cms.hu-berlin.de/de/dl/dataman Kerstin Helbig] || Die Metadateninfrastruktur des | | 15:45 - 17:45 || A1: Einführung in das Forschungsdatenmanagement <br /> [http://www.cms.hu-berlin.de/de/dl/dataman Kerstin Helbig] || B2: Die Metadateninfrastruktur des | ||
CLARIN-Projektes <br /> [http://asv.informatik.uni-leipzig.de/staff/Thomas_Eckart Thomas Eckart] | CLARIN-Projektes <br /> [http://asv.informatik.uni-leipzig.de/staff/Thomas_Eckart Thomas Eckart] | ||
|- | |- | ||
| 19: | | 19:30 || colspan="2" | Gemeinsames Abendessen (auf Selbstzahlerbasis) im [http://www.altmarktkeller.de Altmarktkeller], Altmarkt 4, 01067 Dresden | ||
|- | |- | ||
| || colspan="2" | | | || colspan="2" | | ||
|- | |- | ||
! colspan="3" | | ! colspan="3" | Freitag, 9. Juni 2017 | ||
|- | |- | ||
| 8:30 - 10:30 || Urheberrechtliche Rahmenbedingungen des Forschungsdatenmanagements <br /> [http://tu-dresden.de/gsw/jura/igewem/jfbimd13 Anne Lauber-Rönsberg] || Metadaten | | 8:30 - 10:30 || A2: Urheberrechtliche Rahmenbedingungen des Forschungsdatenmanagements <br /> [http://tu-dresden.de/gsw/jura/igewem/jfbimd13 Anne Lauber-Rönsberg] || B3: Der Metadaten-Lebenszyklus im interdisziplinären Datenkatalog EUDAT-B2FIND und in der Klimaforschung <br /> [http://www.dkrz.de/about/Organisation/mitarbeiter/HeinrichWidmann Heinrich Widmann] | ||
|- | |- | ||
| 10:30 - 11:00 || colspan="2" | Kaffeepause | | 10:30 - 11:00 || colspan="2" | Kaffeepause | ||
|- | |- | ||
| 11:00 - 13:00 || Daten publizieren | | 11:00 - 13:00 || A3/1: Daten publizieren <br /> [http://www.gfz-potsdam.de/wissenschaftliche-infrastruktur/bibliothek-und-informationsdienste/mitarbeiter/profil/kirsten-elger/ Kirsten Elger] || B4: Einführung in die Datenanalyse mit Apache Spark <br /> René Jäkel [http://www.scads.de ScaDS Dresden/Leipzig] | ||
|- | |- | ||
| 13:00 - 14:00 || colspan="2" | Mittagspause (Catering im Hause) | | 13:00 - 14:00 || colspan="2" | Mittagspause (Catering im Hause) | ||
|- | |- | ||
| 14:00 - 16:00 || | | 14:00 - 16:00 || A3/2: Daten finden <br /> [http://www.gfz-potsdam.de/wissenschaftliche-infrastruktur/bibliothek-und-informationsdienste/mitarbeiter/profil/kirsten-elger/ Kirsten Elger] [http://www.dkrz.de/about/Organisation/mitarbeiter/HeinrichWidmann Heinrich Widmann] || B4: Einführung in die Datenanalyse mit Apache Spark <br /> René Jäkel [http://www.scads.de ScaDS Dresden/Leipzig] | ||
|} | |} | ||
=== Kurs-Details=== | |||
==== Plenum: RDA und RDA-DE - Wieso? Weshalb? Warum? ==== | |||
Vorstellung der Research Data Alliance (RDA), von RDA Europe und RDA DE | |||
''Material zur Session:'' [[Medium:RDA_Vorstellung_2017.pdf |Folien]] | |||
====A1: Einführung in das Forschungsdatenmanagement ==== | |||
Forschungsdatenmanagement - worum geht es dabei überhaupt? Woher kommen Anforderungen? Wie sieht Forschungsdatenmanagement praktisch aus? Die Session bietet einen Einstieg in die Thematik und fasst Begriffe, aktuelle Anforderungen sowie Stakeholder zusammen. An praktischen Beispielen wird gezeigt, welche Rolle Forschungsdaten inzwischen in der Wissenschaftskommunikation und -politik einnehmen. Ein weiterer Schwerpunkt der Session liegt auf Datenmanagementplänen. Nach einer theoretischen Einführung werden Tools zur Erstellung eines Plans vorgestellt. Kleine Gruppenübungen komplettieren die Session. | |||
Zielgruppe: Die Session richtet sich primär an Teilnehmerinnen und Teilnehmer, die gerade erst begonnen haben, sich mit dem Thema Forschungsdatenmanagement zu beschäftigen. | |||
Agenda: | |||
# Grundbegriffe des Forschungsdatenmanagements | |||
# Effektive Datenmanagementplanung | |||
''Material zur Session:'' [[Medium:Einführung-in-das-Forschungsdatenmanagement.pdf|Folien]], [[Medium:Handout-A1-Einführung-in-das-Forschungsdatenmanagement.pdf|Handout]] | |||
====A2: Urheberrechtliche Rahmenbedingungen des Forschungsdatenmanagements==== | |||
Der Vortrag erläutert, welche urheberrechtlichen Fragen sich im Zusammenhang mit dem Forschungsdatenmanagement ergeben. Dabei wird zunächst darauf eingegangen, inwieweit Forschungsergebnisse schutzfähig sind und wem sie - unter Berücksichtigung dienstrechtlicher Regelungen - "gehören". Die rechtliche Zuordnung von Forschungsergebnissen ist u.a. relevant dafür, wem die Entscheidungsbefugnis für die Veröffentlichung der Ergebnisse obliegt. Zudem werden mögliche Lizenzmodelle dargestellt. Zum Abschluss werden kurz datenschutzrechtliche Fragestellungen thematisiert. | |||
Der Workshop soll den Teilnehmerinnen und Teilnehmern rechtliche Grundlagen vermitteln, zugleich aber auch noch klärungsbedürftige rechtliche Fragestellungen identifizieren und zur Diskussion stellen. Wenn sich bereits im Vorfeld Fragen ergeben, können Sie sie gern an mich weiterleiten (anne.lauber@tu-dresden.de), damit diese Aspekte in dem Workshop entsprechend berücksichtigt werden können. | |||
''Material zur Session:'' [[Medium:2017-06-09-Trainingsworkshop_LauberRönsberg_UrheberrechtFDM.pdf |Folien]] | |||
====A3/1: Daten publizieren==== | |||
In den letzten Jahren haben sich Datenpublikationen, d.h. die Veröffentlichung von Forschungsdaten als eigenständige Publikationen, als „best practice“ entwickelt, um den internationalen Erwartungen und Forderungen nach Open Research Data nachzukommen. Datensätze und ihre Beschreibungen werden von Forschungsdatenrepositorien veröffentlicht, idealerweise mit einem Digital Object Identifier (DOI), und sind inzwischen voll zitierbar in wissenschaftlichen Artikeln. Nach einem einführenden Teil über Erwartungen und Forderungen aber auch über internationale Initiativen zum Umgang mit Forschungsdaten (COPDESS, FORCE 11) werden die wichtigsten „Komponenten“ einer Datenpublikation vorgestellt (Metadaten, Dateiformate, Beschreibung – worauf muss ich achten?) und eine kurze Einführung in die International Geo Sample Number (IGSN) gegeben. | |||
* Was ist eine Datenpublikation und was brauche ich dafür? | |||
* Was sind die Vorteile von Datenpublikationen? | |||
* Was habe ich als Wissenschaftler davon, meine Daten zu publizieren? | |||
* Wie zitiere ich einen Datensatz den ich nachnutze? | |||
''Material zur Session:'' [[Medium:2017-06-09-Trainingskurs_Elger_data_publication_citation.pdf |Folien]] | |||
====A3/2: Daten finden==== | |||
Der offene Zugang zu Forschungsdaten wird immer wichtiger in der Wissenschaftslandschaft und führt zur stetig zunehmenden Zahl von Forschungsdaten Repositorien, in welchen Daten archiviert, kuratiert und verteilt werden. Was gibt es für Möglichkeiten, publizierte Forschungsdaten zu finden? Woher weiß ich, was es für Repositorien gibt? In dieser Session stellen wir verschiedene Möglichkeiten vor, Daten zu finden, beginnend mit einer disziplinären Datenbank über das Metadatenportal eines Datenrepositoriums bis zu Portalen wie DataCite oder B2Find, die Metadaten aus verschiedenen Datenbanken und Repositorien zusammenführen. Darüber hinaus stellen wir re3data.org vor, die Registry of Research Data Repositories, eine strukturierte interdisziplinäre Übersicht und Beschreibung von bisher über 1850 Datenrepositorien und -Portalen gibt (im Mai 2017). | |||
''Material zur Session:'' [[Medium:2017-06-09-Trainingskurs_Elger_data_publication_citation.pdf |Folien]] | |||
====B1: Arbeiten mit PIDs ==== | |||
Diese Session zeigt einfache und fortgeschrittene Anwendungsbeispiele für auf dem Handle-System basierenden Persistent Identifiers (PIDs), wie sie von ePIC bereitgestellt werden. | |||
Es wird dargestellt, wie PIDs verwaltet, mit Metadaten angereichert und aufgelöst werden. | |||
Im Detail werden die folgenden Fragen behandelt: Einsatz von PIDs,technische Nutzung der ePIC PID-Service API, Nutzung von PID Information Types für Metadaten, Gestaltung von PID-Records. | |||
Einführungen werden durch Hands-On-Beispiele ergänzt. | |||
Ziel: Ziel des Kurses ist, dass die Teilnehmer das Wissen darüber vermittelt bekommen, wie PIDs sinnvoll im wissenschaftlichen Betrieb verwendet, verwaltet und aufgelöst werden. | |||
Teilnehmer: Der Kurs richtet sich vornehmlich an Daten-Wissenschaftler, Software Entwickler und Daten-Manager, die die verschiedenen Möglichkeiten der Verwendung von PIDs in ihrer Arbeit kennen lernen und damit das Daten-Management und den Zugriff auf Daten professioneller gestalten wollen. | |||
Agenda: | |||
# Persistente Identifikatoren | |||
# PID Information Types und Data Type Registries | |||
''Material zur Session:'' [[Medium:2017-06-08-Trainingskurs_Arbeiten_mit_PIDs_Teil1-Schwardmann.pdf|Folien Teil 1]], [[Medium:2017-06-08-Trainingskurs_Arbeiten_mit_PIDs_Teil2-Schwardmann.pdf|Folien Teil 2]] | |||
====B2: Die Metadateninfrastruktur des CLARIN-Projektes==== | |||
In dieser Session werden verschiedene Aspekte der Erstellung, Auslieferung und Aufbereitung strukturierter Metadaten am Beispiel der Component Metadata Infrastructure (CMDI) dargestellt. CMDI-basierte Metadaten sind zentraler Integrationsbaustein im Rahmen des | |||
Forschungs-Infrastrukturprojektes CLARIN, das sich der systematischen Erfassung und Bereitstellung linguistischer Ressourcen widmet. | |||
Es wird der Nutzen und Mehrwert von Metadaten in einer föderierten und stark vernetzten Umgebung dargestellt. Exemplarisch wird auf den gesamten Erstellungs- und Auslieferungsprozess von Metadaten (Schemagenerierung, Instanzerstellung, Dissemination) und auf Möglichkeiten ihrer nutzerfreundlichen Aufbereitung im Rahmen von Weboberflächen eingegangen. Abschließend wird die Problematik mangelnder Metadatenqualität anhand realer Beispiele aufgezeigt und mögliche Lösungsstrategien vorgestellt. | |||
Agenda: | |||
# Metadaten in einer Forschungsinfrastruktur für Sprachressourcen (CLARIN) | |||
# Erstellungsprozess von Metadaten am Beispiel der CMDI | |||
# Bereitstellung und Aufbereitung von Metadaten in föderierten Systemen | |||
# Problemfälle und Lösungsansätze | |||
''Material zur Session:'' [[Medium:2017-06-08-Trainingskrus-Eckart-Metadaten-CLARIN.pdf |Folien]] | |||
====B3: Der Metadaten-Lebenszyklus im interdisziplinären Datenkatalog EUDAT-B2FIND und in der Klimaforschung==== | |||
In diesem Kurs werden verschiedene Standard-Verfahren und Technologien vorgestellt, die heutzutage im Management von Metadaten angewendet werden. Dies reicht vom 'Erzeugen' und der Extraktion der Metadaten, über deren Formatierung und Aggregation, bis hin zu der Homogenierung und der semantischen Transformation. Das zentrale Ziel ist hierbei die Metadatensätze in einem semantisch gemeinsamen Suchraum zu indizieren und damit Forschungsdaten über ein Webportal suchbar und wiederverwendbar zu machen. | |||
Wie dieser Metadaten-Lebenszyklus implementiert werden kann, wird anhand des interdisziplinären Metadaten-Dienstes EUDAT-B2FIND und anhand des WDCC-Portals 'CERA' für Daten aus der Klimaforschung erläutert. | |||
Der Kurs wird z.T. auch an praktischen Beispielen zeigen, wie man vorgehen kann. | |||
Agenda : | |||
# Einführung zu Metadaten : Was, wozu und wie | |||
# Best practices und die FAIR-Prinzipien | |||
# Management von Metadaten : Methoden, Standards und Schemas | |||
# Umsetzung und Implementierung | |||
## EUDAT-B2FIND | |||
## WDCC/CERA | |||
# Hands-On Übungen (soweit Zeit und Möglichkeit) | |||
''Material zur Session:'' [[Medium:2017-06-09-Trainingsworkshop_Widmann_MDLifeCycle.pdf |Folien]] | |||
====B4: Einführung in die Datenanalyse mit Apache Spark ==== | |||
Ein effizientes Datenmanagement stellt die Grundlage für weiterführende Analysen basierend auf vorhandenen Daten dar. In jüngerer Vergangenheit haben sich generische Frameworks zur Datenanalyse, auch insbesondere für große Datenbestände entwickelt, die zunehmend durch ihren hohen Funktionsumfang interessant für generische Datenanalysen werden. In dieser Session soll in das Themengebiet "Data Analytics" eingeführt werden und exemplarisch anhand von konkreten Beispielen der Umgang mit einem generische Framework zur Datenanalyse - am Beispiel von Apache Spark - erprobt werden. | |||
Ziel des Workshop ist es, einen Überblick über das Themenfeld "Data Analytics" zu erhalten, technologische Konzepte und state-of-the-art Methoden kennenzulernen und Handlungen zur Datenanalyse (Integration und Datenaufbereitung; Auswahl relevanter Analyseverfahren, etc. ) zu erproben. | |||
Agenda: | |||
# Überblick über Data Analytics als Teilgebiet von Big Data | |||
# Einführung in generelle Prozessierungsstrategien und Verknüpfungen zum Datenmanagement | |||
# Einführung in das Framework Apache Spark | |||
# Hands-On-Teil: Anwendung von Framework-Routinen auf Daten aus verschiedenen Anwendungsbeispielen | |||
''Material zur Session:'' [[http://wwwpub.zih.tu-dresden.de/~jaekel/rda_tutorial.zip |Folien, Code und mehr]] | |||
==Organisatorisches== | ==Organisatorisches== |
Aktuelle Version vom 23. Juni 2017, 13:27 Uhr
Das Thema "Forschungsdaten und wie gehe ich damit um" ist in aller Munde - bei Wissenschaftlerinnen und Wissenschaftlern genauso wie bei den Wissenschaftsorganisationen und der Politik. Doch was muss man als Forschende/r beachten? Welche Methoden oder Werkzeuge unterstützen das Forschungsdatenmanagement? Welche Angebote gibt es?
Nach dem sehr gut angenommenen und erfolgreichen ersten Trainingsworkshop im letzten Jahr wird die Research Data Alliance Deutschland (RDA-DE) in Zusammenarbeit mit der Deutschen Initiative für Netzwerkinformation (DINI) und dem nationalen Kompetenzzentrum für Big Data ScaDS Dresden/Leipzig am 8. und 9. Juni 2017 am Zentrum für Informationsdienste und Hochleistungsrechnen der TU Dresden (ZIH) den zweiten Trainingsworkshop zum Forschungsdatenmanagement veranstalten.
- Termin: 8. und 9. Juni 2017
- Ort: Technische Universität Dresden, Andreas-Pfitzmann-Bau Nöthnitzer Str. 46, 01187 Dresden
- Veranstalter: Research Data Alliance Deutschland (RDA-DE) in Kooperation mit der Deutschen Initiative für Netzwerkinformation (DINI), dem nationalen Kompetenzzentrum für Big Data ScaDS Dresden/Leipzig und dem Zentrum für Informationsdienste und Hochleistungsrechnen der TU Dresden
- Kontakt: rdadetraining-organisation@lists.fusionforge.zih.tu-dresden.de
Anmeldung
Die Anzahl der Teilnehmer ist auf 40 begrenzt. Anmeldefrist ist der 1. Juni 2017. Falls dann noch Plätze verfügbar sind, kann auch noch nachgemeldet werden. Für die Teilnahme wird ein Beitrag von 35 € erhoben. Dazu wird bis spätestens zur Anmeldefrist eine Rechnung zugesandt.
Die Anmeldung finden Sie hier
Agenda
Übersicht
Die Veranstaltung beginnt am 8.Juni um 11.00 und endet am 9. Juni um 16.00, so dass nur eine Übernachtung eingeplant werden muss.
Es wird zwei parallel Tracks geben: Track A richtet sich an Einsteiger in das Thema Forschungsdaten, Track B an Fortgeschrittene.
Donnerstag, 8. Juni 2017 | ||
---|---|---|
11:00 - 12:00 | Plenum: RDA und RDA-DE - Wieso? Weshalb? Warum? (Raum 1004) Ralph Müller-Pfefferkorn | |
Zeit | Track A - für Einsteiger (Raum 1004) | Track B - für Fortgeschrittene (Raum E006) |
12:00 - 13:15 | Mittagspause in der Mensa (auf Selbstzahlerbasis) | |
13:15 - 15.15 | A1: Einführung in das Forschungsdatenmanagement Kerstin Helbig |
B1: Arbeiten mit PIDs Ulich Schwardmann |
15:15 - 15:45 | Kaffeepause | |
15:45 - 17:45 | A1: Einführung in das Forschungsdatenmanagement Kerstin Helbig |
B2: Die Metadateninfrastruktur des
CLARIN-Projektes |
19:30 | Gemeinsames Abendessen (auf Selbstzahlerbasis) im Altmarktkeller, Altmarkt 4, 01067 Dresden | |
Freitag, 9. Juni 2017 | ||
8:30 - 10:30 | A2: Urheberrechtliche Rahmenbedingungen des Forschungsdatenmanagements Anne Lauber-Rönsberg |
B3: Der Metadaten-Lebenszyklus im interdisziplinären Datenkatalog EUDAT-B2FIND und in der Klimaforschung Heinrich Widmann |
10:30 - 11:00 | Kaffeepause | |
11:00 - 13:00 | A3/1: Daten publizieren Kirsten Elger |
B4: Einführung in die Datenanalyse mit Apache Spark René Jäkel ScaDS Dresden/Leipzig |
13:00 - 14:00 | Mittagspause (Catering im Hause) | |
14:00 - 16:00 | A3/2: Daten finden Kirsten Elger Heinrich Widmann |
B4: Einführung in die Datenanalyse mit Apache Spark René Jäkel ScaDS Dresden/Leipzig |
Kurs-Details
Plenum: RDA und RDA-DE - Wieso? Weshalb? Warum?
Vorstellung der Research Data Alliance (RDA), von RDA Europe und RDA DE
Material zur Session: Folien
A1: Einführung in das Forschungsdatenmanagement
Forschungsdatenmanagement - worum geht es dabei überhaupt? Woher kommen Anforderungen? Wie sieht Forschungsdatenmanagement praktisch aus? Die Session bietet einen Einstieg in die Thematik und fasst Begriffe, aktuelle Anforderungen sowie Stakeholder zusammen. An praktischen Beispielen wird gezeigt, welche Rolle Forschungsdaten inzwischen in der Wissenschaftskommunikation und -politik einnehmen. Ein weiterer Schwerpunkt der Session liegt auf Datenmanagementplänen. Nach einer theoretischen Einführung werden Tools zur Erstellung eines Plans vorgestellt. Kleine Gruppenübungen komplettieren die Session.
Zielgruppe: Die Session richtet sich primär an Teilnehmerinnen und Teilnehmer, die gerade erst begonnen haben, sich mit dem Thema Forschungsdatenmanagement zu beschäftigen.
Agenda:
- Grundbegriffe des Forschungsdatenmanagements
- Effektive Datenmanagementplanung
Material zur Session: Folien, Handout
A2: Urheberrechtliche Rahmenbedingungen des Forschungsdatenmanagements
Der Vortrag erläutert, welche urheberrechtlichen Fragen sich im Zusammenhang mit dem Forschungsdatenmanagement ergeben. Dabei wird zunächst darauf eingegangen, inwieweit Forschungsergebnisse schutzfähig sind und wem sie - unter Berücksichtigung dienstrechtlicher Regelungen - "gehören". Die rechtliche Zuordnung von Forschungsergebnissen ist u.a. relevant dafür, wem die Entscheidungsbefugnis für die Veröffentlichung der Ergebnisse obliegt. Zudem werden mögliche Lizenzmodelle dargestellt. Zum Abschluss werden kurz datenschutzrechtliche Fragestellungen thematisiert.
Der Workshop soll den Teilnehmerinnen und Teilnehmern rechtliche Grundlagen vermitteln, zugleich aber auch noch klärungsbedürftige rechtliche Fragestellungen identifizieren und zur Diskussion stellen. Wenn sich bereits im Vorfeld Fragen ergeben, können Sie sie gern an mich weiterleiten (anne.lauber@tu-dresden.de), damit diese Aspekte in dem Workshop entsprechend berücksichtigt werden können.
Material zur Session: Folien
A3/1: Daten publizieren
In den letzten Jahren haben sich Datenpublikationen, d.h. die Veröffentlichung von Forschungsdaten als eigenständige Publikationen, als „best practice“ entwickelt, um den internationalen Erwartungen und Forderungen nach Open Research Data nachzukommen. Datensätze und ihre Beschreibungen werden von Forschungsdatenrepositorien veröffentlicht, idealerweise mit einem Digital Object Identifier (DOI), und sind inzwischen voll zitierbar in wissenschaftlichen Artikeln. Nach einem einführenden Teil über Erwartungen und Forderungen aber auch über internationale Initiativen zum Umgang mit Forschungsdaten (COPDESS, FORCE 11) werden die wichtigsten „Komponenten“ einer Datenpublikation vorgestellt (Metadaten, Dateiformate, Beschreibung – worauf muss ich achten?) und eine kurze Einführung in die International Geo Sample Number (IGSN) gegeben.
- Was ist eine Datenpublikation und was brauche ich dafür?
- Was sind die Vorteile von Datenpublikationen?
- Was habe ich als Wissenschaftler davon, meine Daten zu publizieren?
- Wie zitiere ich einen Datensatz den ich nachnutze?
Material zur Session: Folien
A3/2: Daten finden
Der offene Zugang zu Forschungsdaten wird immer wichtiger in der Wissenschaftslandschaft und führt zur stetig zunehmenden Zahl von Forschungsdaten Repositorien, in welchen Daten archiviert, kuratiert und verteilt werden. Was gibt es für Möglichkeiten, publizierte Forschungsdaten zu finden? Woher weiß ich, was es für Repositorien gibt? In dieser Session stellen wir verschiedene Möglichkeiten vor, Daten zu finden, beginnend mit einer disziplinären Datenbank über das Metadatenportal eines Datenrepositoriums bis zu Portalen wie DataCite oder B2Find, die Metadaten aus verschiedenen Datenbanken und Repositorien zusammenführen. Darüber hinaus stellen wir re3data.org vor, die Registry of Research Data Repositories, eine strukturierte interdisziplinäre Übersicht und Beschreibung von bisher über 1850 Datenrepositorien und -Portalen gibt (im Mai 2017).
Material zur Session: Folien
B1: Arbeiten mit PIDs
Diese Session zeigt einfache und fortgeschrittene Anwendungsbeispiele für auf dem Handle-System basierenden Persistent Identifiers (PIDs), wie sie von ePIC bereitgestellt werden. Es wird dargestellt, wie PIDs verwaltet, mit Metadaten angereichert und aufgelöst werden. Im Detail werden die folgenden Fragen behandelt: Einsatz von PIDs,technische Nutzung der ePIC PID-Service API, Nutzung von PID Information Types für Metadaten, Gestaltung von PID-Records. Einführungen werden durch Hands-On-Beispiele ergänzt.
Ziel: Ziel des Kurses ist, dass die Teilnehmer das Wissen darüber vermittelt bekommen, wie PIDs sinnvoll im wissenschaftlichen Betrieb verwendet, verwaltet und aufgelöst werden.
Teilnehmer: Der Kurs richtet sich vornehmlich an Daten-Wissenschaftler, Software Entwickler und Daten-Manager, die die verschiedenen Möglichkeiten der Verwendung von PIDs in ihrer Arbeit kennen lernen und damit das Daten-Management und den Zugriff auf Daten professioneller gestalten wollen.
Agenda:
- Persistente Identifikatoren
- PID Information Types und Data Type Registries
Material zur Session: Folien Teil 1, Folien Teil 2
B2: Die Metadateninfrastruktur des CLARIN-Projektes
In dieser Session werden verschiedene Aspekte der Erstellung, Auslieferung und Aufbereitung strukturierter Metadaten am Beispiel der Component Metadata Infrastructure (CMDI) dargestellt. CMDI-basierte Metadaten sind zentraler Integrationsbaustein im Rahmen des Forschungs-Infrastrukturprojektes CLARIN, das sich der systematischen Erfassung und Bereitstellung linguistischer Ressourcen widmet. Es wird der Nutzen und Mehrwert von Metadaten in einer föderierten und stark vernetzten Umgebung dargestellt. Exemplarisch wird auf den gesamten Erstellungs- und Auslieferungsprozess von Metadaten (Schemagenerierung, Instanzerstellung, Dissemination) und auf Möglichkeiten ihrer nutzerfreundlichen Aufbereitung im Rahmen von Weboberflächen eingegangen. Abschließend wird die Problematik mangelnder Metadatenqualität anhand realer Beispiele aufgezeigt und mögliche Lösungsstrategien vorgestellt.
Agenda:
- Metadaten in einer Forschungsinfrastruktur für Sprachressourcen (CLARIN)
- Erstellungsprozess von Metadaten am Beispiel der CMDI
- Bereitstellung und Aufbereitung von Metadaten in föderierten Systemen
- Problemfälle und Lösungsansätze
Material zur Session: Folien
B3: Der Metadaten-Lebenszyklus im interdisziplinären Datenkatalog EUDAT-B2FIND und in der Klimaforschung
In diesem Kurs werden verschiedene Standard-Verfahren und Technologien vorgestellt, die heutzutage im Management von Metadaten angewendet werden. Dies reicht vom 'Erzeugen' und der Extraktion der Metadaten, über deren Formatierung und Aggregation, bis hin zu der Homogenierung und der semantischen Transformation. Das zentrale Ziel ist hierbei die Metadatensätze in einem semantisch gemeinsamen Suchraum zu indizieren und damit Forschungsdaten über ein Webportal suchbar und wiederverwendbar zu machen.
Wie dieser Metadaten-Lebenszyklus implementiert werden kann, wird anhand des interdisziplinären Metadaten-Dienstes EUDAT-B2FIND und anhand des WDCC-Portals 'CERA' für Daten aus der Klimaforschung erläutert.
Der Kurs wird z.T. auch an praktischen Beispielen zeigen, wie man vorgehen kann.
Agenda :
- Einführung zu Metadaten : Was, wozu und wie
- Best practices und die FAIR-Prinzipien
- Management von Metadaten : Methoden, Standards und Schemas
- Umsetzung und Implementierung
- EUDAT-B2FIND
- WDCC/CERA
- Hands-On Übungen (soweit Zeit und Möglichkeit)
Material zur Session: Folien
B4: Einführung in die Datenanalyse mit Apache Spark
Ein effizientes Datenmanagement stellt die Grundlage für weiterführende Analysen basierend auf vorhandenen Daten dar. In jüngerer Vergangenheit haben sich generische Frameworks zur Datenanalyse, auch insbesondere für große Datenbestände entwickelt, die zunehmend durch ihren hohen Funktionsumfang interessant für generische Datenanalysen werden. In dieser Session soll in das Themengebiet "Data Analytics" eingeführt werden und exemplarisch anhand von konkreten Beispielen der Umgang mit einem generische Framework zur Datenanalyse - am Beispiel von Apache Spark - erprobt werden.
Ziel des Workshop ist es, einen Überblick über das Themenfeld "Data Analytics" zu erhalten, technologische Konzepte und state-of-the-art Methoden kennenzulernen und Handlungen zur Datenanalyse (Integration und Datenaufbereitung; Auswahl relevanter Analyseverfahren, etc. ) zu erproben.
Agenda:
- Überblick über Data Analytics als Teilgebiet von Big Data
- Einführung in generelle Prozessierungsstrategien und Verknüpfungen zum Datenmanagement
- Einführung in das Framework Apache Spark
- Hands-On-Teil: Anwendung von Framework-Routinen auf Daten aus verschiedenen Anwendungsbeispielen
Material zur Session: [|Folien, Code und mehr]
Organisatorisches
Hotels
Dresden bietet ein große Zahl an Hotels aller Qualitäts- und Preisklassen an, die man in den üblichen Portalen oder direkt buchen kann.
Die TU Dresden hat ein eigenes Gästehaus mit einem guten Preis-Leistungsverhältnis - Link
Tagungsort
Der Andreas-Pfitzmann-Bau (Nöthnitzer Str. 46) ist das Gebäude der Fakultät Informatik und liegt am Rand des Hauptcampus der TU Dresden.