Lehrveranstaltungs-/Modulkataloge Informatik und Elektrotechnik

Details zu dem von Ihnen ausgewählten Semesterangebot (Lehrveranstaltungs- bzw. Prüfungsangebot):

Lehrveranstaltung: The 800-pound Gorilla in the corner: Data Integration
(in English) The 800-pound Gorilla in the corner: Data Integration
Semester: SS 2021: Lehrveranstaltung und Prüfung
Sprache: Englisch
: Kompetenzbereiche der Informatik (INF)
- Pflicht (im Studiengang) -
: Modulgruppe Datenbanken und Informationssysteme
- Wahl-Pflicht (in ) -
weitere Einordnungen:
Frequenz: jährlich im SS
SWS / LP: 3 V + 1 Ü  /  5 LP
Prüfung: Prüfungsleistung [Nr. ?] = mündl. Prüfung, benotet
- Wahl-Pflicht (in ) -
Bemerkung zur LV: Die Veranstaltung zählt zum Studienschwerpunkt Data Science.
Lernziele: “Data integration is the 800-pound gorilla in the corner, and everyone’s got it in spades,” sagt Turing Laureat Prof. Mike Stonebraker. Zweifelsohne wird die Konsolidierung von heterogenen und widersprüchlichen Datenquellen auch in der Ära von Big Data als eines der schwierigsten und zeitaufwendigsten Aufgaben eines Data Scientists angesehen. Herausforderungen sind hierbei der Umgang mit schmutzigen Daten, unterschiedliche Repräsentationen von gleicher Information und Unvollständigkeit von Datenquellen. In dieser Vorlesung werden wir die komplette Pipeline eines Informationsintegrationsarbeitsablaufs kennen lernen. Hierzu diskutieren wir relevante Informationsintegrationsarchitekturen und Algorithmen in Datenreinigung, Schematransformation und Datenfusion. Zusätzlich werden moderne Systeme und aktuelle Anwendungsbeispiele von Informationsintegration beleuchten. “Data integration is the 800-pound gorilla in the corner, and everyone’s got it in spades,” according to Mike Stonebraker, MIT professor and Turing Award Laureate. The most challenging and time-consuming task of data scientists in the era of Big Data is to consolidate data from different sources, overcoming dirty data, heterogeneity in data representations, and incompleteness of data. In this course, we will surface the entire pipeline of an information integration workflow, by learning about existing integration architectures, algorithms in data cleansing, schema matching, and data fusion. Furthermore, we will discuss state-of-the-art systems and prominent use cases of information integration techniques.
Stoffplan: Wir folgen dem nachstehenden Themenkatalog: - Verteilung und Autonomie. - Basiskonzepte von Datenintegration. - String Matching. - Schemaintegration. - Global-as-View und Lokal-as-View Modellierung. - Datenreinigung. - Duplikatenerkennung. - Informationsqualitaet. - Hidden Web. The course has the following main topics: - Distribution and autonomy. - Foundations of data integration. - String Matching. - Schema matching/mapping. - Global-as-View and Lokal-as-View modelling. - Data cleansing. - Duplicate detection. - Data quality. - Hidden Web.
Vorkenntnisse: Empfohlen: Die Voraussetzungen sind das abgeschlossene Bachelorstudium und Grundkenntnisse im Bereich des Datenbankmanagements und Grundkenntnisse in mindestens einer modernen Programmier-oder Skriptsprache.
Literatur-
empfehlungen
Principles of Data Integration. Anhai Doan, Alon Halevy, Zachary Ives. Morgan Kaufmann, 1st edition (2012), 520 pages Ulf Leser and Felix Naumann: Informationsintegration, dpunkt Verlag, 2006.
Bemerkung: Die Teilnehmendenzahl ist auf 12 Personen beschränkt. Anmeldung in Stud.IP. Die Veranstaltung zählt zum Studienschwerpunkt Data Science.
WWW: https://www.pi.uni-hannover.de/de/dbs/


Lehrperson EMail WWW Institut
Prüfer/in:
Prof. Dr. Ziawasch Abedjan
https://www.pi.uni-hannover.de/de/dbs/ Institut für Praktische Informatik, FG Datenbanken und Informationssysteme (DBS)
Dozent/in:
Prof. Dr. Ziawasch Abedjan
https://www.pi.uni-hannover.de/de/dbs/ Institut für Praktische Informatik, FG Datenbanken und Informationssysteme (DBS)

Probleme? mailto:lvk