The 800-pound Gorilla in the corner: Data Integration

Lehrveranstaltungs-/Modulkataloge Informatik und Elektrotechnik

Details zu dem von Ihnen ausgewählten Semesterangebot (Lehrveranstaltungs- bzw. Prüfungsangebot):

Lehrveranstaltung:	The 800-pound Gorilla in the corner: Data Integration
(in English)	The 800-pound Gorilla in the corner: Data Integration
Semester:	SS 2022: Lehrveranstaltung und Prüfung
Sprache:	Englisch
:	Informatik (INF) - Pflicht (im Studiengang) -
:	Modulgruppe Datenbanken und Informationssysteme - Wahl-Pflicht (in ) -
weitere Einordnungen:
Frequenz:	jährlich im SS
SWS / LP:	3 V + 1 Ü / 5 LP
Prüfungsleistung:	Prüfungsleistung [Nr. ?] = mündl. Prüfung (MP), benotet - Wahl-Pflicht (in ) -
Bemerkung zur LV:	Die Veranstaltung zählt zum Studienschwerpunkt Data Science.
Lernziele:	“Data integration is the 800-pound gorilla in the corner, and everyone’s got it in spades,” sagt Turing Laureat Prof. Mike Stonebraker. Zweifelsohne wird die Konsolidierung von heterogenen und widersprüchlichen Datenquellen auch in der Ära von Big Data als eines der schwierigsten und zeitaufwendigsten Aufgaben eines Data Scientists angesehen. Herausforderungen sind hierbei der Umgang mit schmutzigen Daten, unterschiedliche Repräsentationen von gleicher Information und Unvollständigkeit von Datenquellen. In dieser Vorlesung werden wir die komplette Pipeline eines Informationsintegrationsarbeitsablaufs kennen lernen. Hierzu diskutieren wir relevante Informationsintegrationsarchitekturen und Algorithmen in Datenreinigung, Schematransformation und Datenfusion. Zusätzlich werden moderne Systeme und aktuelle Anwendungsbeispiele von Informationsintegration beleuchten. “Data integration is the 800-pound gorilla in the corner, and everyone’s got it in spades,” according to Mike Stonebraker, MIT professor and Turing Award Laureate. The most challenging and time-consuming task of data scientists in the era of Big Data is to consolidate data from different sources, overcoming dirty data, heterogeneity in data representations, and incompleteness of data. In this course, we will surface the entire pipeline of an information integration workflow, by learning about existing integration architectures, algorithms in data cleansing, schema matching, and data fusion. Furthermore, we will discuss state-of-the-art systems and prominent use cases of information integration techniques.
Stoffplan:	Wir folgen dem nachstehenden Themenkatalog: - Verteilung und Autonomie. - Basiskonzepte von Datenintegration. - String Matching. - Schemaintegration. - Global-as-View und Lokal-as-View Modellierung. - Datenreinigung. - Duplikatenerkennung. - Informationsqualitaet. - Hidden Web. The course has the following main topics: - Distribution and autonomy. - Foundations of data integration. - String Matching. - Schema matching/mapping. - Global-as-View and Lokal-as-View modelling. - Data cleansing. - Duplicate detection. - Data quality. - Hidden Web.
Vorkenntnisse:	Empfohlen: Die Voraussetzungen sind das abgeschlossene Bachelorstudium und Grundkenntnisse im Bereich des Datenbankmanagements und Grundkenntnisse in mindestens einer modernen Programmier-oder Skriptsprache.
Literatur- empfehlungen	Principles of Data Integration. Anhai Doan, Alon Halevy, Zachary Ives. Morgan Kaufmann, 1st edition (2012), 520 pages Ulf Leser and Felix Naumann: Informationsintegration, dpunkt Verlag, 2006.
Bemerkung:	Die Teilnehmendenzahl ist auf 16 Personen beschränkt. Anmeldung in Stud.IP. Die Veranstaltung zählt zum Studienschwerpunkt Data Science.
WWW:	https://www.pi.uni-hannover.de/de/dbs/

Lehrperson	EMail	WWW	Institut
Prüfer/in: Prof. Dr. Ziawasch Abedjan		https://www.pi.uni-hannover.de/de/dbs/	Fachgebiet Datenbanken und Informationssysteme
Dozent/in: Prof. Dr. Ziawasch Abedjan		https://www.pi.uni-hannover.de/de/dbs/	Fachgebiet Datenbanken und Informationssysteme

Probleme? mailto:lvk