Modellierung#

Die Arbeit an und mit Daten ist zentral für die Digital Humanities: Ob bei der Annotation eines Textes, beim Aufbau einer Datenbank zu historischen Personen oder bei der Visualisierung politischer Netzwerke – am Anfang steht die Frage nach der Datenmodellierung. Welche Form und Struktur sollten die Daten haben?

Datenmodelle bezeichnen formale Modelle, die zur Repräsentation von Objekten dienen. Sie

  • ermöglichen komplexe maschinelle Operationen auf den Daten

  • dienen als Grundlage der Kommunikation über die Daten

  • sichern eine höhere Qualität der Daten, indem sie Bedingungen formulieren, denen Daten bei der Eingabe entsprechen müssen

  • ermöglichen den Austausch oder das Zusammenführen von Daten (→ Nachhaltigkeit)

Diese Definition und eine tiefergehende Einführung finden sich bei [JKR17]. Dieses Kapitel erläutert grundlegende Begriffe und Konzepte.

Einführung#

Datenmodellierung bezeichnet einen Prozess, bei dem eine visuelle Darstellung der Daten und ihrer Beziehungen erstellt wird. Das Ergebnis ist ein formales Modell, das ein oder mehrere Objekte repräsentiert (= Datenmodell). Das Datenmodell wiederum ist eine Blaupause dafür, wie Daten strukturiert, gespeichert und abgerufen werden, um Konsistenz und Klarheit im Datenmanagement zu gewährleisten. Durch die Datenmodellierung wird ihre Speicherung, beispielsweise in einer Datenbank, vorbereitet.

Entity-Relationship-Modell (ERM)#

Das Entity-Relationship-Modell ist eine Art des Datenmodells, das von Peter Chen entwickelt wurde . Es stellt dar, wie Daten miteinander in Beziehung stehen, und besteht aus folgenden Elementen:

  • Entity (Entität): beschreibt Objekt der realen Welt (z. B. “Person”, “Brief”), nicht einzelne Instanzen (z. B. “Max Müller”, “Brief vom 4. Mai”)

  • Attribut: beschreibt Entität näher

  • Relation (Beziehung): beschreibt, wie Entitäten zueinander in Verbindung stehen

Beispiel simples ERM Briefe

Fig. 1 Simples ERM, das den Prozess der Briefkorrespondenz modelliert#


Fig. 1 zeigt ein simples ERM, in dem der Prozess des Verschickens und Empfangens von Briefkorrespondenz modelliert ist. Jede Entität hat genau einen Primärschlüssel, der sie eindeutig identifiziert (PersonID, BriefID).

In einem komplexeren Szenario kann es auch Fremdschlüssel geben, welche auf den Primärschlüssel einer anderen Entität verweisen. Kardinalitäten beschreiben, wie viele Entitäten eines Typs an einer Beziehung beteiligt sein können: z. B.: Jeder Brief wird von einer Person gesendet, eine Person kann n Briefe senden.

Für ein Szenario, angelehnt an die Nürnberger Briefbücher, in dem Briefe von Personen und Städten versendet und empfangen werden können, sie aber von einem Stadtschreiber verfasst werden, reicht obiges ERM nicht mehr aus.

Beispiel-ERM Briefbücher-Korrespondenz

Fig. 2 Komplexeres ERM, das den Prozess der Briefkorrespondenz in den Nürnberger Briefbüchern modelliert#


Fig. 2 zeigt ein komplexeres ERM, in dem auch diese Informationen erfasst werden können. Hier kommen nicht nur Fremdschlüssel zum Einsatz, sondern auch Unter- bzw. Superklassen (Vererbung), verdeutlicht durch die “Ist”-Beziehung.

ERMs bieten darüber hinaus auch weitere komplexere Möglichkeiten, Daten und Informationen zu modellieren.


Literatur und weiterführende Informationen#

Zitierte Literatur#

[JKR17]

Fotis Jannidis, Hubertus Kohle, and Malte Rehbein. Digital Humanities. Eine Einführung. J.B. Metzler Stuttgart, 2017. ISBN 978-3-476-02622-4. URL: https://doi.org/10.1007/978-3-476-05446-3, doi:10.1007/978-3-476-05446-3.