Datenextraktion und Data Scraping

Datenextraktion und Data Scraping#

In den Digital Humanities sind viele relevante Quellen wie historische Zeitungen, Archive oder soziale Medien nur als unstrukturierter Text im Web verfügbar. Scraping-Techniken ermöglichen es, diese Inhalte automatisiert zu erfassen und in strukturierte Forschungsdaten zu überführen, z. B. in Form durchsuchbarer Textkorpora. Datenextraktion bzw. Data Scraping bildet somit häufig den ersten Schritt in DH-Arbeitsprozessen und ermöglicht u. a. anschließende Bild- oder Textanalysen oder auch Visualisierungen.

Dieses Kapitel wird grundlegende Vorgehensweisen und Technologien vorstellen und dabei einen Fokus auf Programmierschnittstellen (APIs) und die Herausforderungen und Möglichkeiten bei der Formatierung und Strukturierung extrahierter Daten legen.

Diese Seite befindet sich im Aufbau.