KI-Werkzeuge einordnen und bewerten#

Wie bewertet man KI-Tools?#

Wie bewertet man Technologien und digitale Werkzeuge allgemein?

Überlegen Sie: Welche Fragen können als Leitfragen für die Bewertung von Werkzeugen dienen?

Denken Sie dabei an konkrete Beispiele, die bei KI-Tools eine besondere Rolle spielen, aber auch an allgemeine Kriterien, wie man die Qualität von Software erkennt oder bewertet.

Werkzeugkritik mit Fokus auf KI-gestützte Tools: Vorschläge für Leitfragen#

Um die Qualität eines Werkzeugs oder einer Software zu bewerten, gilt es, verschiedene Aspekte einzubeziehen. An dieser Stelle werden nur Kriterien betrachtet, die sich auf das Werkzeug als „Produkt“ und damit Aspekte der Nutzung, Bedienbarkeit und weiterer übergeordneter Kriterien beziehen. Die vorgeschlagenen Leitfragen sind gebündelt in Fragen nach:

  • Zweck des Werkzeugs

  • Alternativen

  • Bedienbarkeit

  • Transparenz

  • Berichte / Rezensionen

  • Ethische Kriterien

Nicht betrachtet werden hier Qualitätsmerkmale, die sich auf technologische Aspekte und die Qualität des Codes und der Implementierung beziehen. Solche Bewertungen erfordern umfassende technische Vorkenntnisse sowie eine offene Publikation und Dokumentation des Codes einer Anwendung.

Zweck des Tools#

  • Was ist das Ziel oder der Zweck des Tools?

  • Für welche Aufgaben wurde es gemacht?

  • Steht das Tool für sich oder wird es mit anderen Werkzeugen oder Workflows kombiniert?

  • Wie zuverlässig sind die Ergebnisse?

Beabsichtigte Nutzung und Alternativen#

  • Was möchte ich mit dem Tool machen?

  • An welche Tätigkeitsfelder knüpft das Tool an?

  • Kann ich Alternativen wählen?

  • Was sind Alternativen?

  • Wie gut funktioniert das Tool im Vergleich zu anderen Tools?

Usability und User Experience#

  • Ist das Interface intuitiv und leicht zu bedienen?

  • Sind Vorkenntnisse nötig, um das Tool zu nutzen?

  • Wird Hilfe geboten? (FAQs, Dokumentation, Tutorials)

  • Ist der Zugang beschränkt? (z. B. auf ausgewählte Länder, durch einen Preis)

  • Ist das Tool barrierefrei?

Transparenz#

  • Wie transparent ist die Funktionsweise bzw. der Weg zu den Ergebnissen?

  • Basiert das Tool auf einer Datengrundlage / Algorithmen? Gibt es Informationen dazu?

  • Werden von mir als Nutzer*in Daten gespeichert? Welche und wo?

  • Gibt es Hinweise zu Einschränkungen?

  • Wer steht dahinter? Wo sind die Betreiber?

  • Wie langfristig wird das Tool verfügbar sein?

Rezensionen#

  • Wurde an anderer Stelle (Fachjournal, Tech-Zeitschrift wie heise.de) über das Tool berichtet?

  • Findet sich das Tool in Auflistungen und Empfehlungen von relevanten Tools meiner Fachdisziplin / für meinen Anwendungszweck?

  • Welche Funktionen oder Aspekte des Tools haben überzeugt bzw. nicht überzeugt?

  • Gibt es Artikel oder Studien, die die Nutzung in der Wissenschaft thematisieren oder Use Cases beschreiben?

Ethische Kriterien#

  • Wie verhält sich die Technologie zum Gemeinwohl?

    • Dient es vielen oder wenigen?

    • Fördert das Tool Bildung und Zugang zu Wissen?

  • Welche ökologischen Auswirkungen hat das Tool?

    • Falls ja: Wird dies benannt? Gibt es Anstrengungen, die Auswirkungen zu reduzieren?

  • Besteht Gefahr für Manipulation oder Desinformation? (z. B. Bias in Trainingsdaten, algorithmische Bias / Fairness?)

    • Welche Schutzmechanismen / Eigenverpflichtungen gibt es dagegen?

    • Können Fehler gemeldet werden?

Leitfragen des Datenkompetenzzentrums HERMES#

Die nachfolgenden Leitfragen entstanden im Kontext des Datenkompetenzzentrums HERMES – Humanities Education in Research, Data, and Methods, vgl. Schlander, A., Konstanciak, J., & Reiche, R. (2025). LLMs in den Digital Humanities nutzen und reflektieren. Text+ Plenary, Mannheim. Zenodo. DOI: https://doi.org/10.5281/zenodo.15088755”>https://doi.org/10.5281/zenodo.15088755.

Leitfragen:

  • Wie helfen LLMs in der Recherche?

  • Welchen Einfluss nehmen LLMs beim Verfassen und Bewerten von Texten?

  • Welchen Nutzen haben LLMs und KI-Tools für den GLAM-Bereich (GLAM = Galeries, Libraries, Archives, Museums)?

  • Wie können LLMs zur Untersuchung von Daten eingesetzt werden?

Standards zur Bewertung von Technologien und Softwarequalität#

  • Eng mit der Entstehung und Entwicklung von Software verbunden

  • Verschiedene Qualitätsmodelle

  • Aufgliederung in übergeordnete und untergeordnete Qualitätsmerkmale

  • ISO-Standards (International Organization for Standardization) ISO/IEC 25000 als Leitfäden für Qualitätskriterien von Software und die Bewertung von Software

ISO-Leitlinien#

Mit dem ISO-Standard ISO/IEC 25000 gibt es eine internationale Norm für Softwarequalität, die “Systems and software engineering - Systems and software Quality Requirements and Evaluation (SQuaRE)”. Die Kriterien bewerten dabei die Software und ihre Qualität des Produkts und nicht die Qualität der Herstellung (also Software-Enwticklung.) Die ISO – International Organization for Standardization mit Sitz in der Schweiz erarbeitet internationale Normen in nahezu allen Bereichen.
Die zentralen Kriterien sind:

  • Funktionalität

  • Zuverlässigkeit

  • Benutzerfreundlichkeit

  • Leistungsfähigkeit

  • Wartbarkeit

  • Übertragbarkeit

Quellen: The ISO/IEC 25000 series of standards, https://iso25000.com/index.php/en/iso-25000-standards David Zubrow, 2004, Measuring Software Product Quality: the ISO 25000 Series and CMMI (Präsentation), https://insights.sei.cmu.edu/library/measuring-software-product-quality-the-iso-25000-series-and-cmmi.

Elemente des ISO-Standards für Softwarequalität

Fig. 17 Die Qualitätskriterien für Software als Produkt nach ISO 9126 (ist 2001 im Standard ISO/IEC 25000 aufgegangen – hier noch die alte Bezeichnung). Bildnachweis: Sae1962, Wikimedia Commons, CC BY-SA 4.0.#