Mithilfe von KI Wirkungsmessung skalieren

Wenn die Organisation wächst, kann das Durchführen und besonders auch das Auswerten von Teilnehmendenbefragungen zu einer Herausforderung werden. In einem Data4Good Projekt haben 5 CorrelAid-Volunteers für In safe hands e.V. einen automatisierten Auswertungsprozess und eine Webanwendung für ihre Wirkungsmessung entwickelt.

29. Oktober 2024 · Sören Etler

In safe hands e.V. bietet mit BUNTER BALL ein sportpädagogisches Präventionsprogramm für Kinder im Grundschulalter an. Mit diesen Angeboten sollen nicht nur die motorische Entwicklung der Kinder gestärkt, sondern auch die emotionalen und sozialen Kompetenzen verbessert werden. Um diese Wirkung zu überprüfen und die Ergebnisse messbar zu machen, werden vor und nach jedem Schuljahr standardisierte Interviews mit den teilnehmenden Kindern durchgeführt. Hierbei protokollieren die unterstützenden Freiwilligen die Antworten der Kinder möglichst im Originalwortlaut.

In diesem Projekt wurden die Abschnitte der Interviews ausgewertet, die sich mit dem sozialkompetenten Handeln und den Emotionsregulationsstrategien der Kinder befassen. Die im Originalwortlaut erfassten Antworten müssen für die weitere Auswertung aus dem Freitext zu verschiedenen Kategorien zugeordnet werden. Bisher wurde dieser Prozess händisch von geschultem Personal durchgeführt. Dies wurde mit zunehmender Teilnehmendenzahl immer zeitaufwendiger und die Auswertung dadurch schwieriger zu realisieren. Ziel war es daher, diesen Prozess zu vereinfachen und zumindest teilweise zu automatisieren.

In beiden Kategorien (sozialkompetentes Handeln und Emotionsregulation) gibt es jeweils 6 Fragen. Kindern wird eine beispielhafte Situation skizziert und sie werden gefragt, was sie einer Person, die sich in dieser Situation befindet, empfehlen würden zu tun:

Stell dir vor, das Mädchen hat Angst, weil es in der Nacht blitzt und donnert. Was rätst du diesem Mädchen, damit sie weniger Angst hat?

Beispiel für Antworten wären hier: “an etwas Schönes denken” oder “Licht anmachen”. In diesen Antworten zeigt das Kind eine sogenannte adaptive Emotionsregulationsstrategie - es weiß gut mit der Emotion umzugehen - und bekommt dafür in der Auswertung zwei Punkte. Verhalten, bei dem das Kind sich selbst abwertet oder aggressiv reagiert, werden als maladaptive Emotionsregulationsstrategien bezeichnet und mit 0 Punkten kodiert. Für weitere Strategien wird ein Punkt vergeben.

Nach der Umsetzung des Projekts wird diese Zuordnung teilautomatisiert durchgeführt. Unser Tool soll den Menschen im Auswertungsprozess nicht ersetzen, sondern unterstützen. Ziel ist es, Zeit bei einfachen Zuordnungen einzusparen, damit mehr Zeit für die Bearbeitung schwieriger Fälle bleibt.

Das Tool unterstützt die Kodierung in zwei Schritten:

1. Ähnliche bereits kodierte Aussagen finden

Das System durchsucht eine Tabelle mit bereits kodierten Beispielen nach ähnlichen Aussagen und deren Kodierung, um sicherzustellen, dass gleiche oder ähnliche Aussagen stets die gleiche Punktzahl erhalten.

Für diese Zuordnung werden sogenannte Wortvektoren oder Embeddings genutzt, sodass nicht zwingend die gleichen Wörter benutzt werden müssen, um eine Ähnlichkeit festzustellen: Für die Aussage “an etwas Schönes denken” findet das System z.B. den Satz “sich auf schöne Sachen konzentrieren” in den Trainingsdaten und für das Beispiel “Licht anmachen” kann auch “Licht anschalten” gefunden werden.

2. Automatische Kodierungsvorschläge

Zusätzlich wird ein Kodierungsvorschlag errechnet. Hier wird ein einfacher Bag-of-Words Ansatz verwendet. Dies ist ein Machine Learning Ansatz, bei dem die vorkommenden Wörter in einem Satz gezählt werden. Jedes Wort kann mit einer Gewichtung für eine bestimmte Kategorie versehen werden. Das Wort “Licht” oder “Ohren” deutet auf eine Kodierung mit zwei Punkten hin. Während die Wortkombination “weiß nicht” oder “nichts” eher auf 0 Punkte deutet. Mit einem Punkt werden viele Aussagen kodiert, die auf das Einbeziehen von anderen Personen hindeuten und z.B. die Wörter “Mama”, “Mutter” oder “Eltern” enthalten. Dies ist eine sehr einfache Herangehensweise, die sich besonders durch ihre Erklärbarkeit auszeichnet. Es kann sehr gut nachvollzogen werden, warum das System für eine Aussage eine bestimmte Kodierung vorschlägt.

Weichen diese beiden Herangehensweisen voneinander ab und liefern nicht das gleiche Ergebnis, so wird der entsprechende Eintrag mit einer Warnung versehen. Ebenfalls wird ein Hinweis angezeigt, wenn sich das System bei der automatischen Kodierung nicht sicher ist - d.h. der Confidence-Wert niedrig ist. Diese markierten Einträge können dann manuell überprüft und die Kodierung wenn nötig angepasst werden.

Wie geht es weiter?

Momentan wird das System in einem ersten Durchlauf für die Kodierung von neuen Antworten verwendet. Das Tool wurde als Webapp für die Mitarbeitenden von In safe hands e.V. veröffentlicht und ist nur für einen freigegebenen Personenkreis zugänglich. Natürlich gibt es bereits viele Ideen zur Weiterentwicklung und Verbesserung des Tools.

Zum einen können durch kontinuierliches Training mit Daten aus neuen Befragungen die Vorschläge immer weiter verbessert werden. Hierzu kann auch die Verbesserung der genutzten Machine Learning Algorithmen und Sprachmodelle beitragen. Wichtig war uns, dass alle Berechnungen auf einem eigenen Server stattfinden können und die Daten nicht an eine Schnittstelle von z.B. OpenAI oder Google geschickt werden müssen. Sicherlich werden sich aber auch die Large-Language-Modells (LLMs) im nächsten Jahr deutlich weiterentwickeln und eine einfache Ausführung auf eigenen Servern ohne große Rechenleistung ermöglichen.

Eine weitere Möglichkeit der Weiterentwicklung ist die weitere Auswertung und Visualisierung der Daten. Bisher unterstützt unser Tool nur bei der Kodierung der Antworten. Anschließend werden die Daten als Export in einer Exceltabelle bereitgestellt. Im nächsten Schritt könnte es auch für die Visualisierung und Auswertung der Ergebnisse verwendet werden.

Das Projekt hat gezeigt, dass schon einfache Machine Learning Methoden einen großen Mehrwert bieten können. Die Auswertung erfolgt nun deutlich schneller und ist viel einfacher als es die manuelle Kodierung in Exceltabellen vorher war.

Und ganz nebenbei haben wir als CorrelAid-Volunteers viel über die Stärkung von sozialen und emotionalen Kompetenzen durch den Sport gelernt und konnten unser Wissen über Daten und Künstliche Intelligenz weitergeben. Dabei ist über einen Zeitraum von sechs Monaten ein handfestes Projekt entstanden, das nicht dem KI-Hype hinterherläuft, sondern zu einer wirklichen Verbesserung der Arbeitsprozesse führt.

💡 Du findest das Projekt spannend und hast auch Lust ein Data4Good Projekt in deiner Non-Profit Organisation durchzuführen. Alle Informationen dazu findest du auf /daten-nutzen/projekte/