Natural Language Processing to Identify Speech and Language Characteristics in Individuals with Autism
Natural Language Processing to Identify Speech and Language Characteristics in Individuals with Autism
Diese Forschung untersucht sprachliche Merkmale von Erwachsenen mit Autismus-Spektrum-Störung (ASS) mittels computergestützter Audio- und Transkriptanalyse, mit besonderem Fokus auf weibliche Personen, die aufgrund weniger offensichtlicher Symptome oft unterdiagnostiziert bleiben. Ziel ist es, Ärzten und Diagnostikern evidenzbasierte Werkzeuge zur Verfügung zu stellen, die eine präzisere und geschlechtersensible Diagnose von ASS ermöglichen und insbesondere die Erkennung von Autismus bei Frauen verbessern.
| Promovierende: | Nadine Probol |
| Betreuende: | Prof. Dr. Margot Mieskes |
| Beteiligte Institutionen: |
Die Autismus-Spektrum-Störung (ASS) wurde ursprünglich in den 1940er Jahren von Kanner und Asperger beschrieben. Kanner identifizierte Autismus als eine Störung, die mit sozialem Rückzug und Kommunikationsschwierigkeiten einhergeht, während Asperger feststellte, dass seine Patienten zwar früh eine Sprache entwickelten, ihnen jedoch die emotionale Reaktionsfähigkeit fehlte. Im Laufe der Zeit haben sich Klassifizierungssysteme entwickelt, wobei DSM und ICD die wichtigsten Diagnoseinstrumente sind. Die ICD-10 unterscheidet zwischen frühkindlichem Autismus (Kanner-Syndrom), atypischem Autismus und Asperger-Syndrom, während die neuere ICD-11 sie unter dem breiteren Begriff ASS zusammenfasst. Aktuelle Trends zeigen eine Zunahme der ASS-Diagnosen, wobei die Berichte variieren, aber im Allgemeinen darauf hindeuten, dass bei etwa einem von 36 Kindern Autismus diagnostiziert wird. Die Prävalenz ist bei Männern deutlich höher als bei Frauen, obwohl sich der Abstand verringert, da bei Frauen aufgrund weniger offensichtlicher Symptome die Diagnose oft erst später im Leben gestellt wird. Diese Diskrepanz bei der Diagnose verdeutlicht, dass weibliche Patienten besser erkannt und unterstützt werden müssen.
Die Dissertation konzentriert sich auf die Forschung mit erwachsenen Personen mit Asperger-Syndrom und Personen mit ASS mit hohen Funktions- und niedrigen Unterstützungsbedürfnissen und untersucht dabei sowohl die Audio-Daten selbst, als auch deren Transkriptionen. Darüber hinaus fokussiert sich die Forschung nicht nur auf die Unterschiede zwischen Nicht-Autisten (neurotypisch; NT) und Autisten, sondern auch auf weibliche Personen im Autismus-Spektrum und die Unterschiede zu Männern des autistischen Spektrums.
Forschungsfragen
Datenanalyse
Wo findet man verwertbare Daten von Personen mit ASS?
Gibt es einen signifikanten Unterschied in den Daten, sowohl im Audio als auch in der Transkription, zwischen Männern und Frauen mit ASS?
Gibt es einen signifikanten Unterschied in den Daten, sowohl im Audio als auch in der Transkription, zwischen NT- und ASS-Personen?
Merkmale der autistischen Sprache
Können wir einen Unterschied auf Wort- und/oder Satzebene zwischen Personen mit ASS und NT sowie zwischen männlichen und weiblichen Personen mit ASS feststellen?
Können wir durch den Einsatz von Deep Learning und transformatorbasierten Ansätzen mehr Erkenntnisse gewinnen als durch den Einsatz traditioneller maschineller Lernmethoden?
Modelle
Ist es besser, die Transkripte oder die Audiodaten zu verwenden?
Können die Ergebnisse durch die Kombination von Merkmalen aus Transkript- und Audiodaten verbessert werden?
Benötigen wir geschlechtsspezifische Modelle?
Ergebnisanalyse
Gibt es einen Unterschied zwischen den von menschlichen Diagnostiker und NLP-basierten Modellen verwendeten Markern?
Inwiefern können Therapeuten und Diagnostiker von meinen Ergebnissen profitieren?
Methodik
Datenerfassung
Recherche von offen autistischen Erstellern auf Social Media, um diese um das Zur-Verfügung-Stellen ihrer Daten für die Forschung zu bitten. Automatische Erstellung von Transkriptionen der so gesammelten Daten mitsamt Zeitstempeln. Ergänzung der Daten um zusätzliche informative Tags wie Singen, Stottern oder Echolalie.
Aufsetzen einer Prolific-Studie, um eine größere und vielfältigere Datenmenge sammeln zu können.
→ Einschließlich zusätzlicher Informationen wie Komorbiditäten, Alter und Diagnose.
→ Sammeln spontaner Sprache als auch vorgegebener Texte.
Datenanalyse
Berechnung statistischer Informationen direkt aus den Daten, wie z. B. Tonhöhe, mittlere Wortdauer und Sprechgeschwindigkeit
Qualitative Analyse
Untersuchung von Sprachmustern und Wortwahl
Trainingsmodelle
- Training einfacher Machine Learning (ML)-Algorithmen und Deep Learning (DL)/Transformer-Modelle, um zu ermitteln, ob die sprechende Person dem autistischen Spektrum angehört oder nicht. Der Fokus liegt dabei nur auf Audiodaten oder nur auf Transkriptionsdaten. Um die besten Eigenschaften für die Modelle zu finden, wird ein Ablationsprozess durchgeführt.
- Training der gleichen Algorithmen und Modelle auf kombinierten Eigenschaften aus Audio- und Transkriptionsdaten. Ablationsprozess, um die beste Kombination von Eigenschaften zu erhalten, auf denen die Modelle trainiert werden können.
- Training geschlechtsspezifischer Modelle, um herauszufinden, ob dies die Leistung der Modelle verbessert. Wenn sich die Leistung verbessert, ist zu prüfen, ob der Unterschied signifikant ist.
Anwendung in der Praxis
Analyse, ob die genannten Merkmale in diagnostischen Situationen für Ärzte verwendet werden können, um ihren Diagnoseprozess zu verbessern.
Bisherige Schritte
Nach einer ausführlichen Literaturrecherche, konnten umfangreiche Forschungslücken identifiziert werden. Im Rahmen der Datenerhebung aus sozialen Medien wurden gezielt Influencer im relevanten Spektrum kontaktiert und um Erlaubnis gebeten, ihre öffentlichen Daten für Forschungszwecke verwenden zu dürfen. Diese systematische Vorgehensweise führte zu einem umfangreichen Datenkorpus von mehr als 282 Stunden weiblicher Daten und mehr als 107 Stunden männlicher Daten. Erste Ergebnisse konnten bereits veröffentlicht werden.
Parallel dazu wurde eine Prolific-Studie zur Erhebung vielfältigerer Daten eingerichtet, um die Forschungsbasis zu erweitern. Die entsprechende Umfrage wird derzeit feinjustiert und kann bald veröffentlich werden, nachdem die Finanzierung geklärt wurde. Zusätzlich wurde der Kontakt zu einem medizinischen Fachmann aufgenommen, um die interdisziplinäre Ausrichtung des Projekts zu stärken.
Ziel
Ziel ist es, Ärzten und Diagnostikern evidenzbasierte Werkzeuge zur Verfügung zu stellen, die eine präzisere und geschlechtersensible Diagnose von ASS ermöglichen und insbesondere die Erkennung von Autismus bei Frauen verbessern.
Literatur
Hans Asperger. 1944. Die „Autistischen Psychopathen“ im Kindesalter. Archiv für Psychiatrie und Nervenkrankheiten, 117(1):76-136.
Leo Kanner et al. 1943. Autistic disturbances of affective contact. Nervous child, 2(3):217-250.
Nadine Probol and Margot Mieskes. 2024. Autism detection in Speech – a survey. In Proceedings of EACL 2024, 1115-1125.
Nadine Probol and Margot Mieskes. 2025. Female Autism in Natural Language – A Corpus Paper. In Workshop Proceedings of the 19th International AAAI Conference on Web and Social Media (IWCSM 2025).