SPRIND | Peakprofiling

Voice Biomarker

Von Mozart zur Krankheitserkennung mit KI-gestützter Stimmanalyse

Die Art und Weise, wie wir sprechen, vermittelt viel mehr als nur Worte: Klingen wir euphorisch oder gedämpft? Sind wir verschnupft oder heiser? Spricht ein Kind oder ein älterer Mensch? All das erkennt unser Gehirn mühelos in Sekunden durch die Art und Weise, wie jemand spricht. Das von Dr. Jörg Langner und Claudio Hasler gegründete Start-up PeakProfiling analysiert genau dies – das Wie der Stimme, sozusagen die Musik – und geht dabei noch einen Schritt weiter: Es werden nicht nur für das menschliche Ohr erkennbare Zustände erkannt, sondern auch viel komplexere Phänomene, insbesondere Erkrankungen. Mit solchen sogenannten Voice Biomarkers möchten die Gründer maßgeblich zur (Früh-)Erkennung von Krankheiten beitragen.

Startpunkt: Von Mozart zum Voice Biomarker

Jörg Langner, promoviert in quantitativer Musikwissenschaft und langjähriger Forscher an der Humboldt Universität zu Berlin, widmete sich bereits vor Jahrzehnten musikalischen Phänomenen und stellte sich unter anderem die Mozart-Frage: Warum ist Mozart so faszinierend? Es gibt auch andere hervorragende Komponisten, aber gerade seine Musik hat die Menschen immer besonders fasziniert. Ich habe nach einer mathematischen Lösung gesucht, um solche komplexen musikalischen Fragestellungen beantworten zu können, erinnert sich Langner.

Noch bevor maschinelles Lernen ein Breitenthema wurde, stellte der leidenschaftliche Wissenschaftler und Musikfan fest, dass seine Untersuchungen auch auf Gesang und schließlich auf Sprache projizierbar sind. In der Folge widmete sich Langner der Erforschung der menschlichen Stimme in einem industriellen Kontext: Über ein Jahrzehnt führte er kommerzielle Auftragsforschung durch, unter anderem für DAX-Unternehmen wie große deutsche Automobilkonzerne. Themen waren in dieser Zeit beispielsweise Müdigkeits- und Emotionserkennung anhand der Stimme.

2017 lernte er Claudio Hasler kennen, einen ehemaligen Google-Mitarbeiter und zu diesem Zeitpunkt hochrangigen Manager in der Arzneimittelindustrie. Hasler sah in dem Ansatz enormes Potential und schloss sich mit Langner zusammen. 2018 entstand die PeakProfiling GmbH. Bald kamen weitere Mitstreiter an Bord, insbesondere Experten für Künstliche Intelligenz, um Langners außergewöhnliche Kerntechnologie mit modernsten KI-Verfahren zu kombinieren.

Bis heute wurde in hunderten von medizinischen Studien eindeutig gezeigt, dass die Stimmerkennung von vielen Erkrankungen grundsätzlich möglich ist.

Auch im universitären Umfeld stieß das Thema Voice Biomarker zunehmend auf Interesse: Allein auf dem Medizinportal PubMed finden sich mittlerweile fast 500 Studien dazu. Stimmliche Biomarker sind besonders interessant, weil sie im Vergleich zu anderen digitalen Biomarkern wie Bewegungsmessungen, Schlaf-Tracking oder Pulsmessung für eine breite Anzahl von Erkrankungen im Labor nachweislich hohe Trefferquoten liefern und gleichzeitig durch die einfache Nutzung über das Telefon nahezu allen Menschen zugänglich sind. Hasler präzisiert: Wir sehen Voice Biomarker als die Speerspitze der digitalen Biomarker, die zukünftig durch weitere Marker ergänzt werden.

Trotz der guten wissenschaftlichen Validierung steht derzeit der Sprung vom Labor hin zu einem relevanten Einsatz in der medizinischen Praxis noch aus. Grund dafür ist die massiv steigende Komplexität beim Wechsel in die Praxis – oder wie Hasler es ausdrückt: Die Realität ist vielschichtig und komplex. Es gibt zahlreiche Einflussvariablen, die dazu kommen, wenn man den Schritt vom Labor in die medizinische Praxis macht: Begleiterkrankungen, die sich überlagern, Einfluss von Medikamenten, verschiedene Aufnahmegeräte, schwankende Mikrofonabstände, unterschiedliche Sprachaufgaben, Sprachen und Dialekte, gute oder schlechte Tage der Patienten oder verrauschte Daten mit Hintergrundlärm, um nur die wichtigsten zu nennen. Diese Komplexität zu beherrschen, das ist die größte Herausforderung und ein langer Prozess.

Unterstützt von SPRIND hat PeakProfiling in Zusammenarbeit mit der Charité und dem Forschungszentrum Jülich Aufgabenstellungen im Bereich Stimmerkennung von Depression bearbeitet, die deutlich näher an die Komplexität der medizinischen Praxis heranreichen. Entsprechende Veröffentlichungen sind auf dem Weg. Gerade im Bereich der Depression können Voice Biomarker zukünftig einen großen Mehrwert liefern: Die Versorgungslage bei Depression ist selbst in Deutschland bekanntermaßen angespannt – von weniger entwickelten Ländern ganz zu schweigen. Der größte Teil der Menschen mit Symptomen hat überhaupt keine Diagnose. Die ärztliche Diagnostik ist aufwendig und würde genauer, wenn sie auf harte Biomarker zurückgreifen könnte. Kommt es zur Behandlung, wäre ein engmaschiges Monitoring wichtig, kann aber durch beschränkte Ressourcen nur schwer geleistet werden. Im Ergebnis erleidet ein Großteil aller Patienten einen Rückfall. An all diesen Stellen der ‚Patientenreise‘ könnte eine einfache und regelmäßige Messung über Stimmbiomarker wertvolle Unterstützung für Patienten und Ärzte leisten. PeakProfiling ist auf diesem Weg weit vorangekommen. In Kürze soll der Status als Medizinprodukt erreicht werden – zunächst für ADHS, dann für weitere Erkrankungen.

Fokus heute: Medizinproduktezulassung

Die Komplexität zu meistern und den Sprung vom Labor zum Durchbruch in der Praxis als Erste zu schaffen, das ist die Ambition von PeakProfiling. Ein einzigartiger technologischer Ansatz soll dies ermöglichen: die Kombination von musik-wissenschaftlichen Erkenntnissen mit Künstlicher Intelligenz – PeakProfiling spricht von Musicology AI.

Hasler erläutert: Wir befinden uns in einem Feld, in dem Trainingsdaten knapp sind: Wir schätzen, dass 95 Prozent der akademischen Studien mit N < 100 arbeiten, also mit weniger als 100 Probanden. Herkömmliche KI-Ansätze können hier wenig ausrichten – sie bräuchten Tausende oder besser Millionen von Daten. Klassisch versucht man dies zu lösen, indem man vorgibt, welche Merkmale, ‚Features‘, im Signal per Machine Learning auf Muster untersucht werden sollen. Dabei nutzt das akademische Feld einige wenige Toolboxen mit den immer gleichen, aus unserer Sicht recht limitierten Merkmalen. Dieser Ansatz kann allerdings die komplexen, praxisrelevanten Probleme bisher nicht generalisierbar lösen. Vor dem Hintergrund des Erfolges von generativer KI, zum Beispiel ChatGPT, geht zudem der Trend dahin, mit großen nicht-medizinischen Datensätzen Modelle vorzutrainieren und diese dann im letzten Schritt an unsere medizinischen Fragestellungen anzupassen. Auch hier gibt es viel Potential für den Durchbruch.

PeakProfiling verfolgt beide Stoßrichtungen, allerdings mit einem entscheidenden Unterschied: Musikalisches Wissen wird als Input genutzt, um die KI vereinfacht gesagt in ihrer Mustersuche zu unterstützen. Technisch gesprochen: Auf der klassischen ML-Route nutzen wir viel komplexere, musikwissenschaftlich geprägte Features. Im Bereich der generativen KI liefern uns musikalische Repräsentationen effizienteren Input.

Die große Zukunftsvision

Neben der Spezialisierung auf einzelne Erkrankungen wie Depression könnte die Software zukünftig auch als breites Screening-Tool funktionieren. Wir glauben, dass man in Zukunft viele Krankheiten schon früh über die Stimme erkennen kann. Unsere Schätzungen liegen aktuell bei rund 100 Erkrankungen (500 ICD-Codes), für die Voice Biomarker relevant sein werden. Die wissenschaftliche Studienlage deckt heute schon ein breites Feld an Erkrankungen ab – neurologische Themen wie Parkinson und Alzheimer, psychiatrische Erkrankungen wie Depression oder posttraumatische Belastungsstörung, respiratorische Krankheiten wie Asthma oder COPD, um nur einige zu nennen, führt Claudio Hasler aus.

Die längerfristigen Ausbaumöglichkeiten sind daher enorm: Natürlich ist das ‚bold‘ – aber langfristig sehen wir die Chance, für bis zu 100 Erkrankungen mit unseren Voice Biomarkern einen Mehrwert zu liefern. Wenn man sich beispielsweise die zehn Erkrankungen anschaut, die die meisten Todesopfer nach sich ziehen, dann können sieben davon perspektivisch sicher an der Stimme erkannt werden und zwei weitere mit hoher Wahrscheinlichkeit. 27 Millionen Todesfälle pro Jahr sind dadurch potentiell weltweit verhinderbar – und dazu wollen wir beitragen.

Doch selbst an dieser Stelle wird der technologische Fortschritt weitergehen. Danach gefragt, wohin denn eine solche Entwicklung überhaupt noch führen kann, antwortet Hasler: irgendwann in der Zukunft werden wir in unserem Bereich vermutlich eine ‚Allgemeine Künstliche Klang-Intelligenz‘ erleben, die weit über medizinische Anwendungen hinausgeht. Diese Technologie wird in der Lage sein, jede Art von Klang dieser Welt zu analysieren, zu interpretieren und zu generieren – sei es die Lautäußerung von Menschen, Maschinen, Instrumenten oder Umweltgeräusche. Wir sind überzeugt davon, dass hierfür musikalische Prinzipien letztlich eine Schlüsselrolle spielen werden.

Mehr zur PeakProfiling GmbH: peakprofiling.com

Sprind und PeakProfiling

SPRIND Podcast #77: Claudio Hasler

Was sind Voice Biomarkers? Welche Erkrankungen lassen sich mit Stimmbildern diagnostizieren? Und wann werden KI-getriebene Stimm-Diagnose-Systeme in Kliniken in den Einsatz kommen? Unser Host Thomas Ramge spricht mit Claudio Hasler, Co-Gründer des Berliner Medtech-Startups PeakProfiling.

Zur Podcastfolge