Menschen mit Sprachbehinderung kommunizieren schon heute über technische Hilfsmittel. Künftig könnten sie dank künstlicher Intelligenz ihre eigene, persönliche Stimme generieren.
Wenn wir in ein paar Wochen unsere Stimme zur Bundestagswahl abgeben, dann müssen wir dafür nicht mit unserer tatsächlichen, physischen Stimme sprechen – ein einfaches Kreuz setzen reicht. Aber an dieser Terminologie wird deutlich, dass „eine Stimme haben“ im Deutschen viel mehr meint als nur die Fähigkeit, verständliche Laute von sich zu geben. „Eine Stimme zu haben“ bedeutet, wahrgenommen zu werden; einen Platz im gesellschaftlichen Diskurs zu haben und diesen aktiv mitzugestalten.
Was aber ist mit Menschen, die keine Stimme haben? Die wegen einer Behinderung, Erkrankung oder eines Unfalls nicht stimmlich kommunizieren können? Ihnen bleiben viele Formen der gesellschaftlichen Teilhabe verwehrt: Menschen ohne Stimme fällt es schwer, am Geschehen teilzunehmen oder überhaupt wahrgenommen zu werden. Viele von ihnen nutzen deshalb schon lange technische Hilfsmittel zur Kommunikation, insbesondere computergestützte Sprachsysteme. Künstliche Intelligenz könnte diesen Menschen künftig auf eine besondere Weise Gehör verschaffen – dank der rasanten Fortschritte in der Generierung synthetischer Stimmen.
Profitieren könnten davon Menschen wie Kathrin Lemler. Die 36-jährige Rehabilitationswissenschaftlerin lebt und arbeitet in Köln. Aufgrund einer Behinderung kann sie ihre Muskeln nicht kontrolliert bewegen, was sich auf ihren gesamten Körper auswirkt. Sie ist auf einen Rollstuhl angewiesen und kommuniziert nicht per Stimme, sondern mit den Augen: so steuert sie einen Sprachcomputer oder verwendet Alternativen zur Lautsprache. Deshalb hat sie bereits unangenehme Erfahrungen gemacht, erzählt sie bei einem Treffen Mitte August in ihrer Kölner Wohnung: „Sprache hat auch viel damit zu tun, für voll genommen zu werden. Menschen, die mich zum ersten Mal sehen, unterschätzen mich oft.“ Diesen Satz spricht ihr Assistent David Strenzler für sie aus, dem sie über ein Buchstabiersystem mit den Augen zu verstehen gibt, was sie sagen will.
Ein zwölfjähriges Mädchen mit einer Männerstimme?
Neben dieser Form der direkten Kommunikation über vertraute Menschen, nutzt Kathrin Lemler, die als Expertin für Unterstützte Kommunikation regelmäßig Vorträge hält, außerdem ihren augengesteuerten Sprachcomputer. Dieser steht genau vor ihr und erinnert an ein überdimensioniertes Tablet. In Sekundenschnelle huschen ihre Augen über das Display, um ein Wort zu buchstabieren. Mit einer Infrarotkamera misst das Gerät ihre Augenbewegungen und ermöglicht ihr so die Eingabe von Textbefehlen. Über den eingebauten Lautsprecher verleiht der Computer Kathrin Lemler schließlich die Fähigkeit, ihre Gedanken mit einer computergenerierten Stimme laut auszusprechen. Seit sie zwölf Jahre alt ist, nutzt Lemler stimmbasierte, elektronische Kommunikationshilfen. „Damals noch mit einer Männerstimme, weil man Frauenstimmen vor 20 Jahren noch nicht so gut verstehen konnte", sagt sie.
Kathrin Lemler 2019 bei einem Vortrag.
Ein zwölfjähriges Mädchen, das mit einer Männerstimme spricht? Das klingt erstmal absurd. Tatsächlich ist diese seltsame Verzerrung aber lange Teil der Lebensrealität von Personen gewesen, die auf synthetische Stimmen angewiesen sind. So nutzten auch viele andere Menschen jahrelang dieselbe elektronische Stimme, mit der Stephen Hawking weltberühmt wurde. Das fiel auch Rupal Patel auf. Die Professorin für Sprachwissenschaften an der Bostoner Northeastern University fragte sich, wie es sein könne, dass Millionen von Menschen mit derselben Handvoll generischer Stimmen kommunizierten. Also gründete sie 2014 das Unternehmen VocaliD. Die Mission: Menschen eine möglichst individuelle, bestenfalls sogar ihre eigene, synthetische Stimme zu verleihen.
Einzigartige, synthetische Stimmen dank KI
Aber wie funktioniert das? Auch Menschen mit schweren Sprachbehinderungen können oft ureigene Laute von sich geben. Die Tonalität dieser Laute kombiniert VocaliD mit Sprachproben von Spender:innen, die dasselbe Geschlecht, sowie ein ähnliches Alter und eine entsprechende Körpergröße haben. Mithilfe von Stimmenspenden und künstlicher Intelligenz können die Forscher:innen von VocaliD auf diese Weise persönliche und einzigartige Stimmen erzeugen. „Es heißt, Blut zu spenden kann Leben retten. Seine Stimme zu spenden, kann Leben verändern.”, erklärte Rupal Patel ihren persönlichen Antrieb für das Projekt in einem TED-Talk vor einigen Jahren.
Davon können aber nicht nur Menschen profitieren, die gar nicht stimmlich kommunizieren können, sondern auch Personen, die aufgrund einer Erkrankung fürchten müssen, ihre Stimme zu verlieren. Beim sogenannten „Voice Banking“ können sie eine synthetische Version ihrer eigenen Stimme speichern und später auf sie zurückgreifen, wenn sie auf vokale Assistenztechnologie angewiesen sind. Die Technologie ist mittlerweile so ausgereift, dass sogar Synchronsprecher:innen ihre Stimme synthetisch klonen lassen, um mehr Aufträge annehmen zu können und sich obendrein abzusichern. VocaliD ist eines von mehreren KI-Stimm-Unternehmen weltweit, die diesen Service anbieten.
Auch der US-amerikanische Schauspieler Val Kilmer, bekannt aus Filmen wie Topgun und Batman, dessen Stimme infolge einer Kehlkopfkrebs-Operation ihre Kraft verloren hatte, hat diese kürzlich klonen lassen. Auf Basis von nur 30 Minuten Filmmaterial konnten die Audio-Ingenieur:innen des britischen Start-ups Sonantic ein Computermodell der natürlichen Stimme von Kilmer errechnen. Dazu bereinigten sie das Material von Hintergrundgeräuschen und verknüpften die Audiospur mit dem Transkript des Gesagten. So konnte das Programm Rückschlüsse darüber ziehen, in welcher Stimmlage Kilmer bestimmte Emotionen ausgedrückt hat. Eine Hörprobe seiner neuen, synthetischen Stimme klingt so verblüffend echt und natürlich, dass man kaum glauben kann, dass es sich um eine computergenerierte Stimme handelt.
Entwicklungen wie diese zeigen deutlich, welches immense Potenzial in stimmbasierter Technologie steckt. Die menschliche Stimme ist eigentlich sehr persönlich und intim. An ihrer Tonalität erkennen wir bekannte Menschen wieder, hören heraus, wie es ihnen geht und verstehen aufgrund kleinster Nuancen, ob es ihnen gerade bitterernst ist oder ob sie vielleicht doch nur scherzen. Dass solche Zwischentöne technisch zunehmend auch durch synthetische Stimmen ausgedrückt werden können, bietet für Menschen ohne Stimme also eine besondere Chance der Teilhabe, wie sie ihnen durch bisherige Assistenzsysteme verwehrt geblieben ist. Insbesondere dann, wenn ihre computergenerierte Stimme ihre ureigene und individuelle Stimme sein kann. Damit die Technologie Menschen tatsächlich eine Stimme im gesellschaftlichen Sinne verleiht, muss sie auch überall dort ankommen, wo sie gebraucht wird. Doch das gestaltet sich derzeit noch schwierig.
Die Technologie muss zugänglicher werden
Die disruptivsten Innovationen im Bereich stimm- und sprachbasierter KI-Anwendungen entstehen nämlich nach wie vor auf Englisch. So sind beispielsweise intelligente Sprachverarbeitungsprogramme wie GPT-3 für die englische Sprache bereits sehr ausgereift – für andere Sprachen steht die Entwicklung aber noch am Anfang. Das Heidelberger Start-up Aleph Alpha möchte das ändern und zum europäischen Pendant des US-amerikanischen KI-Pioniers OpenAI werden, von denen der mächtige GPT-3-Algorithmus stammt. Dafür sammelte Aleph Alpha kürzlich 23 Millionen Euro bei Investoren ein. Der Markt für europäische Sprach-KI ist groß. Bis sich die entsprechenden Anwendungen aber im weniger lukrativen Bereich der stimmbasierten Assistenztechnologie niederschlagen, der bisher vor allem auf Datenspenden angewiesen war, könnte es noch dauern.
Auch Kathrin Lemler würde sich über eine eigene, individuelle Stimme für ihren Sprachcomputer freuen, allerdings wartet sie bereits seit Jahren auf ein entsprechendes Angebot für die deutsche Sprache. „Bis jetzt kenne ich in Deutschland nur eine Firma, die individuelle Stimmen anbietet, aber die hat sich auf Menschen spezialisiert, denen der Sprachverlust erst noch droht”, sagt sie. „Der Chef hat mir vorgeschlagen, die Stimme meiner Mutter aufzunehmen.” Lemler lehnte dankend ab: Die Vorstellung, mit der Stimme eines Elternteils zu sprechen, erschien ihr dann doch zu gruselig.
Derweil sorgen synthetische Stimmen derzeit eher für ethische Debatten. Schließlich kann die mächtige Technologie auch missbraucht werden und gegen den Willen von Personen eingesetzt werden, deren Stimmen sie klont. Für eine größere Kontroverse sorgte der Einsatz einer synthetischen Stimme zuletzt in einem Dokumentarfilm über den 2018 verstorbenen US-amerikanischen Starkoch Anthony Bourdain. Der Film soll drei künstlich erzeugte Aussagen von Bourdain enthalten; ohne, dass dies gekennzeichnet oder mit den Hinterbliebenen abgesprochen wurde. An dem Fall ist eine leidenschaftliche Debatte über den ethischen Umgang mit der Technologie entbrannt. Sollte diese künftig immer einfacher zugänglich werden, birgt das auch größere Risiken des Missbrauchs – wovor bereits seit Jahren in der Diskussion um Deepfakes gewarnt wird.
Das ändert aber nichts daran, dass dieselbe Technologie Menschen, die mit Assistenzsystemen sprechen, riesige Chancen eröffnet. Aber ähnlich wie bei der Bekämpfung der Klimakrise wird Technologie alleine die Sprachbarrieren für diese Menschen nicht nachhaltig lösen können. Solche Innovationen können ihnen zwar mehr Teilhabe ermöglichen. Damit sie aber auch im gesellschaftlichen Kontext „eine Stimme haben“, muss sich auch gesellschaftlich etwas ändern.
Titelbild: Tobii AB