Technologie | Diversität

„Indigene Sprachen machen es KI nicht einfach“

Michael Running Wolf hat als Softwareingenieur am virtuellen Sprachassistenten Alexa mitgewirkt. Jetzt belebt er indigene Sprachen mit KI wieder

Herr Wolf, Sie leiten FLAIR, die First Language Initiative, am KI-Institut Mila in Montreal und wollen indigene Sprachen vor dem Aussterben retten. Was hat es damit auf sich?

Weltweit verlieren wir alle vierzehn Tage eine Sprache, und sechzig Prozent dieser Sprachen stammen aus Nordamerika. Das liegt vor allem daran, dass nicht genug Wissen von einer Generation an die nächste weitergegeben wird – und das hängt wiederum stark mit der Politik in den USA und Kanada zusammen.

Immerhin wurde hier lange versucht, indigene Sprachen auszulöschen. Etwa indem man meinen Eltern und Großeltern beibrachte, dass es nicht gut für sie sei, ihre eigene Sprache zu sprechen. Meine Generation ist die erste, die nicht in einer solch kulturfeindlichen politischen Landschaft aufgewachsen ist. Viele von uns wollen die Sprache unserer Vorfahren lernen. Doch mittlerweile findet man nur noch sehr wenige die sie sprechen.

Was hat KI damit zu tun?

Seit ich für Amazon an der Entwicklung von Alexa mitgearbeitet habe, fragte ich mich, warum wir diese Technologie nicht nutzen, um indigene Sprachen zu erhalten. Dann stieß ich auf ein Māori-Tech-Team, das genau das tat. Das hat mich inspiriert.

Ich habe mich gefragt: Was wäre, wenn ich ein Headset aufsetzen könnte und alles um mich herum wäre auf Chayenne hörbar? Selbst unser Gespräch. Wir sind hier in Montreal, das ist das Gebiet der Mohawk. Was wäre, wenn Angehörige dieser indigenen Gruppe hier leben könnten, als wäre es noch immer ihr Land? Wenn sie sich in ihrer Sprache unterhalten und in ihrer Gesellschaft leben könnten?

Wie würden Sie das anstellen?

In naher Zukunft wollen wir sogenannte APIs entwickeln, Software-Tools, mit deren Hilfe Smartphone-Apps mit Wissensarchiven oder bestehenden Sprachlernprogrammen in verschiedenen indigenen Gemeinschaften vernetzt werden können.

Unser mittelfristiges Ziel ist es, indigene Sprachen in das sogenannte Metaversum zu bringen und XR-Erfahrungen, also solche mit virtuell erweiterter Realität („Extended Reality“), zu kreieren. Stellen Sie sich vor, es gäbe verschiedene Gemeinschaften mit Hunderten von APIs, Spieleentwicklern und Personen, die an der Herstellung digitaler Artefakte interessiert sind. Das würde uns ganz neue Möglichkeiten eröffnen. 

Die Realität sieht jedoch noch anders aus – und gerade die großen Technologiekonzerne haben den Ruf, dass dort vor allem weiße Männer arbeiten. Deckt sich das mit Ihren Erfahrungen? Und steht das Ihrem Zukunftsszenario im Wege?

Im Prinzip ist das so, ja. Wobei es in der Belegschaft auch viele Menschen aus Indien, China und anderen Ländern gibt. Satya Nadella von Microsoft und Sundar Pichai, der Chef von Google, sind da durchaus repräsentativ für die Mitarbeiter.

Allerdings sind auch solche Personen oft durch eurozentrische Ideen geprägt. Zudem ist die Informatik laut der CRA-Taulbee-Studie, für die Daten von Colleges in ganz Nordamerika gesammelt werden, ein komplett von Männern dominiertes Fach; und indigene Menschen sind kaum vertreten. Ich selbst kenne weltweit nur zwölf indigene Informatiker, die im Bereich KI tätig sind.

„Die Menschen passen ihre Sprachkulturen und -muster an die Grenzen der KI an“

Welche Auswirkungen hat das auf die Entwicklung von KI, die sich mit Spracherkennung befasst?

Zum Beispiel, dass man mit Siri, Bixby oder Google Assistant nicht in einer indigenen Sprache reden kann. Von den weltweit rund 7.000 Sprachen kann unsere KI derzeit nur diejenigen erkennen, die Mandarin, Hindi und Englisch ähneln. Alle anderen Sprachen fallen durch das Raster.

Dazu kommt, dass KI-Anbieter ihre Nutzer oft darauf konditionieren, bestimmte Versionen von Englisch, Hindi, Deutsch oder Französisch zu sprechen, die die KI verstehen kann. Deshalb verschwinden mitunter nicht nur indigene Sprachen, sondern auch Dialekte aus der modernen Technologie. Die Menschen passen ihre Sprachkulturen und -muster an die Grenzen der KI an. 

Warum ist es für Spracherkennungssysteme wie Alexa oder Siri denn überhaupt so schwierig, indigene Sprachen zu verstehen?

Erstens fehlt es an Daten, da nur eine Handvoll Personen diese Sprachen fließend spricht. Eine so kleine Gruppe kann niemals Millionen Stunden an Audiomaterial einsprechen, die für diese Systeme in der Regel benötigt werden.

Deshalb müssen wir Lösungen finden bei denen kleine Datensätze ausreichen und man nur minimale Informationen über eine Sprache braucht, um Lernprogramme aufzubauen. Zweitens sind viele indigene Sprachen in Nordamerika unter phonetischen Aspekten, also vom Klang her, ganz anders strukturiert als westliche.

Sie haben eine spezielle Syntax und eine Grammatik, die es nur in hoch polysynthetischen Sprachen gibt. Ein Satz kann hier teils in einem einzigen Wort zusammengefasst werden. Daraus resultiert eine schier unendliche Anzahl potenzieller Wörter, die es der KI nicht gerade einfach macht. 

Wie lässt sich dieses Problem beheben?

Es wird keine Einheitslösung geben. Wir müssen stattdessen für jede der Gemeinschaften, mit denen wir zusammenarbeiten, eine eigene Strategie entwickeln. Aktuell sind es drei Communitys: die Saskatchewan im Nordwesten, die Kwakwaka’wakw in British Columbia und die Makah im US Bundesstaat Washington.

Wir befinden uns auch in ersten Gesprächen mit Indigenen in Südamerika und Mexiko. Bevor wir jedoch weiter expandieren können, müssen wir bestimmte technische Ziele erreichen.

Ist Sprache Ihrer Ansicht nach die Voraussetzung dafür, indigenes Wissen und indigene Stimmen auch in andere Bereiche der KI zu integrieren? 

Jede, wirklich jede Gemeinschaft in Nordamerika macht sich große Sorgen um die Sicherheit ihrer Sprache, weil Sprache Identität vermittelt – und sie bringt sie zusammen, wirkt verbindend.

Das ist ein guter Anreiz dafür, sich auf die Technologie einzulassen. Die Hälfte der KI-Experten und KI-Expertinnen, die ich kenne, beschäftigt sich mit natürlicher Sprachverarbeitung, kurz NLP. Fast allen Indigenen ist bewusst, dass unsere Sprachen in den nächsten zwanzig Jahren aussterben könnten. Und es gibt noch andere Probleme, wie den Klimawandel.

Ethnobotaniker machen sich Sorgen über die Sicherheit ihrer Pflanzen und ihrer Medikamente. Auch das ist beispielsweise ein lohnendes Feld für die KI und die Datenwissenschaft. Wir haben jetzt eine einmalige Gelegenheit, die Voraussetzungen für eine Art indigene Forschung zu schaffen, die sich sowohl mit dem Erhalt unserer Kultur befasst als auch mit ethischen Fragen. 

„Wenn es keine Verhaltensregeln  gibt, wird KI zu einem weiteren Mechanismus der Kolonisierung“

Um welche ethischen Grundsätze geht es Ihnen dabei?

Zum Beispiel Datensouveränität. Der Bedarf an großen Datenmengen führt in unserem Sektor oft dazu, dass Konzerne schnelle Lösungen anstreben. Etwa Daten zu kaufen, ohne genau zu wissen, woher sie stammen. 

Ist das nicht ein grundlegendes Problem aller KI-Systeme? 

KI-Systeme sind meiner Ansicht nach als Artefakt nicht an sich schlecht. Sie sind jedoch ein Mechanismus des Westens. Und wie bei allem wird KI, wenn es keine ethischen Verhaltensregeln oder dekolonialen Vorüberlegungen gibt, zu einem weiteren Mechanismus der Kolonisierung.

Jetzt wird an der Erkennung indigener Sprachen gearbeitet, aber mit Methoden, die gegen unsere Ethik verstoßen. Große Konzerne gehen wie ein koloniales Gebilde rein und ziehen Daten ab.

Wie könnte eine indigene Datensouveränität hergestellt werden?

Bei unserem KI-Projekt wollen wir natürlich auf keinen Fall irgendwelche Daten stehlen oder ohne Erlaubnis nutzen. Wir holen als Erstes die Zusage von denen ein, die uns ihre Daten geben, und treffen entsprechende Vereinbarungen.

Wir verwenden sie nur für unsere spezielle Forschung und können nichts anderes damit machen. Die Gemeinschaften haben außerdem die Freiheit, ihre Daten aus unserem Bestand zu entfernen, wenn sie das wollen. Das ist von zentraler Bedeutung. Entscheidend ist, gut mit vielen verschiedenen Gemeinschaften zusammenzuarbeiten und ihr Vertrauen zu gewinnen.

Sie betonen, dass es nur wenige indigene Menschen gibt, die im Bereich KI arbeiten. Lastet dadurch mehr Druck auf Ihnen?

Wir haben den Genozid überstanden und sprechen immer noch so wie früher und sehen immer noch so aus. Mir geht es in erster Linie darum, dafür zu sorgen, dass unsere Kultur auch in den kommenden Jahren und Jahrzehnten überlebt. Die Gesellschaft zu verändern, überlasse ich der nächsten Generation. Aus dem englischen von Claudia Kotte

Interview von Atifa Qazi
Aus dem Englischen von Claudia Kotte

Das Interview führte Atifa Qazi im Rahmen des Transatlantic Fellowships der Heinrich-Böll Stiftung