Eine KI spricht Nahuatl
Auch lateinamerikanische Datensätze sind oft für nicht durchlässig für marginalisierte Perspektiven
Grafik: Julia Neller
Ein Mittwoch im Stadion, April 2024. João Antônio Trindade Bastos, von Beruf Personal Trainer, schaut sich in Sergipe, dem kleinsten Bundesstaat Brasiliens, ein Fußballmatch an, als ihn plötzlich die Polizei aus der Menge fischt, durchsucht und für ein Verhör in Gewahrsam nimmt. Eine Gesichtserkennungssoftware hat den schwarzen Mann als gesuchten Straftäter identifiziert. Er hat aber nie eine Straftat begangen. Die mit Künstlicher Intelligenz arbeitende Software hat ihn mit einem Kriminellen verwechselt.
Auf der anderen Seite der Anden stellten chilenische Software- Entwickler beim Testen von ChatGPT fest, dass das System auf Fragen zur chilenischen Gegenwartsliteratur den Schriftsteller Pablo Neruda ins Spiel brachte, obwohl dieser 1973 starb. Außerdem halluzinierte es Bücher, die es gar nicht gibt. In einem Fall wird durch einen Irrtum eine Existenz gefährdet, im anderen die Gegenwartskultur verzerrt dargestellt. Beide Beispiele beweisen: Wenn man KI-Systeme hauptsächlich im globalen Norden entwickelt und mit Gesichtern mit überwiegend hellerer Hautfarbe trainiert, werden schwarze Menschen algorithmisch unsichtbar oder austauschbar. Wenn Sprachmodelle primär mit englischsprachigem Input angelernt werden, gerät Lateinamerikas kulturelle Produktion ins Abseits. Lateinamerikanerinnen und Lateinamerikaner nutzen KI-Systeme, die ein falsches Bild ihrer Kultur zeichnen. Zugleich verschärft sich die Abhängigkeit von dieser Technologie Tag für Tag.
Vor diesem Hintergrund erklärte der chilenische Präsident Gabriel Boric: „Die digitale Zukunft muss auch unsere Sprache, mit unseren Stimmen sprechen und für unsere Menschen gemacht sein.“ Damit benannte er sowohl einen Mangel als auch ein Ziel: den Versuch, eine KI-Infrastruktur zu schaffen, die den Bedürfnissen lateinamerikanischer Bürgerinnen und Bürger wirklich gerecht wird. Deshalb entwickeln derzeit Dutzende Institutionen und Fachleute aus mehreren Ländern der Region unter der Leitung des chilenischen CENIA (Centro National de Inteligencia Artificial) das Large Language Model (LLM) Latam-GPT. Seit 2023 arbeitet man an diesem offenen Modell. Latam-GPT soll die KI-Kapazitäten der Region stärken und die Abhängigkeit von Modellen aus anderen Teilen der Welt reduzieren. In das Projekt sind Organisationen aus ganz Lateinamerika und der Karibik eingebunden. Die brasilianische Regierung ist mit an Bord, weitere Länder bekundeten ihr Interesse.
Latam-GPT soll sich deutlich von anderen, globalen Modellen unterscheiden, die primär mit englischsprachigen Daten und entsprechenden Sichtweisen gefüttert werden und oft wenig mit der Lebenswirklichkeit in Lateinamerika zu tun haben. Latam-GPT ist darauf angelegt, den Kontext, die Kultur und die Vielfalt der Region zu „verstehen“. Für die Entwicklung des ersten lateinamerikanischen LLM, das auf der Open-Source- Architektur llama drei mit bis zu siebzig Milliarden Parametern basiert, steht ein Budget von rund 3,5 Millionen US-Dollar zur Verfügung – ungefähr ein Sechzigstel der Summe, die Google in Gemini Ultra investierte. Latam-GPT arbeitet mit einer verteilten Trainingsinfrastruktur, bei der das regionale Hochleistungsrechner-System der Universität von Tarapacá in Chile mit Cloud-Kapazitäten von Amazon Web Services (AWS) kombiniert wird. Ein pragmatischer Ansatz: Einerseits wird die Rechenleistung von AWS genutzt, andererseits bleibt die regionale Infrastruktur gewahrt, die eine zentrale Rolle auf dem Weg zur angestrebten technologischen Souveränität spielt. Zu den Förderern des Projekts gehören auch die Lateinamerikanische Entwicklungsbank und Data Observatory, eine gemeinnützige, staatlich unterstützte Organisation in Chile zur gemeinwohlförderlichen Verwaltung großer Datenmengen.
„Latam-GPT soll Wissen über die Atzeken und Inka miteinbeziehen“
Latam-GPT ist vollständig als Open-Source-Plattform konzipiert. Da alle Codes und Modelle unter offenen Lizenzen veröffentlicht werden, ist die KI transparent und kann von der Bevölkerung kontrolliert sowie von Hochschulen, staatlichen Stellen, Unternehmen und zivilgesellschaftlichen Organisationen genutzt werden. Neben Spanisch, Portugiesisch und Englisch gibt es eine regional ausgerichtete KI-Engine, die Anwendungen wie personalisierte Lernsysteme, virtuelle Assistenten für den öffentlichen Sektor, Digitalisierungsinstrumente für Kulturarchive sowie Übersetzungstools für indigene Sprachen unterstützt. In Latam-GPT werden so auch zum Beispiel die Sprachen Nahuatl, Quechua und Mapudungun eingebunden. Zuverlässig für kulturelle Vielfalt der Trainingsdaten zu sorgen und Wissen über alte Völker wie Azteken und Inka einzubeziehen, bezeichnete CENIA-Chef Alvaro Soto in einem Interview mit der Zeitschrift „Wired“ als eine Arbeit, die „niemand sonst erledigt“.
Die größte Herausforderung bei dem Projekt sind die Daten. Da CENIA nicht über eigene Datenquellen wie Google und andere Konzerne verfügt, kooperiert man mit insgesamt mehr als dreißig Forschungseinrichtungen, staatlichen Institutionen, Archiven, Bibliotheken, Hochschulen, gesellschaftlichen Organisationen, Verlagen und Filmproduktionen, die Daten beisteuern. Weitere Partner sollen noch dazustoßen. Brasilien und Mexiko liefern den Löwenanteil der Trainingsdaten. Das macht die Herausforderung deutlich, vor der jedes auf regionale Souveränität abzielende Projekt steht: Es ist die Frage, wie sich eine wirklich repräsentative Technologie entwickeln lässt, wenn Ungleichheit in der Region sehr tief verwurzelt ist. Die großen Volkswirtschaften Lateinamerikas wie Mexiko und Brasilien können mehr Daten beisteuern, reproduzieren dabei aber auch Ungleichheit. Im Vergleich dazu haben Uruguay, Paraguay, Ecuador und einige mittelamerikanische Länder infolge ihrer jeweiligen historischen Entwicklungen weniger Hochschulen und kleinere digitalisierte Archive. Würde man, um dem entgegenzuwirken, das von Brasilien und Mexiko beigetragene Datenvolumen künstlich begrenzen, würde das Modell insgesamt geschwächt. Wie kann man zuverlässig dafür sorgen, dass in lateinamerikanischen Projekten kleine Länder nicht ins Abseits gedrängt werden?
Für dieses Problem gibt es keine schnelle Lösung. Schon 2019 erklärte Paola Ricaurte, Professorin am Fachbereich Medien und Digitalkultur am Tecnológico de Monterrey in Mexiko und Fakultätsmitglied des Berkman Klein Center der Harvard University in den USA: „Datensätze verstärken historische Formen der Kolonialisierung, indem sie Praktiken, Materialitäten, Territorien, Körper und Subjektivitäten zu einem komplexen Arrangement zusammenfügen.“ Als Aktivistin gründete Ricaurte deshalb das Netzwerk Tierra Común, das die spiegelbildliche Beziehung zwischen Datengewinnung und einer Art kolonialen Ressourcenextraktion unter die Lupe nimmt. So hat Brasilien zwar nicht die lateinamerikanische KI kolonisiert, sondern es verfügt einfach aufgrund seiner Größe und Wirtschaftskraft über mehr Hochschulen und digitalisierte Archive. Der Kolonialismus macht sich jedoch auf andere Weise bemerkbar: Tarcízio Silva, Fellow bei der Mozilla Foundation, spricht von einem „algorithmischen Rassismus“. Diesen definiert der Brasilianer als „neue Ausprägung von strukturellem Rassismus, bei der die Mächtigen mithilfe von Maschinen oder Kameras oder einem Bildschirm-Interface diskriminieren können“. Der Ausgangspunkt für Silvas Forschung zu der Frage, wie Algorithmen Minderheiten schaden können, ist Brasilien. Dort stellen Schwarze und Menschen, die sich als „pardo “, also von gemischter Abstammung, sehen, mit 54 Prozent Anteil an der Gesamtbevölkerung die Mehrheit dar. Aber was den Zugang zum Internet betrifft, sind sie stark benachteiligt und unterrepräsentiert. Nach Angaben des brasilianischen Internet-Lenkungsausschusses haben nur 22 Prozent der über zehnjährigen Brasilianerinnen und Brasilianer einen zufriedenstellenden Zugang zum Internet. Dabei sind die Prozentzahlen bei Menschen mit schwarzer Hautfarbe oder gemischter Abstammung, die in benachteiligten Verhältnissen und in kleineren Städten leben, noch niedriger. Auch in anderen lateinamerikanischen Ländern sind, was schriftliche Aufzeichnungen und Zugang zu Informationen anbelangt, privilegierte Gruppen überrepräsentiert.
„Frauen in Lateinamerika sind doppelt ausgegrenzt“
Allen strukturellen Herausforderungen zum Trotz ist man mit Latam-GPT dabei, etwas ganz Besonderes zu entwickeln. Das zeigt sich zum Beispiel an der Zahl der in das Projekt eingebundenen Partner. Diese institutionelle Vielfalt ist essenziell, weil es darum geht, dass auch möglichst diverse regionale Organisationen am Aufbau einer kollektiven Infrastruktur mitwirken. Viele der größten KI-Modelle, die es heute gibt, legen nicht vollständig offen, woher sie ihre Trainingsdaten bekommen. Demgegenüber veröffentlicht Latam-GPT seine Quellen. Diese Transparenz ist eine direkte Antwort auf das, was Paola Ricaurte und andere Wissenschaftlerinnen als eines der Kernprobleme einer Art Datenkolonialismus ausmachen: die Undurchsichtigkeit. Wenn man weiß, woher die Daten kommen, kann man kritisch beleuchten, wessen Sichtweisen sie transportieren und wessen Sichtweisen sie ausklammern. Zudem stellt das Latam-GPT-Team sicher, dass alle sensiblen personenbezogenen Informationen anonymisiert werden. Eine Kuratierung von Daten unter ethischen Gesichtspunkten ist für die CENIA einer der wichtigsten Beiträge, die das Projekt leistet. Das ist nicht nur eine technische Frage, sondern eine politische Entscheidung. Eine solche Kuratierung bedeutet, dass gefragt wird, wessen Daten einbezogen, wie diese kontextualisiert werden und welche Schäden durch Anonymisierung abgewendet werden können. Diese Sorgfalt lassen kommerzielle Modelle im Kampf um die Marktbeherrschung in der Regel vermissen. Für das Latam-GPT-Team ist die Datenqualität wichtiger als das Datenvolumen. Es wacht darüber, wie stark die Regionen repräsentiert werden, damit nicht ein Land den Korpus der Trainingsdaten dominiert. Sobald erkennbar werde, dass ein Land unterrepräsentiert ist, suche das Team sich ebendort proaktiv Partner, erklärt CENIA-Chef Álvaro Soto.
Die Entwickler haben sich auch eine thematische Vielfalt vorgenommen. Politik, Sport, Kunst und andere Bereiche sollen so abgedeckt werden, dass das ganze Spektrum der lateinamerikanischen Lebenswirklichkeit abgebildet wird und nicht nur die Felder, die sich am leichtesten digitalisieren lassen. Dieses Bemühen um Ausgewogenheit basiert auf dem Bewusstsein, dass strukturelle Ungleichheit zwangsläufig zu einer unausgewogenen Datenlage führt. Damit geht man mit Latam-GPT grundsätzlich anders vor, als das für kommerzielle Modelle gilt, für die der Maßstab die Optimierung des Datenvolumens ist und nicht die Repräsentationsgerechtigkeit. Wenn eine KI hauptsächlich mit Informationen in den Regionalsprachen trainiert wird, lernt sie regionale Sprachlogiken, idiomatische Ausdrücke und kulturelle Zusammenhänge kennen, die von englisch dominierten Modellen oft nicht erfasst oder falsch übersetzt werden. Alexandra García, Projektspezialistin bei CENIA, testete zum Beispiel vor einigen Jahren ein kommerzielles KI-Modell, indem sie fragte: „Wie isst man Sopaipillas in Chile?“ Sie erhielt die Antwort, dass es sich bei dem typischen Gericht um frittiertes Brot mit Honig handele, stattdessen sind es frittierte Scheiben aus Kürbisteig, die mit Senf, Chilisauce oder Sirup serviert werden. „Das mag wie eine Kleinigkeit klingen, aber das Modell hat sich geirrt – und das sagt viel darüber aus, für wen es entwickelt wurde“, erklärte García gegenüber dem US-Radiosender „The World“. Diese Sorgfalt ist auch wichtig für praktische Anwendungen. Etwa wenn das Modell genutzt wird, um – mit Blick auf die jeweiligen örtlichen Gegebenheiten – die Schulabbrecherquote zu senken oder im öffentlichen Gesundheitswesen für kürzere Wartezeiten zu sorgen. Für solche regionalen Aufgaben braucht es ein Verständnis der sozialen Dynamiken vor Ort; eine hohe Rechenleistung allein reicht da nicht aus.
Wegen seiner begrenzten Kapazitäten ist davon auszugehen, dass Latam-GPT seine Stärken schwerpunktmäßig im sozial- und geisteswissenschaftlichen Bereich entfalten wird. Das muss nicht unbedingt als Nachteil gelten, sondern kann auch ein zentraler strategischer Aspekt sein. Dennoch kommt das Modell an den infrastrukturellen Realitäten nicht vorbei. Paola Ricaurte, die auch das Lateinamerikanische Feministische KI-Forschungsnetzwerk und das Team des „AI Decolonial Manyfesto“ leitet, ist der Meinung, dass bei der Entwicklung von KI „feministische Werte und die Bedürfnisse der lokalen Gemeinschaften“ im Fokus stehen müssen. In diesem Zusammenhang bringt sie den Begriff der Pluriversalität ins Spiel. Damit ist gemeint, dass viele verschiedene Möglichkeiten des Wissens integriert werden und nicht nur eine Perspektive eingenommen wird. Das ist deswegen essenziell, weil sich die Vorurteile, die im Allgemeinen die KI prägen, summieren, wenn ein unverhältnismäßig großer Teil der Trainingsdaten aus dem globalen Norden stammt, von Männern generiert wird und entsprechende Perspektiven dadurch als universal gesetzt werden. Für lateinamerikanische Frauen bedeutet diese doppelte – geografische und genderbezogene – Ausgrenzung, dass ihre Lebenswirklichkeiten von bestehenden KI-Tools oft nicht begriffen werden. Vor diesem Hintergrund wird sich der Erfolg von LatamGPT nicht danach bemessen, ob es komplexe Gleichungen so schnell berechnen kann wie GPT-5 von OpenAI. Es wird vielmehr darum gehen, eine Infrastruktur auf- und auszubauen, bei der mehr Gleichheit mit Blick auf marginalisierte Länder und Menschen herrscht. Dabei muss der Fokus vor allem auf zwei Aspekten liegen: Zum einen ist es zentral, sich gegen die Dominanz aus dem globalen Norden zur Wehr zu setzen. Zugleich muss das Ziel sein, auch historisch gewachsene Ungleichheiten zu verringern, die zwischen Ländern des globalen Südens und innerhalb ihrer Bevölkerungen bestehen.
Aus dem Englischen von Andreas Bredenfeld