Der Beitrag generativer künstlicher Intelligenz zu Web Accessibility
ChatGPT & Co. sind derzeit noch immer in aller Munde. Viel ist bereits geschrieben worden über das Potenzial generativer künstlicher Intelligenz, doch kritische Überlegungen zu ihrem Nutzen für die Erhöhung des Zugangs zu Webinformation und -kommunikation sind bisher noch selten.
Mit dem Aufkommen von Textgenerierungsmodellen wie GPT (OpenAI), LLaMA (Meta) oder Gemini (Google), Bild-generierungsmodellen wie DALL-E (OpenAI), Stable Diffusion (Stability AI) oder Midjourney (Midjourney) und Videogenerierungsmodellen wie Sora (OpenAI) eröffnen sich auch für den Bereich der Zugänglichkeit von Webinformation und -kommunikation neue Möglichkeiten. So ist etwa ChatGPT ohne Weiteres in der Lage, einen Text zu vereinfachen, mit einem entsprechenden Prompt auch in mehrere Stufen. Tatsächlich kommen diese Texterzeugnisse flüssig daher, worin sich gerade die Stärke von Sprachmodellen widerspiegelt. Ihre Eignung für die anvisierte Benutzerschaft muss aber erst noch untersucht werden. So steht beispielsweise für den Anwendungsfall Textvereinfachung zu vermuten, dass die Vielzahl an Texten, aus denen grosse Sprachmodelle lernen, zu Ausgaben führen, die für die Zielleserschaft nicht ohne Weiteres leichter zu verstehen sind, dies aufgrund der Existenz mehrerer verschiedener Regelwerke zur Herstellung leicht verständlichen Deutschs. Rezeptionsstudien mit den Zielgruppen stehen noch aus.
Projekt IICT: Generative KI mit zusätzlichen Leitplanken
Die Strategie im Projekt "Inclusive Information and Communication Technologies" (IICT, www.iict.uzh.ch), das von der schweizerischen Innovationsagentur Innosuisse gefördert wird, sieht vor, mit dem Umsetzungspartner Capito die Prompts für ein Sprachmodell so anzusetzen, dass sie bereits wesentliche Guidelines zur Herstellung von leichter Sprache enthalten, und eine Nachbearbeitung der Sprachmodellausgabe vorzunehmen. Im Projekt IICT vertreten sind neben Capito fünf weitere Umsetzungs- und sechs Forschungspartner. Das Projekt läuft von März 2022 bis Februar 2026.
Ebenfalls Teil des Projekts ist die automatische Gebärdensprachübersetzung und -produktion, die im Bereich Web Accessibility bedeutende Fortschritte bringen könnte. Mit der Gebärdensprachübersetzung wird zum Beispiel ein deutscher Text in Poses – das sind Skelettrepräsentationen – der deutschschweizerischen Gebärdensprache überführt. Der Stand der Technologie erlaubt hier nur die Übersetzung von Texten, die bezüglich ihres Wortschatzes und ihrer Grammatik sehr eng gefasst sind, wie etwa Warnmeldungen. Solche Meldungen sind dynamisch und werden zu einer beliebigen Tages- und Nachtzeit übermittelt, weshalb der Einsatz von Technologie gerade für sie sinnvoll ist. Für statische Inhalte empfiehlt sich der Einsatz von menschlichen Expertinnen und Experten, in diesem Fall von Gebärdensprachübersetzenden.
Der Schritt der Gebärdensprachproduktion schliesslich überführt eine Pose-Sequenz in ein Video mit Gebärdensprache. Für diesen Schritt kommen bisweilen Bildgenerierungsmodelle zum Einsatz. Aktuelle Modelle weisen jedoch die Schwäche auf, dass sie die Hände, einen wichtigen Bestandteil des Gebärdens, nicht akkurat dar-stellen und dass die zeitliche Konsistenz einer Aneinanderreihung von Bildern noch nicht einwandfrei ist. Hier macht ein komplementärer Ansatz Sinn, bei dem die Hände beispielsweise durch ein separates Modell erzeugt und in der Ausgabe mit dem Rest des Körpers zusammengeführt werden.