THINK Blog DACH

GenAI und ihre Risiken: So werden KI-Anwendungen vertrauenswürdig, nachhaltiger und portabel
By | Brand Leader Data & AI, IBM Technology Expert Labs DACH
November 28, 2023

ChatGPT, Dall-E, Midjourney & Co. haben das Potenzial von GenAI aufgezeigt, aber auch die Risiken. Urheberrechts- und Datenschutzfragen sind ungeklärt, ebenso können KI-Systeme voreingenommene...

ChatGPT, Dall-E, Midjourney & Co. haben das Potenzial von GenAI aufgezeigt, aber auch die Risiken. Urheberrechts- und Datenschutzfragen sind ungeklärt, ebenso können KI-Systeme voreingenommene (Bias) oder erfundene (Halluzination) Informationen generieren. Ihr Einsatz im Unternehmensumfeld muss deshalb verantwortungsvoll erfolgen. Entscheider stehen vor der Herausforderung, die Vertrauenswürdigkeit und Rechtssicherheit der leistungsstarken Helfer zu gewährleisten.

Was sind aktuell die größten Risiken?

  • Rüpelhafte Bots
    GenAI-basierte Anwendungen versprechen Produktivitätsvorteile. Dieses Potenzial können Unternehmen aber nur erschließen, wenn ihre Systeme rechtssicher, vertrauenswürdig, transparent und fair arbeiten. Die großen Basismodelle, einschließlich des Sprachmodells hinter ChatGPT, wurden anhand von Daten aus dem Internet trainiert. Das begrenzt ihre Eignung für geschäftliche Zwecke. In einigen Fällen kam es zu bizarren Zwischenfällen mit Chatbots: Die KIs beleidigten Nutzer, gaukelten Fakten vor, machten Journalisten Heiratsanträge oder verstiegen sich gar zu Vergleichen mit Hitler. Unternehmen, die rufschädigenden Ausrastern ihrer KI-Systeme vorbeugen wollen, sollten diese deshalb immer mit sorgfältig kuratierten und anwendungsspezifischen Datensätzen trainieren.
  • CO2-Fußabdruck
    Viele KI-Modelle sind nicht unbedingt mit unternehmensspezifischen Emissionsschutzzielen oder ESG-Kriterien kompatibel: Bereits 2019 kam eine Studie der University of Massachusetts zu dem Ergebnis, dass das Training eines einzigen KI-Modells so viel CO₂ erzeugt wie fünf Autos über ihre gesamte Lebensspanne hinweg. Denn Deep Learning-Verfahren sind energieintensiv und erfordern sehr viel Rechenleistung. Laufende Anpassung und Einsatz eines großen Modells schlagen ebenfalls in der Emissionsbilanz zu Buche. Um wirtschaftlich profitabel und ökologisch sinnvoll zu sein, müssen die Modelle zunächst kleiner werden und Ressourcen effizienter nutzen.
  • Portabilität
    Ein entscheidendes Kriterium für businesstauglichen KI-Einsatz ist die Portabilität. Unternehmen müssen KI-Workflows nahtlos und sicher zwischen öffentlichen und privaten Clouds verschieben können. Erst, wenn sie KI-Daten sicher auf eigenen oder geleasten Servern speichern und verarbeiten können, steht der Implementierung nichts mehr im Wege.

Alter Wein in neuen Schläuchen oder echter Paradigmenwechsel?

KI als Technologie ist nicht neu. Der Erfolg von GenAI-Modellen, der den enormen Hype des vergangenen Jahres befeuerte, beruht auf dem Aufkommen von so genannten Transformern. Dabei handelt es sich um Deep-Learning-Modelle, die mit riesigen Mengen nicht kategorisierter Rohdaten trainiert werden. Anstatt viele Modelle mit kategorisierten und aufgabenspezifischen Daten zu trainieren, trainiert man ein großes, auf einem Transformer basierendes Modell, um es mit etwas Feintuning für die unterschiedlichsten Zwecke einsetzen.

Solche Foundation-Modelle übernehmen GenAI-Aufgaben wie Übersetzungen, Zusammenfassungen oder das Erstellen realistischer Inhalte, die wie von Expertenhand gemacht aussehen. Transformer-Modelle bergen jedoch die beschriebenen Risiken. Für den geschäftlichen Einsatz müssen sie zuverlässiger, energieeffizienter und portabler werden. Für Unternehmen sind sie dennoch attraktiv, denn im Vergleich zu unternehmensspezifischen Modellen sparen sie Kosten.

„Trustworthy AI“: Vertrauen ist alles

Um den Einsatz von GenAI-Modellen trotz der bekannten Risiken sicher zu ermöglichen, hat IBM die nächste Generation seiner IBM Watson Plattform entsprechend weiterentwickelt. Das Komplettpaket IBM watsonx adressiert die drei genannten Schwachpunkte und ermöglicht so den sicheren, vertrauenswürdigen und gesetzeskonformen Einsatz im Unternehmensumfeld.

Denn generative Modelle wie das Open-Source-Modell BLOOM, OpenAIs ChatGPT oder Googles Modell PaLM sind für viele Aufgaben grundsätzlich hervorragend geeignet. Unternehmen sollten ihre KI-Entscheidungen jedoch auf unternehmensrelevante Daten und nicht zum Beispiel auf zufällige Threads auf Reddit stützen. Die Datenkuratierung ist daher der erste Schritt beim Aufbau eines vertrauenswürdigen Modells.

Beschimpfungen und Bias vermeiden

Selbst, wenn das Modell mit Unternehmensdaten trainiert wird, müssen die Daten vor dem Training auf unerwünschte Inhalte gefiltert werden. Gibt es zu wenig reale Datensätze (zum Beispiel, weil Gesundheitsdaten, Finanzdaten und andere durch Datenschutz- oder Urheberrechtsgesetze geschützte Inhalte nicht genutzt werden können) schaffen synthetische Daten Abhilfe, die echte Daten ergänzen oder ersetzen können.

Das Lernen mit menschlichem Feedback (Reinforcement Learning with Human Feedback, RLHF) trainiert Modelle für sichere, bessere und natürlichere Dialoge. Für das zusätzliche Tuning hat IBM mehrere benutzerfreundliche Methoden entwickelt, um beispielsweise Voreingenommenheit (Bias) im Modell zu identifizieren. Eine Methode, FairIJ, identifiziert Datenpunkte mit dem größten Bias in den Trainingsdaten. Eine andere, FairReprogram, reprogrammiert das Modell durch Anpassen des Inputs, um Vorurteile oder tendenziöse Ansichten zu korrigieren.

Mit kuratierten Daten trainierte Foundation-Modelle

IBM watson.ai bietet als Teil von watsonx eine Reihe von Foundation-Modellen, Trainings- und Tuning-Tools. Dazu gehört auch eine Bibliothek, die Nutzern einen einfachen Zugriff auf von IBM kuratierte und trainierte Basismodelle ermöglicht. Die IBM Foundation-Modelle verwenden einen großen, kuratierten Satz von Unternehmensdaten, die bereits gefiltert und bereinigt wurden. Sie werden nicht nur auf Sprache trainiert, sondern können auch für Coding, Zeitreihendaten, Geodaten oder IT-Ereignisdaten genutzt werden.

Ein erster Satz von Basismodellen steht ausgewählten Kunden in einer Beta-Version zur Verfügung. Dazu gehören:

  • fm.code – Modelle, die durch Eingabe von natürlicher Sprache automatisch Code generieren und damit Programmierer bei der Software-Entwicklung oder dem Finden von Fehlern im Code unterstützen.
  • fm.NLP – Diese Sammlung großer Sprachmodelle (Large Language Models – LLMs) basiert auf bereits kuratierten Daten für spezifische Anwendungsfelder und kann zusätzlich durch kundenspezifische Daten erweitert werden.
  • fm.geospatial – Ein Katalog kuratierter Klima- und Fernerkundungsdaten. Damit können Unternehmen Muster in Klimaveränderungen, Biodiversität, Landnutzung und anderen geophysikalischen Faktoren erkennen, die sich auf ihre Geschäftsmodelle auswirken.

Zusätzlich zu den IBM-eigenen Modellen bietet watsonx.ai Zugang zu einer großen Auswahl von Open-Source-Modellen, die Unternehmenskunden zusätzlich nutzen können. Dank einer neuen Partnerschaft mit Hugging Face wird IBM Tausende von Open-Source-Modellen, Datensätzen und Bibliotheken der Hugging Face Foundation in watsonx.ai anbieten. Damit verfügen Kunden über eine große Auswahl an KI-Modellen und Trainingsdaten, auf denen sie verlässliche KI-Lösungen aufbauen können.

Klimafreundlichere KI: Ressourcenverbrauch reduzieren

IBM und andere Tech-Unternehmen arbeiten daran, dass leistungsfähige KI-Modelle kleiner werden können. Das Forschungsprojekt DeepMind hat kürzlich gezeigt, dass ein kleineres Modell, das mit mehr Daten trainiert wurde, ein viermal so großes Modell, das mit weniger Daten trainiert wurde, übertreffen kann. Der in watsonx integrierte IBM Cloud Carbon Calculator stellt Kunden ein Dashboard zur Verfügung, mit dem sie die Kohlenstoffemissionen ihrer Aktivitäten in der Cloud messen, nachverfolgen und bei Bedarf anpassen können.

Energieeinsparpotenzial liegt auch in der Weiterentwicklung. Ein Modell kann viermal schneller trainiert werden, indem man die Parameter seiner kleineren, früheren Version wiederverwendet. Hier kommt etwa der „LiGO“-Algorithmus zum Einsatz. Er analysiert die Parameter-Gewichtung des kleinen Modells, um zu lernen, wie man es „wachsen“ lässt. Dann überträgt er die Gewichtung auf das größere Modell und spart so 40 bis 70 Prozent der Kosten, Zeit und Emissionen, die sonst für das Training anfallen.

Portabilität: KI-Workloads sicher bewegen

Cloud-Plattformen teilen Arbeitslasten auf und verarbeiten sie parallel. Das beschleunigt Training und Inferenz. Viele Unternehmen führen KI-Workloads dennoch auf privaten Systemen aus, etwa, weil sie vertrauliche Daten schützen müssen. IBM hat ein Cloud-natives Softwarepaket geschnürt, das KI-Modelle überall ausführen kann. Es baut auf RedHat OpenShift auf und kann in der Cloud und auf lokal laufenden KI-Systemen eingesetzt werden. Unternehmen, die ihre Daten hausintern speichern, können ihre Modelle so auch vor Ort trainieren und anpassen.

watsonx hilft, die drei größten Problemfelder zu beherrschen

IBM watsonx verfügt über weitere Funktionen und Erweiterungen, die die Vorteile generativer KI-Systeme für Unternehmen erschließen und ihren vertrauenswürdigen Einsatz ermöglichen. Entscheidend ist, aber, dass die eingangs beschriebenen Hauptproblemfelder adressiert werden. Damit werden GenAI-Systeme und Foundation-Modelle fit für den vertrauenswürdigen Einsatz in Unternehmen.

Article Categories