THINK Blog DACH

Wie Linguistik und IBM Watson die Mensch-Maschine-Konversation natürlicher werden lassen
November 24, 2020

Sprache ist ambig, d.h. mehrdeutig. In der Linguistik sprechen wir von Disambiguierung, wenn wir einer sprachlichen Einheit, z. B. einem Satz oder einem Wort, Kontext verleihen und ihr damit zu...

Sprache ist ambig, d.h. mehrdeutig. In der Linguistik sprechen wir von Disambiguierung, wenn wir einer sprachlichen Einheit, z. B. einem Satz oder einem Wort, Kontext verleihen und ihr damit zu einer eindeutigeren Bedeutung verhelfen. In menschlicher Kommunikation greifen wir auf vielfältige Strategien zurück, um Mehrdeutigkeit aufzulösen. So spielen beispielsweise die Gesprächssituation, der situative Kontext, der Bekanntheitsgrad unter den Konversationspartnern – aber auch nonverbale Signale – eine wichtige Rolle bei der Disambiguierung. In der KI-unterstützten Mensch-Maschine-Kommunikation, zum Beispiel mit einem Chatbot, beginnt Disambiguierung zunächst beim NLU-Training („Natural Language Understanding“), indem Trainingsdaten für unterschiedliche Intents (definierte Sprachabsichten) so ausgewählt werden, dass sie der Maschine dazu verhelfen, Bedeutungen zu unterscheiden. Immer wenn die Unterscheidung auf rein sprachlicher Ebene nicht möglich ist, ist es technisch notwendig, den weiteren Gesprächsverlauf so zu konzipieren, dass er Nutzer_innen letztendlich eine spezifische Aussage, d.h. eine eindeutige Intention entlockt. Im Linguistik-basierten Konversationsdesign orientieren wir uns hierbei an der Logik und dem natürlichen Verlauf von Konversationen und bringen Technologie entsprechend zum Einsatz.

Bei der Umsetzung eines FAQ-Chatbots im Service-Bereich haben wir eine Kombination aus linguistisch konzipiertem NLU-Training und dem Watson-Disambiguierungsfeature gewählt. So ermöglichen wir Nutzer_innen auf sprachlicher wie visueller Ebene eindeutige Aussagen in einem möglichst natürlichen Gesprächsverlauf. Gleichzeitig war es uns wichtig, aus diesen Disambiguierungsschritten keinen automatisierten Verlauf werden zu lassen, um einzelnen Nutzer_innen die Chance zu lassen, eine möglichst individuelle Mensch-Maschine-Konversation mit dem Chatbot zu führen und dabei nicht bevormundet zu werden.

Für Fragen rund um die Uhr erreichbar: FAQ-Chatbots

Menschen haben rund um die Uhr Fragen zu Produkten und Services. Heutzutage gibt es viele Möglichkeiten, diese Fragen zu stellen und Kund_innen geben sich dabei nicht mehr mit einer Erreichbarkeit von 8 bis 17 Uhr zufrieden. Zeitliche Verfügbarkeit, Nicht-Linearität und eine ansprechende Aufbereitung von Informationen, die sich jedem Anliegen individuell anpassen, sind demnach essenzielle Zutaten für eine lösungsorientierte Kommunikation mit Nutzer_innen.

Es gibt vielfältige Einsatzmöglichkeiten von Chatbots, beispielsweise im Maschinenbau, der Luftfahrt oder im Versicherungswesen. Für ein Unternehmen haben wir einen FAQ-Chatbot umgesetzt, der alle Infos und Links von Webseiten des Unternehmens bündelt, die Service-Hotline entlastet, indem er wiederkehrende Fragen beantwortet oder auf menschliche Service-Mitarbeitende verweisen kann. Dabei war es nötig die Anzahl der potenziell erkannten Fragen durch intelligente Zusammenlegung zu verschlanken sowie trotz vieler ähnlich formulierter Fragen jederzeit die relevanteste Antwort zu präsentieren.

Ähnliche Fragen unterscheidbar machen oder einfach nachfragen

Ein Chatbot muss verstehen, was Nutzer_innen sagen, aber vor allem, was sie meinen. Insbesondere im FAQ-Bereich gibt es viele Anfragen, die in Wortwahl und Satzbau sehr ähnlich sind, aber eine andere Lösungsantwort verlangen. „Wie kann ich ein Konto eröffnen?“, „Welche Unterlagen brauche ich, um ein Konto zu eröffnen?“, „Wie alt muss ich mindestens sein, um ein Konto zu eröffnen?“, „Welche Unterlagen brauche ich für einen Kredit?“, „Wie kann ich ein Konto schließen?“. Ein Mensch kann diese Fragen mühelos unterscheiden, in der Mensch-Maschine-Konversation muss ein Chatbot lernen, dass Sätze mit einer fast vollständigen syntaktischen und lexikalischen Übereinstimmung eben nicht dasselbe meinen.

Nun könnte einfach eine lange und ausführliche Antwort bestimmt werden, die alle Anfragen zum Thema Kontoeröffnung generisch abdeckt. Das wäre weder nutzerfreundlich noch natürlich. Wenn ein Mensch mit einer mehrdeutigen Frage konfrontiert wird, fragt er nach, anstatt alles, was er zu dem Thema weiß, zu erzählen. Hierzu muss ein System wie IBM Watson durch intelligentes Training, ausbalancierte User-Utterances und sinnvolle Intents dazu gebracht werden, Nutzer_innen die richtigen Antworten zu präsentieren oder durch ein Gespräch darauf hinzuleiten.

Mit mehrdeutigen Fragen umgehen

Menschen kommunizieren oft nicht eindeutig. Gesprächspartner müssen über Nachfragen, Empathie, pragmatischen Kontext oder anderes individuelles Wissen an den Inhalt und an die eigentliche Absicht des Gesagten gelangen, wie in unserem ersten Beispiel zu sehen ist:

IBM_Mensch-Maschine_Bsp1_500px

 Ambiger Mensch-Mensch Dialog im Servicebereich (ohne Kenntnisse des Konversationspartners)

Aussagen wie „Ich habe ein Problem mit meiner Bankkarte“ lassen nicht unmittelbar eine einzige Lösung zu. Servicemitarbeitende müssen hier nachfragen, was genau das Problem ist. Wenn ein Chatbot nur eindeutige Fragen beantwortet, dann wäre ein Gespräch ermüdend und zudem nicht natürlich, da es sich von menschlicher Kommunikation stark unterscheiden würde, wie unser zweites Beispiel zeigt:

IBM_Mensch-Maschine_Bsp2_500px

Ambiger Mensch-Bot-Dialog ohne Disambiguierung

Durch eine Nachfrage oder das Anbieten von wahrscheinlichen Lösungen werden uneindeutige oder stichpunktartige Anfragen disambiguiert, also aufgelöst. Das zeigt Beispiel drei für eine Mensch-Maschine-Konversation:

IBM_Mensch-Maschine_Bsp3_500px

Ambiger Mensch-Bot-Dialog mit Disambiguierung

Konversation ist individuell

Das Disambiguierungsfeature von IBM Watson kann bei uneindeutigen oder sehr kurzen Anfragen also nachfragen: Was meinten Sie genau: A, B, C oder D? Das System kann auch dazulernen und so Nutzer_innen innerhalb eines Themengebietes durch Auto-Learning besser verstehen. Hierbei lernt der Chatbot, welche der gegebenen Antworten besonders häufig gewählt wurde und verschiebt so die Wahrscheinlichkeit eines erkannten Intents, also eines Lösungsvorschlages. Dies ist bei menschlicher Kommunikation nicht anders. Freunde brauchen mitunter nur ein Wort, um sich untereinander zu verständigen, was in anderem Kontext wiederum nicht ausreicht.

Ein öffentlicher Chatbot soll sich keine Individuen merken, da er auf Mehrheiten reagiert, also das individuelle Anliegen aus den Augen verliert, wie im nächsten Beispiel zu sehen ist. Erst mit größeren Datenmengen und innerhalb eines wenig detaillierten Themengebiets, kann ein Chatbot mit Vorhersagen zum Gesprächsverlauf arbeiten.

IBM_Mensch-Maschine_Bsp4_500px

Ambiger Mensch-Bot Dialog mit automatischem Lernen ohne große Datengrundlage

Der Konversationsverlauf sollte für Nutzer_innen nachvollziehbar sein

In der aktuellen Disambiguierungsfunktion von IBM Watson werden die präsentierten Antwortmöglichkeiten standardmäßig randomisiert. In unserem konkreten Anwendungsfall haben wir uns jedoch dazu entschieden, die Randomisierung auszuschalten, um Nutzer_innen stets die wahrscheinlichste Antwortmöglichkeit im Gespräch vorzuschlagen. Zudem wollten wir die Positionen der vorgeschlagenen Antworten konstant halten, um Nutzer_innen bei wiederkehrenden Anliegen nicht zu verwirren.

Dank Disambiguierung: eine möglichst natürliche Mensch-Maschine-Interaktion

Für unseren konkreten Anwendungsfall, den FAQ-Chatbot, ist die IBM Watson Disambiguierung ohne Randomisierung und ohne Auto-Learning ideal. Thematisch können sich die Anliegen von Nutzenden stark unterscheiden, aber sie können auch syntaktisch und lexikalisch fast identische Eingaben enthalten, was auf den großen und differenzierten FAQ-Bereich zurückzuführen ist. Wir wollten erreichen, dass die Mensch-Maschine-Interaktion mit dem Chatbot möglichst natürlich ist und Nutzer_innen auf ihre Anfragen immer zuerst die wahrscheinlichste Antwort erhalten. Im Falle von uneindeutigen oder allgemeinen Nutzereingaben kommt die Disambiguierung zum Einsatz und präsentiert durch Nachfragen mögliche Antworten passend zum jeweiligen Anliegen und dem Gesprächsverlauf. Hier haben Nutzer_innen die Chance, ihre Aussage zu spezifizieren, ganz so, wie im natürlichen Gespräch.

Article Categories