Datenqualität bei digitalen KI Assistenten am Beispiel von ÖPNV Haltestellendaten

In diesem Artikel geht es um die Qualität von ÖPNV Daten und deren Einsatz bei KI Sprachassistenten und AI Chatbots. Versprochen, es ist spannender als es klingt!

In dem Artikel Wie versteht eigentlich ein digitaler Assistent was ich meine? wurde thematisiert, wie digitale Assistenten befähigt werden natürliche Sprache zu verstehen. Ebenfalls wurde das Konzept der Intentionen und Entitäten als Datengrundlage für Chat- oder Sprachassistenten angesprochen. Darin ist auch hervorgehoben, dass die Natural Language Understanding (NLU) Engine (Der Teil des Computerprogramms, der den Text verarbeitet und auswertet) mit möglichst vielen Daten trainiert werden muss, damit sie Erfahrungen wie ein echtes Gehirn sammeln kann. Zum einen sind das Beispielsätze, um die Absicht (Intention) des Nutzers zu erkennen und zum anderen sind es die Entitäten, also die wichtigen im Satz vorkommenden Wörter.

Beispielsatz mit Markierungen zu Intention und Entitäten

Im ÖPNV Bereich ist eine der wichtigsten Entitäten die Haltestelle. Im einfachen Beispiel können wir händisch wie in Wie versteht eigentlich ein digitaler Assistent was ich meine? einige Haltestellen eintragen.

Beispiel zur Entität Haltestelle

Doch in einer echten Anwendung kommt es darauf an, dass die Daten vollständig und aktuell sind. Ein händisches Pflegen ist somit ausgeschlossen. Wie gut, dass es ein zentrales Haltestellenverzeichnis (https://zhv.wvigmbh.de/Account/Login.aspx) gibt. Dieses Verzeichnis ist ein Kooperations- und Partnerkonzept der DELFI e.V.. Ein Verein aus Verkehrsunternehmen und -verbünden sowie branchenzugehörigen IT-Dienstleistern mit dem Ziel der Stärkung des öffentlichen Nah- und Fernverkehrs und des Kundennutzens durch Verbesserung der Harmonisierung, Durchgängigkeit und Interoperabilität von Serviceangeboten im Verkehr (vgl. https://www.delfi.de/de/strategie-technik/). Im zentralen Haltestellenverzeichnis (zHv) befinden sich aktuell (Stand: 09.2020) 265.922 Haltestellen. Das ist ja schonmal ein Ansage!

Schauen wir uns mal ein paar Daten an.

Beispieldaten aus dem Haltestellenverzeichnis

Top! Da müssen wir also nur alle Haltestellennamen als Einträge für die Entität “Haltestellen” eintragen und fertig.

Gif von Lisa Simpsons die ein großes Kreuzwortrtäsel gelöst hat

Informatik kann ja so einfach sei...
...
...
… Moment! Und was sind das für Haltestellennamen?

Beispieldaten von Haltestellennamen
Gif eines Minion, welches "whaaat" fragt
Beispiele von uneindeutigen Haltestellennamen

Was soll man nun damit anfangen? Das ist alles Andere als “natürlichsprachlich“.

Keep Calm And Use Synonyms

Einzelne Einträge der Entitäten können durch Synonyme erweitert werden. Somit sollte unser digitaler Assistent eine Haltestelle verstehen, auch wenn ein Synonym dafür genannt wurde. Doch was müssen wir alles als Synonyme anlegen? Hier wird es schwieriger. Zum einen sagt oder schreibt keiner Klammern. Abkürzungen sollten wir in Varianten ebenfalls auch als ausgeschriebene Wörter anbieten. Besonders gut wird die NLU-Engine, wenn wir auch regional gängige Bezeichnungen für die Haltestelle aufnehmen. Ein prominentes Beispiel hierfür findet sich in München. Wenn ich zum Stachus möchte, so ist eigentlich die Haltestelle Karlsplatz gemeint.

Synonyme verschiedener Haltestellen
Demo 1 - Erkennung von Synonymen

Wir verwenden zur Demonstration den selben Aufbau wie in Wie versteht eigentlich ein digitaler Assistent was ich meine?.

Demo eines Sprachassistenten der eine Haltestelle durch Synonyme erkennt

In beiden Beispielen, sehen wir, dass das Synonym genannt, aber der korrekte Haltestellenname erkannt wird.

Haltestellen Synonyme im Vergleich zu korrekten Bezeichnungen

Jawoll! Wir haben unserem digitalen Assistenten Synonyme für Entitäten beigebracht und somit die Qualität stark verbessert!

Gif von Borat der sich freut

Die Unzulänglichkeiten von Sprache zu Text

Nun haben wir bisher immer nur in den Chat etwas geschrieben. Die NLU hatte somit bereits Text, den sie verarbeiten kann. Wir sprachen aber davon, dass der Bereich digitaler Assistenten mindestens Chatbots und Sprachassistenten umfasst. Sprachassistenten werden, wie der Name schon vermuten lässt, nicht mit Text, sondern mit Sprache bedient.

In den Demonstrationen verwenden wir eine ChatApp. Wir bauen den digitalen Assistenten jedoch als Middleware auf. Middleware bedeutet, dass die Software zentral über das Internet von verschiedenen Quellen angefragt werden kann. Dadurch haben wir den großen Vorteil, dass die ChatApp nur eine von vielen möglichen Anwendungen ist, mit der Nutzer mit dem digitalen Assistenten in Kontakt treten können. Solange natürlichsprachlicher Text in die Middleware gesendet wird, können wir mit dem digitalen Assistenten jeder Anwendung eine Antwort liefern.

Schaubild der Zusammenhänge von Clients/Touchpoints mit der Middleware

Hier sind beispielhaft ein paar “Clients/Touchpoints” aufgeführt. Chatbots über den Facebook Messenger, WhatsApp oder unsere ChatApp sind genauso möglich wie eine Telefonanbindung, Google Assistent oder Alexa. Die drei Letztgenannten müssen, bevor sie mit der Middleware kommunizieren können, Sprache in Text (Speech To Text - STT) umwandeln. Hierzu nutzen die Hersteller der “Produkte“ ihre eigenen Lösung. Somit ist die Qualität der Textumwandlung auch unterschiedlich. Das ist ein Problem für unsere Haltestellennamen! Bei Wörtern die im Wörterbuch der entsprechenden Sprache vorkommen hat keine STT-Engine ein Problem. So wird das Wort Rathaus gut von Sprache zu Text umgewandelt. Es gibt aber Haltestellennamen wie:

Beispieldaten von komplizierten Haltestellennamen

Dass die Poccistraße italienisch ausgesprochen wird und nicht wie im Deutschen eher zu erwarten "Pockistraße", kann die STT-Engine des jeweiligen Herstellers nicht wissen. Daher wird die STT-Engine aus der italienisch korrekt ausgesprochenen Haltestelle eher so etwas wie Pottschistraße machen. Diese wird dann an den digitalen Assistenten weitergegeben. Leider haben wir solch einen Haltestellennamen aber nicht. Hier helfen uns wieder die …



… Richtig! Synonyme! Wir müssen solche STT-Fehler glätten, indem wir die Liste der Synonyme der Haltestellen erweitern. Dann wird der Haltestellenname und somit die Haltestelle wieder richtig erkannt.

Fazit

Wir konnten nun sehen, dass ein digitaler Assistent verbessert werden kann, indem er Synonyme für seine Entitäten erhält. Zum einen benötigt er Synonyme, weil Haltestellennamen nicht immer “natürlichsprachlich“ sind und zum anderen, weil die STT-Engines Fehler beim Übersetzen von Sprache zu Text machen. Am Anfang des Artikels konnten wir feststellen, dass ein händisches Pflegen bei der Menge an Haltestellendaten nicht sinnvoll ist und wir daher froh sind, eine Quelle wie beispielsweise das zentrale Haltestellenverzeichnis zu haben. Mit dem Wissen jetzt sollten wir da ein wenig differenzierter draufschauen, denn eine solche Datenbasis mit Synonymen zu den Haltestellen existiert nicht. Hier müssen Wege und Möglichkeiten gefunden werden, diese Daten anzureichern. Wir verwenden dazu bereits automatische Algorithmen, die Synonyme für Haltestellennamen generieren, jedoch kann das nur ein Puzzleteil von vielen sein, wie man die Qualität hier verbessern kann. Der Teufel steckt, wie bei so vielen Dingen, im Detail!

Kurz zusammengefasst

What is Webflow and why is it the best website builder?

Vitae congue eu consequat ac felis placerat vestibulum lectus mauris ultrices. Cursus sit amet dictum sit amet justo donec enim diam porttitor lacus luctus accumsan tortor posuere.

What is your favorite template from BRIX Templates?

Vitae congue eu consequat ac felis placerat vestibulum lectus mauris ultrices. Cursus sit amet dictum sit amet justo donec enim diam porttitor lacus luctus accumsan tortor posuere.

How do you clone a template from the Showcase?

Vitae congue eu consequat ac felis placerat vestibulum lectus mauris ultrices. Cursus sit amet dictum sit amet justo donec enim diam porttitor lacus luctus accumsan tortor posuere.

Why is BRIX Templates the best Webflow agency?

Vitae congue eu consequat ac felis placerat vestibulum lectus mauris ultrices. Cursus sit amet dictum sit amet justo donec enim diam porttitor lacus luctus accumsan tortor posuere.

When was Webflow officially launched?

Vitae congue eu consequat ac felis placerat vestibulum lectus mauris ultrices. Cursus sit amet dictum sit amet justo donec enim diam porttitor lacus luctus accumsan tortor posuere.

How do you integrate Jetboost with Webflow?

Vitae congue eu consequat ac felis placerat vestibulum lectus mauris ultrices. Cursus sit amet dictum sit amet justo donec enim diam porttitor lacus luctus accumsan tortor posuere.

What is Webflow and why is it the best website builder?

Vitae congue eu consequat ac felis placerat vestibulum lectus mauris ultrices. Cursus sit amet dictum sit amet justo donec enim diam porttitor lacus luctus accumsan tortor posuere.

What is your favorite template from BRIX Templates?

Vitae congue eu consequat ac felis placerat vestibulum lectus mauris ultrices. Cursus sit amet dictum sit amet justo donec enim diam porttitor lacus luctus accumsan tortor posuere.

How do you clone a template from the Showcase?

Vitae congue eu consequat ac felis placerat vestibulum lectus mauris ultrices. Cursus sit amet dictum sit amet justo donec enim diam porttitor lacus luctus accumsan tortor posuere.

Why is BRIX Templates the best Webflow agency?

Vitae congue eu consequat ac felis placerat vestibulum lectus mauris ultrices. Cursus sit amet dictum sit amet justo donec enim diam porttitor lacus luctus accumsan tortor posuere.

When was Webflow officially launched?

Vitae congue eu consequat ac felis placerat vestibulum lectus mauris ultrices. Cursus sit amet dictum sit amet justo donec enim diam porttitor lacus luctus accumsan tortor posuere.

How do you integrate Jetboost with Webflow?

Vitae congue eu consequat ac felis placerat vestibulum lectus mauris ultrices. Cursus sit amet dictum sit amet justo donec enim diam porttitor lacus luctus accumsan tortor posuere.

Entdecken
Zurück zur Stories-Übersicht
Startet euer Projekt mit uns!
Wir freuen uns auf euch!
Bild vom Geschäftsführenden Gesellschafter Henrik Johannsen
Deine Ansprechperson
Henrik Johannsen
Kontakt
Eine Gruppe Projektionisten auf der Digital X 2024
Eine Gruppe Projektionisten auf der Digital X 2024
Teaser Bild der Story oder des Projektes
Eine Gruppe Projektionisten auf der Digital X 2024
Herbst der Fachveranstaltungen – wir sind unterwegs!
Herbst der Fachveranstaltungen – wir sind unterwegs!
Herbst der Fachveranstaltungen – wir sind unterwegs!
Herbst der Fachveranstaltungen – wir sind unterwegs!
Digitale KI Assistenten

Seit mehreren Jahren beschäftigen wir uns intensiv mit den Möglichkeiten und Potenzialen von Anwendungen, die auf Künstlicher Intelligenz (KI – auch “AI” für “Artificial Intelligence” genannt) basieren. Digitale Assistenten sind mittlerweile zu einer unserer Kernkompetenzen geworden. Die technischen Möglichkeiten entwickeln sich stetig weiter, und wir sind bestrebt, diese Fortschritte in neuen Projekten zu integrieren und eigene KI-Produkte zu entwickeln. Mit diesem Fokus werden wir uns diesen Herbst auf folgenden Veranstaltungen tummeln:

EntdeckenEntdecken
Entdecken
Ein Mensch im Dialog mit einem KI-Roboter
Ein Mensch im Dialog mit einem KI-Roboter
Teaser Bild der Story oder des Projektes
Ein Mensch im Dialog mit einem KI-Roboter
Vortrag "KI-Sprachauskunft – Ein Einblick in die Praxis" auf der Kontiki-Konferenz in Berlin
Vortrag "KI-Sprachauskunft – Ein Einblick in die Praxis" auf der Kontiki-Konferenz in Berlin
Vortrag "KI-Sprachauskunft – Ein Einblick in die Praxis" auf der Kontiki-Konferenz in Berlin
Vortrag "KI-Sprachauskunft – Ein Einblick in die Praxis" auf der Kontiki-Konferenz in Berlin
Digitale KI Assistenten

Unser Teamleiter für digitale KI-Assistenten Marcel Kaufmann hatte das Privileg, auf der renommierten 77. Kontiki Konferenz in Berlin einen Vortrag über KI-Sprachauskunft zu halten. Bei dieser Veranstaltung konnte er unsere neuesten Überlegungen und Ansätze im Bereich Künstliche Intelligenz und Spracherkennung präsentieren und diskutieren. Auch die Zusammenstellung des Vortragsblocks mit den Kollegen von T-Systems International und Microsoft Deutschland haben sich inhaltlich toll ergänzt.

EntdeckenEntdecken
Entdecken

Kontakt

Wir freuen uns auf euch!

Bild vom Geschäftsführenden Gesellschafter Henrik Johannsen
Deine Ansprechperson
Henrik Johannsen
PROJEKTIONISTEN® GmbH
Schaufelder Straße 11
30167 Hannover
Vielen Dank für deine Nachricht! Wir werden uns so schnell wie möglich bei dir melden.
Ihre Nachricht konnte nicht gesendet werden. Schreibe uns bitte per Mail (info@projektionisten.de).