Unsere Software-Entwicklerin Lotte zeigt in ihrer Bachelorarbeit, wie man die Fehlerquote der KI-Spracherkennung für virtuelle Assistenten im ÖPNV von 30% auf 3% reduzieren kann.
In den letzten Jahren ist die KI-Spracherkennung, also die Umwandlung von gesprochener Sprache in Text (Speech-to-Text), in der Softwareentwicklung von virtuellen Assistenten immer besser geworden. Und trotzdem schleichen sich häufig Fehler ein. Statt der Haltestelle „Desbrocksheidering“ in Hannover wird dann plötzlich der „Text Box Heidering“ erkannt. Auch wenn diese Wörter lustig klingen, machen sie die Weiterverarbeitung des Inhaltes schwer. Die Fahrplanauskunft hat schließlich noch nie von einem „Text Box Heidering“ gehört.
Zum Glück ist es möglich, das Machine-Learning-Model, mit dem die Spracherkennung stattfindet, anzupassen. Wie genau, habe ich im Rahmen meiner Bachelorarbeit untersucht. Dazu habe ich das Framework Vosk und ein dazugehörendes ML-Model verwendet.
In einigen Softwareentwicklungs-Projekten ist dies natürlich auch eine sinnvolle Möglichkeit. Es gibt allerdings auch mehrere Vorteile, wenn andere Lösungen verwendet werden. Zunächst ist man damit unabhängig von den großen Firmen. Das betrifft sowohl die Kosten, als auch die Anpassungsmöglichkeiten und den Datenschutz. Die Software-Anwendungen laufen komplett auf unseren eigenen Servern, sodass wir sicherstellen können, dass mit den Daten verantwortungsvoll umgegangen wird. Außerdem können wir die Spracherkennung sehr gezielt an das Einsatzgebiet des digitalen Assistenten anpassen, da wir keine generische Lösung entwickeln müssen, welche in allen Kontexten funktioniert. Stattdessen können wir uns auf einen Bereich, wie den ÖPNV, ganz gezielt konzentrieren.
Die Spracherkennung wird mit Methoden des Machine Learning umgesetzt. Das bedeutet, dass zur Verbesserung der Spracherkennung Trainingsdaten benötigt werden, mit denen ein Machine-Learning-Modell lernen kann. Zur Kontrolle der Ergebnisse werden zusätzlich Testdaten verwendet, um zu bewerten, wie gut das Training der KI funktioniert hat. Neben der Auswahl der Daten, gab es noch eine Vielzahl von Parametern, welche verändert werden konnten.
Aufgrund des Datenschutzes ist es schwierig, echte Nutzerdaten für das Training zu verwenden. Stattdessen wurden von den Projektionisten Texte mit typischen Nutzeranfragen bereitgestellt. Diese lauteten zum Beispiel: „Wie komme ich von hier zum Aegidientorplatz?“. Diese Texte wurden dann von verschiedenen Sprechern vorgelesen. Dann konnten gezielt Änderungen am KI-Model gemacht werden. Dazu wurden zum Beispiel verschiedene Texte generiert, um dem Model zu zeigen, welche Art von Anfragen zu erwarten ist.
Um die Qualität der KI-Spracherkennung zu bewerten, wird z. B. die Word Error Rate (WER) verwendet. Umso höher diese ist, desto stärker weicht der erkannte Text vom eigentlichen Inhalt ab.
Die WER des ML-Models ohne Anpassungen liegt bei 30 %. Das ist viel zu hoch, um das Model im produktiven Einsatz zu verwenden. Besonders, da die Ursache für die Fehler vor allem die Haltestellennamen zu sein scheinen. Von 945 Haltestellen konnten gerade einmal 534 korrekt erkannt werden. Die Anpassungen des KI-Modells hat jedoch zu einer guten Verbesserung geführt. Die Fehlerrate konnte von 30 % auf 3 % gesenkt werden. Von den 945 Haltestellen werden jetzt insgesamt 940 erkannt.
Wir gratulieren Lotte zur bestandenen Bachelorprüfung und wünschen ihr alles Gute für ihren weiteren Weg. Lotte hat Medieninformatik an der Uni Hannover studiert und bei uns ihre Abschlussarbeit geschrieben.
Die Anpassung des Models ermöglicht es, die Spracherkennung für den jeweiligen Einsatzbereich zu optimieren. Generische Lösungen funktionieren nicht immer optimal in allen Kontexten, was zu vermehrten Fehlern in der Erkennung führen kann.
Die Qualität von Spracherkennung wird z. B. durch die Word Error Rate (WER) bewertet. Eine hohe WER bedeutet, dass der erkannte Text vom eigentlichen Inhalt stark abweicht. Um die WER zu senken, können gezielte Änderungen am Model vorgenommen werden.
Da die Anwendungen vollständig auf eigenen Servern laufen, kann ein verantwortungsvoller Umgang mit den Daten sichergestellt werden. Zusätzlich kann die Spracherkennung sehr gezielt an das Einsatzgebiet angepasst werden, was eine drastische Reduzierung von Fehlern bedeutet.
Vitae congue eu consequat ac felis placerat vestibulum lectus mauris ultrices. Cursus sit amet dictum sit amet justo donec enim diam porttitor lacus luctus accumsan tortor posuere.
Vitae congue eu consequat ac felis placerat vestibulum lectus mauris ultrices. Cursus sit amet dictum sit amet justo donec enim diam porttitor lacus luctus accumsan tortor posuere.
Vitae congue eu consequat ac felis placerat vestibulum lectus mauris ultrices. Cursus sit amet dictum sit amet justo donec enim diam porttitor lacus luctus accumsan tortor posuere.
Vitae congue eu consequat ac felis placerat vestibulum lectus mauris ultrices. Cursus sit amet dictum sit amet justo donec enim diam porttitor lacus luctus accumsan tortor posuere.
Vitae congue eu consequat ac felis placerat vestibulum lectus mauris ultrices. Cursus sit amet dictum sit amet justo donec enim diam porttitor lacus luctus accumsan tortor posuere.
Vitae congue eu consequat ac felis placerat vestibulum lectus mauris ultrices. Cursus sit amet dictum sit amet justo donec enim diam porttitor lacus luctus accumsan tortor posuere.
Vitae congue eu consequat ac felis placerat vestibulum lectus mauris ultrices. Cursus sit amet dictum sit amet justo donec enim diam porttitor lacus luctus accumsan tortor posuere.
Vitae congue eu consequat ac felis placerat vestibulum lectus mauris ultrices. Cursus sit amet dictum sit amet justo donec enim diam porttitor lacus luctus accumsan tortor posuere.
Vitae congue eu consequat ac felis placerat vestibulum lectus mauris ultrices. Cursus sit amet dictum sit amet justo donec enim diam porttitor lacus luctus accumsan tortor posuere.
Vitae congue eu consequat ac felis placerat vestibulum lectus mauris ultrices. Cursus sit amet dictum sit amet justo donec enim diam porttitor lacus luctus accumsan tortor posuere.
Vitae congue eu consequat ac felis placerat vestibulum lectus mauris ultrices. Cursus sit amet dictum sit amet justo donec enim diam porttitor lacus luctus accumsan tortor posuere.
Vitae congue eu consequat ac felis placerat vestibulum lectus mauris ultrices. Cursus sit amet dictum sit amet justo donec enim diam porttitor lacus luctus accumsan tortor posuere.
Um unseren Kunden unabhängig von den amerikanischen Softwaregiganten wie Amazon, Google und Apple Produkte wie Chatbots und Sprachassistenten anbieten zu können, entwickeln wir eigene NLU-Engines (Sprachverständniseinheiten). So kann die Verarbeitung auf eigener Infrastruktur oder sogar lokal beim Nutzer im Smartphone durchgeführt werden.
EntdeckenEntdeckenEin Interview mit der UX-/UI-Designerin Paula über die Entwicklung eines Voice Assistenten.
EntdeckenEntdecken