Im Interview mit Dr.-Ing. Stefan Goetze

04. Dezember 2019

Die Dokumentation in Unternehmen ist eine wichtige Aufgabe, benötigt aber wertvolle Zeit. Vor diesem Hintergrund können berührungslose Spracherkenner des Fraunhofer IDMT klare Mehrwerte für Industriekunden bieten – gerade in lauten oder sterilen Umgebungen. Im Gespräch mit Dr.-Ing. Stefan Goetze, Leiter der Gruppe »Automatische Spracherkennung«, über die Vorteile von Spracherkennungssystemen.

© Fraunhofer IDMT
Dr.-Ing. Stefan Goetze, Gruppenleiter »Automatische Spracherkennung« am Institutsteil Hör, Sprach und Audiotechnologie in Oldenburg.

Herr Dr. Goetze, Sie arbeiten an der Mensch-Maschine-Interaktion über Sprache. Welche Vorteile sehen Sie für den industriellen Kontext?

Für industrielle Prozesse, in denen die Dokumentation von Informationen eine Unterbrechung des Arbeitsprozesses bewirkt, bieten berührungsfreie Spracherkennungssysteme einen kostenrelevanten Mehrwert und ein Plus an Arbeitssicherheit. Die Sprachsteuerung von Robotern und Anlagen oder auch nur einer Lampe schafft ebenfalls Mehrwerte für unsere Kunden.

Sie sagen, dass Spracherkennung Zeit und Kosten spart. Warum?

Spracherkennungssysteme schaffen die Grundlage dafür, dass der Fokus auf den eigentlichen Kernaufgaben liegen kann und notwendige Dokumentationen so wenig Zeit wie möglich beanspruchen.

»Uns ist es besonders wichtig, dass die von uns entwickelten Systeme als klare Arbeitserleichterung wahrgenommen werden.«

Dazu gehören eine einwandfreie Usability, die wir auf den Bedarf des Kunden individuell abstimmen können, und die zuverlässige Erkennung von Sprache auch bei Umgebungslärm oder weiter Entfernung zum Mikrofon.

Was ist das Besondere an der Spracherkennung in Oldenburg?

Störgeräusche und räumliche Begebenheiten können die Erkennerleistung beeinflussen. Das menschliche Gehirn kann dagegen sehr gut mit Beeinträchtigungen umgehen. Wir schauen uns daher aktuelle wissenschaftliche Erkenntnisse aus der psychoakustischen und psychophysikalischen Grundlagenforschung an, um Algorithmen mit minimaler Fehlerkennungsrate zu entwickeln. 

Was bedeutet das für die Technologieentwicklung?

Um möglichst flexibel auf akustische Anforderungen reagieren zu können, wurden verschiedene Technologien zur Signalaufnahme und -verbesserung für den modularen Einsatz in Hard- und Software konzipiert. So kann beispielsweise durch eine intelligente Platzierung von Mikrofonen im Raum eine optimale Erkennerleistung bei starken Nebengeräuschen oder Raumhall in industriellen Umgebungen erreicht werden.

Kunden, die zu Ihnen kommen, benötigen keine Sprachkenner »von der Stange«. Was erhalten sie stattdessen?

Ebenso individuell wie der technische Aufbau lassen sich das benötigte Vokabular und die Einbettung in bestehende Applikationen und Endgeräte definieren. Wir sind in der Lage, Systeme mit wenigen Befehlen für die Steuerung einfacher technischer Systeme zu realisieren. Außerdem bauen wir dialogorientierte Roboter- oder Chatbot-Systeme mit großen Wortschätzen. Ein wichtiger Mehrwert der Entwicklung liegt darin, dass ein Großteil der Datenverarbeitung auf dem Sensor erfolgt. Damit sind Anwendungen auch in abgeschiedenen Gebieten oder entfernt gelegenen Anlagen und Infrastrukturen umsetzbar. 

Wie hat sich ein Kunde die Implementierung der Technologie in seinem Unternehmen vorzustellen?

Prinzipiell kann unsere Spracherkennung und -steuerung an jeden noch so individuellen Einsatz angepasst werden – von der Dokumentation von Prozessschritten über einfache Befehlssteuerung für Roboter mit wenigen Worten bis hin zu einem komplexen, dialogbasierten Chatbot. Unsere Technologie kann in unterschiedlichsten Applikationen eingesetzt werden, von der Spracherkennung im Smartphone und im Smart Home über Sicherheitsanwendungen auf Gewerbeflächen und Smart Cities bis zum Produktionsumfeld. Da wir plattformunabhängig entwickeln, bleiben uns und dem Kunden alle Freiheiten für die Schnittstellen und die Integration in die vorhandenen Anwendungen. Aufgrund weitreichender Erfahrungen mit sicherheitskritischen Anforderungen ist das System in der Lage, lokal und ohne Internet-Anbindung eingesetzt zu werden und erfüllt damit höchste Ansprüche an die Datensicherheit.