Spracherkennung als entscheidender Wettbewerbsvorteil

Das Fraunhofer IDMT und das Mittelstand 4.0-Kompetenzzentrum unterstützen kleine und mittelere Unternehmen bei der Integration von Spracherkennungssystemen in Produkte und Produktionsprozesse unterschiedlichster Art.

Passgenaue Audiosystemtechnik entwickelt das Fraunhofer IDMT in Oldenburg gemäß individueller Anforderungen seiner Kunden – z.B. für das Sprachbestellsystem „Ordivia“ der divvoice GmbH.
© divvoice GmbH
Passgenaue Audiosystemtechnik entwickelt das Fraunhofer IDMT in Oldenburg gemäß individueller Anforderungen seiner Kunden – z.B. für das Sprachbestellsystem „Ordivia“ der divvoice GmbH.

Fortschritte im Bereich der Künstlichen Intelligenz haben in den vergangenen Jahren zu deutlichen Qualitätssprüngen in der Spracherkennung geführt. Im Alltag haben diese Systeme mit Smartphones und Smart-Home-Geräten Einzug gehalten. Die Nutzung der Spracherkennung steht jedoch noch ganz am Anfang. Unternehmen, die ihre eigenen Chancen in diesem Bereich ausloten und möglicherweise erste Projekte starten möchten, haben mit dem Mittelstand 4.0-Kompetenzzentrum Bremen und dem Fraunhofer Institut für digitale Medientechnologie (IDMT) in Oldenburg die idealen Partner an ihrer Seite.

Besonders viel Potenzial für den Einsatz in Unternehmen verspricht die Spracherkennung zurzeit bei der Steuerung von Maschinen, bei der Automatisierung von Dokumentationsaufgaben in der Industrie sowie im Gesundheitswesen. Im privaten Bereich sind die Nutzungsmöglichkeiten für das “Smart Home” noch lange nicht ausgeschöpft.

 

Maßgeschneiderte Lösungen für mittelständische Unternehmen

Das Fraunhofer IDMT, ein Partner des Mittelstand 4.0-Kompetenzzentrums Bremen, unterstützt Unternehmen aller Größenordnungen bei der Entwicklung von Akustiklösungen für die Integration in verschiedenste Produkte. „Vom Start-up bis zum Großkonzern ist alles dabei“, erklärt Jan Wellmann, Leiter des Bereichs Audio System Technology & Automatic Speech Recognition am IDMT. Der Institutsteil für Hör-, Sprach und Audiotechnologie arbeitet unter anderem an Spracherkennungssystemen, die selbst bei Umgebungslärm und bei vergleichsweise großem Abstand zwischen Mikrofon und Sprecher robust funktionieren.

Die Tätigkeiten des Instituts für Unternehmen lassen sich meistens einem der folgenden drei Bereiche zuordnen:

  • Entwicklung von Hardware
  • Entwicklung von Software, die den Einsatz von neuer oder vorhandener Hardware für den gewünschten Zweck ermöglicht oder optimiert
  • Beratung von Herstellern (Official Device Manufacturer/ODMs) oder Anwendern

Für Anwender von Spracherkennungslösungen bietet das IDMT einen Vorteil gegenüber den bekannten Systemen der Konzerne Google, Amazon und Apple. Die Oldenburger entwickeln mit ihren Kunden Lösungen, die für einen speziellen Einsatz optimiert sind. „Bei uns dauert die Entwicklung etwas länger, dafür ist sie dann maßgeschneidert und funktionieren in dem jeweiligen Bereich besser als die allgemeine Lösung“, betont Wellmann. „Kleine und mittlere Unternehmen sind auch nicht die Zielgruppe der größeren Anbieter.“ Im Mittelstand 4.0-Kompetenzzentrum steht hingegen gerade diese Zielgruppe im Mittelpunkt. KMU können sich während des gesamten Prozesses – von der Ideenfindung bis zur Umsetzung eines Digitalisierungsprojekts – begleiten lassen, auch wenn es um die manchmal ungewohnte Zusammenarbeit mit einer Forschungseinrichtung wie dem IDMT geht.

 

Fachbegriffe werden gezielt trainiert

Die Leistungsfähigkeit seiner Lösungen testet das Fraunhofer IDMT schon während des Entwicklungsprozesses im eigenen Labor, das nach den entsprechenden Qualitätsnormen zertifiziert ist. So können die Wissenschaftlerinnen und Wissenschaftler realistische Bedingungen herstellen und negative Überraschungen beim späteren Praxiseinsatz vermeiden.

Eine zentrale Herausforderung vieler Projekte besteht darin, die Akustik zu optimieren. Das System muss die relevanten Geräusche erkennen und korrekt interpretieren. So muss es beispielsweise die Sprache identifizieren, die ein Anwender benutzt, und alle Störgeräusche ignorieren. Fachbegriffe aus dem jeweiligen Einsatzbereich übt das Fraunhofer IDMT mit dem System ein.

Die Art der Komplikationen ist ohne Praxistests oft schwer vorhersehbar. In einem Versuch hat das IDMT-Team beispielsweise ein System entwickelt, das Graffiti-Sprüher auf Bahnanlagen anhand der typischen Geräusche erkennt: Knirschende Schritte im Kies, Schütteln der Sprühdose, Aufsprühen der Farbe. „Das hat sehr gut funktioniert“, erklärt Wellmann. „Allerdings gab es Fehlalarme,weil die Züge jedes Mal zischen, wenn sie gekoppelt werden oder sich die Türen öffnen und schließen. Diese Geräusche haben wir daher anschließend mittrainiert. So haben wir dem System beigebracht, welches Zischen erwünscht und was unerwünscht ist und zum Auslösen eines Alarms führt.“ Auch hätten einige Vögel entlang des Bahngeländes Geräusche gemacht, die das System verwirrten.

 

Regionale Kooperationen

Unternehmen, die erst einmal das Potenzial ergründen möchten, das die Spracherkennung oder eine andere Digitalisierungsmöglichkeit in ihrem konkreten Fall bietet, können sich an das Mittelstand 4.0-Kompetenzzentrum wenden. Die Expertinnen und Experten des Zentrums schauen sich zunächst die Prozesse im Unternehmen an. Im Anschluss wird entwickeln sie gemeinsam mit dem Unternehmen einen individuellen Fahrplan für das weitere Vorgehen. Spätestens wenn sich herauskristallisiert, dass der Einsatz eines Spracherkennungssystems vorteilhaft sein könnte, wird das IDMT hinzugezogen.

Bereits jetzt kooperiert das Fraunhofer IDMT mit verschiedenen Unternehmen in der Region bei der Entwicklung neuer Produkte und Dienstleistungen rund um die Spracherkennung, beispielsweise mit der Firma ILPER-Elektronik aus Tarmstedt. Die beiden Partner haben gemeinsam ein Notrufsystem auf Sprachbasis für Pflegezimmer entwickelt. Wenn die Patienten es nicht mehr schaffen, den Knopf zu drücken, können sie mit Schlüsselbegriffen verbal die Gegensprechanlage aktivieren.

ILPER will in diesem Jahr auch ein mobiles Notrufsystem auf den Markt bringen, das mit Unterstützung des IDMT entstanden ist. Ein kleiner Sender sorgt dafür, dass Personen in Notsituationen Hilfe bekommen können, wenn keine Rufanlage fest installiert ist. Dies können beispielsweise Mitarbeiter sein, die tätlichen Angriffen ausgesetzt sind, oder Beschäftigte an Arbeitsplätzen mit erhöhter Unfallgefahr.

 

Hilferufe aus dem Fernseher werden ignoriert

Die Notrufsysteme müssen – wie auch die Smart-Home-Systeme – dem Anspruch gerecht werden, unter schwierigen akustischen Bedingungen akkurat zu funktionieren. Gemeinsam mit der Schweizer CARU AG hat das IDMT ein intelligentes Hausnotrufsystem entwickelt, das sogar neben einem lauten Fernseher funktioniert. Gleichzeitig ist es dafür optimiert, die Zahl der Fehlalarme zu minimieren. Der CARU Smart Sensor wird in der Wohnumgebung aufgestellt und kann durch Sprachbefehle einen Notruf auslösen sowie eine Telefonverbindung zu einer Vertrauensperson herstellen. Er lernt das Nutzerverhalten kennen und identifiziert Abweichungen.

Mit der Entwicklung und Integration einer hochwertigen Mikrofontechnologie hat das Fraunhofer IDMT dabei die Voraussetzungen für eine sehr robuste Sprachsteuerung und gute Telefonqualität im Freisprechbetrieb geschaffen. Hinzu kommen eine gute Klangqualität und Sprachverständlichkeit, für die ebenfalls die Ingenieure aus Oldenburg verantwortlich sind.

 

Sprachassistenten für die Gastronomie und in der industriellen Wartung

Gleiche oder ähnliche Technologien können auch in vielen anderen Umgebungen einen großen Nutzen entfalten und neue Geschäftsmodelle ermöglichen. Die Aachener divvoice GmbH hat mit Unterstützung des Fraunhofer IDMT einen Sprachassistenten für Gastronomie entwickelt. „Ordivia“ erlaubt es den Gästen, ihre Bestellung zügig am Tisch aufzugeben, sobald sie sich für ein Gericht entschieden haben. Die Order wird dann automatisch an das Management und das Service-Personal weitergeleitet.

In der industriellen Wartung von Großbaugruppen setzt ein Unternehmen mittlerweile Spracherkennungslösungen des IDMT ein, um Seriennummern von Bauteilen durch die Beschäftigten einsprechen zu lassen – statt sie mühsam einzutippen. So wird der Wartungsvorgang beschleunigt und lückenlos dokumentiert. Bei den weiteren Arbeitsschritten – zum Beispiel der Röntgenprüfung oder dem Austausch eines Bauteils – können Fehler leichter vermieden werden. Im Automobilbau kommt unterdessen ein System zum Einsatz, das anhand der Akustik das korrekte Einrasten von Bauteilen erkennt.

 

Frühzeitige Einbindung der Experten lohnt sich

Unternehmen, die sich eine Zusammenarbeit mit dem Fraunhofer IDMT vorstellen können, melden sich im Idealfall bereits in einer frühen Phase ihres Projekts beim Mittelstand 4.0-Kompetenzzentrum oder beim Institut selbst. „So können wir Kunden am besten unterstützen, damit alles optimal funktioniert“, betont Wellmann. Der Hersteller einer Outdoor-Kamera musste beispielsweise leidvoll erfahren, was es bedeutet, wenn man sich zu spät die Expertise ins Haus holt. Das Produkt war fast fertig, als sich herausstellte, dass über das eingebaute Mikrofon fast nichts zu verstehen ist, wenn jemand vor der Kamera steht. Das Mikrofon hätte an anderer Stelle platziert werden müssen, aber die Gehäuse waren bereits hergestellt. Andere technische Lösungen ließen sich ebenfalls nicht mehr umsetzen. Am Ende gelangte die Kamera nie auf den Markt.

Die Forschungs- und Entwicklungsprojekte, an denen Wellmanns Team beteiligt ist, kosten in der Regel von 30.000 Euro aufwärts. Große Vorhaben können auch mal 1 bis 3 Millionen Euro benötigen, aber das betrifft dann eher die Produktentwicklung internationaler Konzerne.

Das Oldenburger Forschungsinstitut vermittelt bei Bedarf auch Kontakte für den Bau von Prototypen oder Endprodukten. Kleinserien bis zu 500 Exemplaren können in der Region gefertigt werden, mehr als 5000 Stück lassen sich kostengünstiger in z.B. Asien produzieren.

Wer das Potenzial der Spracherkennung für die Entwicklung von Alleinstellungsmerkmalen und neuen Geschäftsmodellen ausloten möchte, kann sich an das Mittelstand 4.0-Kompetenzzentrum Bremen oder direkt an das Fraunhofer IDMT wenden.

© Mittelstand 4.0 Kompetenzzentrum Bremen

Weitere Informationen

Intelligente berührungslose Hilferuferkennung

Mit dem CARU Smart Sensor, der auch wie ein Hausnotrufsystem eingesetzt werden kann, werden mit lautbasierter Sprach- und Ereigniserkennung kritische Situationen erkannt und automatisch eine Telefonverbindung aufgebaut oder ein Notruf auslöst.

Forschung im Dialog: Jan Wellmann

Im Interview spricht Gruppenleiter Jan Wellmann über die Schwierigkeit großen Sound auf kleinem Raum zu schaffen.

»Hände frei für das Wesentliche«

Die Dokumentation von Informationen ist eine oft unbeliebte, aber zwingend notwendige Aufgabe. Gerade in lauten Umgebungen bilden Spracherkenner einen Lösungsansatz, dem zunehmenden Dokumentationsaufwand zu begegnen.

Mittelstand 4.0-Kompetenzzentrum Bremen

Das Mittelstand 4.0-Kompetenzzentrum Bremen gehört zu Mittelstand-Digital. Mit Mittelstand-Digital untersützt das Bundesministerium für Wirtschaft und Energie (BMWi) die Digitalisierung in kleinen und mittleren Unternehmen und dem Handwerk.

Audiosystemtechnik

Von der Idee über die Konzeption und den Demonstrator-Bau bis zur akustischen End-Of-Line Kontrolle: Wir entwickeln für Sie Audiosystemlösungen. Ob Hardware-Design, Komponenten- und Algorithmenauswahl oder Software-Umsetzung.

Spracherkennung

Spracherkennungssysteme ermöglichen die blickfreie und berührungslose Bedienung von technischen Systemen. Die Spracherkennungssysteme des Fraunhofer IDMT funktionieren unter anspruchsvollen akustischen Bedingungen und ohne Verbindung zum Internet.