Im Interview mit Jan Wellmann

18.12.2019

Auf der IFA 2018 in Berlin präsentierte die Telekom ihren Smart Speaker. Der Sprachassistent ermöglicht mit dem Weckruf »Hallo Magenta« Basisfunktionen wie Google-Services, die Steuerung des Smart Home und des Fernsehgeräts und kann direkt an das Festnetz angeschlossen werden, um als Telefon genutzt zu werden. Außerdem kann neben dem Telekom eigenen Sprachdienst auch Alexa genutzt werden. Das Fraunhofer IDMT in Oldenburg hat die Audiotechnologie für das Gerät entwickelt. Im Gespräch mit Jan Wellmann, Gruppenleiter Audiosystemtechnik.

© Fraunhofer IDMT/Hannes Kalter
Jan Wellmann, Gruppenleiter »Audiosystemtechnik« am Institutsteil Hör, Sprach und Audiotechnologie in Oldenburg.

Herr Wellmann, von der Ideenfindung über die Konzeption, den Demo-Bau bis zur ersten Prototypenfertigung in Taiwan haben Sie den Smart Speaker der Telekom mitentwickelt und konnten die Expertise des Fraunhofer IDMT mit einbringen. Welche Auswirkungen hatte die frühe Einbindung für das Produkt?

  • Durch die enge Zusammenarbeit mit den Produktdesignern und den Zulieferern konnten wir früh definieren, wo wir Kompromisse machen müssen und dürfen, um das optimale Preis-Leistungsverhältnis für die Lösung zu erzielen. Die Fragestellung für uns war: Wie kriegen wir möglichst viel Sound in ein sehr kleines Gehäuse? Und der Sound soll nicht nur zum Musik hören geeignet sein, sondern wir wollten auch unterschiedliche Use-Cases damit abdecken, z. B.  wohlklingende Sprach-Services oder die Telefonie.

Was waren die größten Herausforderungen?

  • Um die Sprachsteuerung für das Gerät zu optimieren, muss es sowohl auf sehr kurze, als auch auf sehr lange Distanzen gut hören können. Das heißt, wir mussten uns fragen: Wie bringen wir die Mikrofone im Gehäuse so unter, dass wir wirklich eine gute Abdeckung durch steuerbare Richtmikrofonierung für unterschiedliche Entfernungen und für unterschiedliche Räume haben? Zur Optimierung des Systems sind wir dann in unser DIN-Akustiklabor gegangen, was eigentlich ein Wohnzimmer mit einer genormten Akustik ist, wo wir dann reproduzierbar unterschiedliche Szenarien einfach durchtesten konnten. So konnten wir die Mikrofonpositionen und auch die Algorithmen des Mikrofons optimieren. Wir haben für das Richtmikrofonarray vier MEMS-Mikrofone verwendet. Die Signale der vier Mikrofone werden so verrechnet, dass man eine Richtcharakteristik in eine ganz bestimmte Richtung hat. Wir mussten noch den eigenen Sound des Lautsprechers herausfiltern – über sogenanntes Echo-Cancellation – und wir entwickelten außerdem einige unserer Algorithmen weiter, um Störgeräusche zu entfernen. Dadurch, dass wir sowohl die Aufnahmeseite als auch die Wiedergabeseite optimieren und auf das Gehäuse abstimmen konnten, haben wir eine Qualität erreicht, die gerade für Freisprecheinrichtungen sehr gut ist.

Was hat Ihnen an dem Projekt mit der Telekom besonders viel Freude bereitet?

  • Die Teamleistung in Oldenburg und die vertrauensvolle Zusammenarbeit mit der Telekom. Wir haben in dem Projekt mit den Signalverarbeitungsalgorithmen für die Mikrofonierung und für die Lautsprecher, für die Wiedergabe angefangen. Das Ganze hat sich dann aber deutlich breiter entwickelt. Wir konnten z. B. unser Know-how im Bereich akustisches Messen und akustisches Testing einbringen. Außerdem haben wir die End-of-Line-Tests für die Massenproduktion mit dem Hersteller gestaltet und dafür eigens Hardware entwickelt und gebaut. Wir haben zudem Tests vorgeschlagen und durchgeführt, die auf den ersten Blick gar nichts mit Audio zu tun haben, sondern einfach der Zuverlässigkeit dienen, wie Temperaturuntersuchungen und Messungen bezüglich Klirrfaktor oder Gehäusetoleranzen. Das hat uns große Freude gemacht, weil es unseren Kunden im hohen Maße unterstützt und zufrieden gestellt hat.

Wie geht es weiter mit dem Thema Voice-Enabled-Devices in Ihrer Gruppe Audiosystemtechnologie? Was dürfen wir für die Zukunft erwarten?

  • Das Thema intelligente Assistenten begleitet uns weiterhin. Zum einen im B2C-Kontext und im Unterhaltungs- und Kommunikationssektor. Zum anderen sehen wir das Thema Voice aber auch im Zusammenhang mit Services, die B2B angeboten werden.

  • »Wir möchten entlang unserer Strategie ›We make smart things listen‹ die Voice-Enabled-Devices marktübergreifend vorantreiben.«

     

  • Viele Geräte können noch nicht sprechen oder hören, was aber für unsere Kunden oder die Kunden unserer Kunden attraktiv wäre. Sprachsteuerung ermöglicht z. B. eine sichere und einfache Bedienmöglichkeit von Maschinen inklusive einer Hilferuf-Funktion. Außerdem lassen sich über Sprache Services anbieten, die vorher so nicht denkbar gewesen wären. Sprachassistenten und Smart Speaker sind da erst der Anfang, in Zukunft wird uns Spracherkennung in vielen Geräten begegnen. Wir begleiten solche Projekte von der Idee bis zum Produkt aus einer Hand.