S4CS – Speech Assistance for Citizen Services
Die Interaktion mit Behörden gestaltet sich oftmals komplex und zeitintensiv. Können lange Wartezeiten und das aufwändige Ausfüllen von Anträgen vermieden werden? Dieser Frage gingen das Fraunhofer IDMT in Oldenburg und das Fraunhofer FOKUS in Berlin im Projekt »Sprachassistent für Bürgerdienste« nach.
Die Kombination der intelligenten Spracherkennung des Fraunhofer IDMT mit einer Engine zur semantischen Verarbeitung des Fraunhofer FOKUS, sollte einen unkomplizierten digitalen Austausch mit Behörden ermöglichen. Ziel des Projekts »S4CS« war es, einen Demonstrator zu entwickeln, welcher Bürgerinnen und Bürger bei der Anforderung behördlicher Service-Leistungen unterstützt. Als erstes Szenario wurde dabei die Beantragung von Elterngeld über den Sprachassistenten realisiert.
Innerhalb eines solchen Verfahrens eine digitale, einfache und intelligente Kommunikation in natürlicher Sprache zu ermöglichen, bringt eine Vielzahl von Mehrwerten mit sich. Neben der Zeitersparnis, der reduzierten Komplexität sowie der zunehmenden Barrierefreiheit, war zusätzlich eine hohe praktische Relevanz des Projekts gegeben – trug es doch zu den Zielen des Digitalisierungsprogramms der Bundesregierung bei (Onlinezugangsgesetz / OZG). Diese fordern unter anderem, dass bis zum Jahr 2022 alle Kommunen ihre Verwaltungsleistungen online anbieten müssen.
Umsetzung
Basierend auf tiefen neuronalen Netzwerken (deep neural networks) hat das Fraunhofer IDMT eine robuste Sprachanalyse (speech-to-text) entwickelt, die unempfindlich gegenüber Störgeräuschen ist. Die vertrauliche Behandlung von Sprachdaten unter Einhaltung höchster Datenschutz-Standards wurde durch lokale Datenverarbeitung gewährleistet. Für das inhaltliche Verstehen und Beantworten von Bürgeranfragen, wurde die vom Fraunhofer FOKUS entwickelte Constraint Handling Rules-Engine GoCHR eingesetzt. Deren verständliche Regeln sind schnell und flexibel für intelligente Diaologsysteme in Verwaltungsdienstleistungen anpassbar. Zur Spracherzeugung (text-to-speech) wurde ebenfalls der Einsatz von Machine-Learning-Verfahren angestrebt.