Messeneuheit: Neues Tool zur kombinierten Gesichts- und Sprechererkennung ermöglicht schnelle Personensuche in großen Medienarchiven

Das Fraunhofer-Institut für Digitale Medientechnologie IDMT stellt auf der Fachmesse International Broadcasting Convention (IBC) in Amsterdam erstmals eine Lösung vor, mit der Personen in einer großen Anzahl von Medienbeiträgen automatisch anhand ihres Gesichts und ihrer Stimme lokalisiert und identifiziert werden können. Für die »Audiovisual Identity Suite« hat das Forschungsinstitut Technologien zur Gesichts- und Sprechererkennung kombiniert. Mit Hilfe von Künstlicher Intelligenz (KI) werden große Mengen von Medieninhalten schnell auf die Präsenz bestimmter Personen untersucht.

Audiovidual Identity Suite erkennt Personen an Stimme und Gesicht.
© Fraunhofer IDMT/istock.com/vm
Die Audiovisual Identity Suite identifiziert Personen in Medienbeiträgen zuverlässig durch die Kombination von Gesichts- und Sprechererkennung.
© Fraunhofer IDMT
Die Ergebnisse der audiovisuellen Erkennung bestimmter Personen werden in einem leicht verständlichen und intuitiv bedienbaren Dashboard dargestellt und können für Trendanalysen und Statistiken verwendet werden.

Mit der neuen kombinierten Gesichts- und Sprecheranalyse erhalten Programmplanerinnen und -planer einen zuverlässigen Überblick darüber, welche Personen wie häufig in Fernsehprogrammen vorkommen. Die Audiovisual Identity Suite wertet hierfür große Datenmengen, also viele Medienbeiträge über viele Wochen hinweg, innerhalb kürzester Zeit aus. Die Ergebnisse der audiovisuellen Erkennung bestimmter Personen werden in einer leicht verständlichen und intuitiv bedienbaren Benutzeroberfläche dargestellt und können für Trendanalysen und Statistiken verwendet werden. 

Interessiert man sich für die Medienpräsenz bestimmter Personen im Zeitverlauf, so stellt das Tool in einer so genannten Heatmap dar, wann und wie häufig diese über einen bestimmten Zeitraum auf verschiedenen Fernsehkanälen zu sehen oder zu hören waren. Der Clou dabei: Die Erkennung funktioniert auch dann zuverlässig, wenn die betreffende Person zwar gerade spricht, aber nicht im Bild zu sehen ist. Das ist immer dann interessant, wenn zum Beispiel in Talkshows Reaktionen aus dem Publikum eingefangen werden oder andere Diskussionsteilnehmer gefilmt werden, während auf dem Podium weitergesprochen wird. 

Möglich wird dies durch die Kombination von Audio- und Videoanalyseverfahren. In beiden Forschungsdisziplinen verfügt das Institut über langjährige Expertise. Beide Analyseverfahren wurden bereits erfolgreich in verschiedenen Produkten und Lösungen in die Anwendung gebracht. 

 

Crossmodale Kombination von Audio- und Videoanalyseverfahren

In der Audiovisual Identity Suite werden beide Verfahren erstmals zu einem crossmodalen Analysewerkzeug kombiniert. »Das erhöht die Aussagekraft und die Qualität der Ergebnisse enorm«, erklärt Dr. Uwe Kühhirt, Experte für Videoanalyse am Fraunhofer IDMT und Mitentwickler der Audiovisual Identity Suite. 

Für die akustische Identifikation von Personen in Programmen setzt das Institut auf KI-basierte Algorithmen zur Erkennung von Sprechenden und zur Klassifizierung des wahrgenommenen Geschlechts. Darüber hinaus ermöglicht die Sprachqualitätsanalyse die Bewertung ganzer Sendungen oder einzelner Sendungsteile hinsichtlich ihrer akustischen Verständlichkeit. 

Für die visuelle Erkennung von Personen in Videos kommt die intelligente Gesichtserkennung zum Einsatz. Dabei werden aus den Videodaten Gesichtsmerkmale wie zum Beispiel das visuell wahrgenommene Geschlecht extrahiert. Kombiniert man dies mit der oben erwähnten akustischen Klassifikation des wahrgenommenen Geschlechts, lassen sich sehr zuverlässige Aussagen darüber treffen, wie oft Männer und wie oft Frauen im Programm zu sehen oder zu hören sind. Diese Erkenntnisse können zum Beispiel bei der Planung einer geschlechtergerechteren Programmgestaltung und Berichterstattung helfen.  

 

Verfügbarkeit der Audiovisual Identity Suite

Analysen und Studien mit der Audiovisual Identity Suite werden vom Fraunhofer IDMT zunächst im Kundenauftrag durchgeführt. Die Analyseergebnisse bekommen die Kunden anschließend für ihre Zwecke aufbereitet in einer individuellen Benutzeroberfläche zur Verfügung gestellt. 

Zukünftig soll das Analysetool auch für den direkten Einsatz beim Kunden lizenzierbar sein. 

 

Geplante Erweiterungen

Die Audiovisual Identity Suite wird perspektivisch um weitere Analysekomponenten erweitert. Auf der visuellen Seite soll eine Altersschätzung von Personen integriert werden. Die Audioanalyse wird um eine Sprachenerkennung sowie um die Komponenten Speech-to-Text und Schlüsselwortanalyse ergänzt. »Das gibt uns noch mehr Auswertungsmöglichkeiten. Denn durch die Kombination mit der Texttranskription können wir nicht nur Aussagen darüber treffen, wie häufig bestimmte Personen auftreten, sondern auch, zu welchen Themen sie sich äußern«, erklärt Christian Rollwage, Experte für Sprechererkennung am Institutsteil Hör-, Sprach- und Audiotechnologie HSA. 

 

Überzeugen Sie sich selbst, wie die Audiovisual Identity Suite Ihre tägliche Arbeit erleichtert. Besuchen Sie uns vom 15. bis 18. September 2023 auf der IBC am Stand B.80 der Fraunhofer-Gesellschaft in Halle 8 und lassen Sie sich von unseren Experten die Vorteile des neuen crossmodalen Analysetools Audiovisual Identity Suite zeigen.

Letzte Änderung: