Analyse und Annotation von Audio- und Videoinhalten

Forschung

Medieninhalte analysieren und zugänglich machen

Die Nutzung und Verwertung audiovisueller Inhalte steht und fällt mit der Verfügbarkeit aussagekräftiger Metadaten – also von Daten, die Daten beschreiben. Sie liefern die Basis zum Auffinden, Sortieren und Kategorisieren der einzelnen Inhalte, und zur Realisierung von Empfehlungssystemen. Technologien zur automatischen Extraktion von Metadaten sind deshalb entscheidend, um Medieninhalte wirklich zugänglich und nutzbar zu machen.

Multimodale Analyse und Annotation von Mediendaten

Die Entwicklung von Technologien zur automatischen Analyse und Annotation von audiovisuellen Daten erfordert fundierte Kenntnisse in den Bereichen Signalverarbeitung und Maschinelles Lernen sowie ein gutes Verständnis der zugrundeliegenden Anforderungen.

Eine weitere Herausforderung stellen die multimodale Analyse und Orchestrierung dar: Die Extraktion von Metadaten aus Audio-, Video- und Bilddateien umfasst eine Vielzahl von Prozessen, die von der Vorverarbeitung über die Merkmalsextraktion bis hin zur Klassifizierung reichen. Dabei werden unterschiedliche Methoden und Technologien eingesetzt, die flexibel integriert und orchestriert werden müssen. Die Integration von heterogenen Daten aus unterschiedlichen Quellen und Formaten erfordert zudem die Auswahl oder Entwicklung geeigneter Datenmodelle und Metadaten-Standards. Medienarchive zeichnen sich häufig durch große Datenmengen aus, was besondere Anforderungen an die Systemarchitektur und die Effizienz und Optimierung der eingesetzten Algorithmen stellt.

Darüber hinaus beschäftigen wir uns mit Metadaten-Standards und der Integration und Orchestrierung von Analyse-Komponenten. Wir adressieren zudem Datenschutzfragen und andere Aspekte vertrauenswürdiger KI, um die Bereitstellung von umfassenden Lösungen für konkrete Anwendungsanforderungen zu ermöglichen.

Forschungsbereiche Analyse und automatische Annotation von audiovisuellen Inhalten

Musik- und Klanganalyse

Im Mittelpunkt steht die Erkennung musikalischer Merkmale wie Tonhöhe, Rhythmus, Timbre und Genre bis hin zur musikalischen Transkription. Unsere Technologien ermöglichen Musikklassifizierungen, Ähnlichkeitsanalysen zwischen Stücken und die Detektion spezifischer Klangereignisse und akustischer Umgebungen.

Musik- und Klanganalyse

Videoanalyse

Im Bereich der visuellen Analyse legen wir den Fokus auf die Analyse von Gesichtern in Videos. Mittels Gesichtserkennung und -verfolgung können wir menschliche Gesichter analysieren und identifizieren. Darüber hinaus nutzen wir bildverarbeitende Techniken und maschinelles Lernen, um Tiere in Videos zu erkennen und zu klassifizieren.

Videoanalyse

Herkunftsanalyse und Matching

Die Erkennung von wiederkehrenden Mustern, Wiederverwendung von Medieninhalten und Transformationsschritten zwischen verschiedenen Inhalten lässt Rückschlüsse über deren Herkunft und Weiterverarbeitung zu.

Multimodale und crossmodale Analyse

Um optimale Ergebnisse zu erzielen, lassen sich die beschriebenen Verfahren in vielen Anwendungsfällen miteinander kombinieren oder mit anderen Analyseverfahren, wie einer Metadaten-Analyse, ergänzen. Eine wichtige Voraussetzung dafür sind geeignete Schnittstellen, ein gemeinsames Datenmodell und die Möglichkeit einer flexiblen Orchestrierung und Konfiguration der verwendeten Analysekomponenten.

Eingesetzt werden die beschriebenen Technologien insbesondere zur Verschlagwortung und Erschließung von A/V-Archiven, für Empfehlungssysteme und Programmanalyse, Content-Tracking und Rechtemanagement, aber auch für die audio-visuelle Biodiversitätsmessung, sowie zur Unterstützung von Desinformationserkennung.

Projekte und Aktivitäten

Forschungsprojekt

AI4Media

Exzellenzprojekt für KI im Medienbereich – unsere Beiträge: Audioforensik, Audio-Herkunftsanalyse, Musikanalyse, technischer Datenschutz und Empfehlungssysteme

AI4Media

Forschungsprojekt

Construction-sAIt

Multimodale KI-basierte Technologien zur automatischen Baustellenüberwachung

Construction-sAIt

Forschungsprojekt

SAISBECO

Software für Biodiversitätsmonitoring, die automatisch einzelne Bilder, Video- und Audioaufnahmen nach Sequenzen mit Menschenaffen durchsucht

SAISBECO

Forschungsprojekt

iMediaCities

Entwicklung einer digitalen Plattform, um das audiovisuelle Kulturerbe der europäischen Städte zugänglich zu machen

iMediaCities

Forschungsprojekt

CUBRIK

Framework zur Multimedia-Suche, das Nutzerwissen und -fähigkeiten verwendet, um automatische Analyseverfahren zu optimieren und zu ergänzen

CUbRIK

Forschungsprojekt

MiCO

Plattform für multimodale und kontextbasierte Analyse, in die unterschiedlichste Analysekomponenten für verschiedene Medientypen integriert werden können

MICO

Leistungsangebot

Dienstleistungen

Media Analytics: Dienstleistungen zur Analyse und Annotation von Medieninhalten
Evaluation (Visual AI Assessment): Technische Evaluation von Verfahren, Komponenten und Systemen im Bereich Audio- und Videoanalyse

Publikationen

Datensätze

Das Fraunhofer IDMT hat in den letzten Jahren Audiodatensätze für verschiedene Forschungsbereiche wie die Erkennung von Instrumenten, Fingersätzen oder Performance-Analysen erstellt. Diese Datensätze wurden in mehreren wissenschaftlichen Publikationen auf internationalen Konferenzen vorgestellt und sollen der wissenschaftlichen Gemeinschaft als mögliche Benchmarks für Vergleichsexperimente dienen.

Analyse und Annotation von Audio- und Videoinhalten

Extrahieren aussagekräftiger Daten aus audiovisuellen Inhalten

Forschungsbereiche »Analyse und Annotation von Audio- und Videoinhalten«

Aktuelles

Werbemonitoring für SWR Radio

DataTech 2024

Workshop Digital Broadcasting

Reiternavigation

Forschung

Medieninhalte analysieren und zugänglich machen

Multimodale Analyse und Annotation von Mediendaten

Forschungsbereiche Analyse und automatische Annotation von audiovisuellen Inhalten

Musik- und Klanganalyse

Videoanalyse

Herkunftsanalyse und Matching

Multimodale und crossmodale Analyse

Projekte und Aktivitäten

AI4Media

Construction-sAIt

SAISBECO

iMediaCities

CUBRIK

MiCO

Leistungsangebot

Dienstleistungen

Publikationen

Datensätze

Übersicht Datensätze

Contact Press / Media

Dr.-Ing. Uwe Kühhirt

Contact Press / Media

Hanna Lukashevich