Analyse und Annotation von Audio- und Videoinhalten

Extrahieren aussagekräftiger Daten aus audiovisuellen Inhalten

Im Mittelpunkt der Forschungsaktivitäten steht die Entwicklung von Technologien für die umfassende Analyse und Annotation von Audio- und Videoinhalten mittels Signalanalyse und Maschinellem Lernen. Die Extraktion von Metadaten aus Mediendaten liefert die Basis für zahlreiche Anwendungen wie z. B. automatische Verschlagwortung, inhaltsbasierte Suche und Empfehlungssysteme. 

Aktuelles

 

Event / 12.3.2024

DataTech 2024

Wir beteiligen uns mit dem Vortrag »Digital Traces: Verification of Audio-Visual Content« am Data Technology Seminar 2024 – dem jährlichen Event der EBU rund um die Themen Daten und KI für Medien.

 

Event

Workshop Digital Broadcasting

Der Workshop Digital Broadcasting startet im Herbst 2024 in  die nächste Runde. 

 

Neues Projekt

Mit der KI im musikalischen Frage-Antwort-Spiel

Entwicklung einer KI-basierten Kompositions-App

Medieninhalte analysieren und zugänglich machen

Die Nutzung und Verwertung audiovisueller Inhalte steht und fällt mit der Verfügbarkeit aussagekräftiger Metadaten – also von Daten, die Daten beschreiben. Sie liefern die Basis zum Auffinden, Sortieren und Kategorisieren der einzelnen Inhalte, und zur Realisierung von Empfehlungssystemen. Technologien zur automatischen Extraktion von Metadaten sind deshalb entscheidend, um Medieninhalte wirklich zugänglich und nutzbar zu machen.

Multimodale Analyse und Annotation von Mediendaten

Die Entwicklung von Technologien zur automatischen Analyse und Annotation von audiovisuellen Daten erfordert fundierte Kenntnisse in den Bereichen Signalverarbeitung und Maschinelles Lernen sowie ein gutes Verständnis der zugrundeliegenden Anforderungen.

Eine weitere Herausforderung stellen die multimodale Analyse und Orchestrierung dar: Die Extraktion von Metadaten aus Audio-, Video- und Bilddateien umfasst eine Vielzahl von Prozessen, die von der Vorverarbeitung über die Merkmalsextraktion bis hin zur Klassifizierung reichen. Dabei werden unterschiedliche Methoden und Technologien eingesetzt, die flexibel integriert und orchestriert werden müssen. Die Integration von heterogenen Daten aus unterschiedlichen Quellen und Formaten erfordert zudem die Auswahl oder Entwicklung geeigneter Datenmodelle und Metadaten-Standards. Medienarchive zeichnen sich häufig durch große Datenmengen aus, was besondere Anforderungen an die Systemarchitektur und die Effizienz und Optimierung der eingesetzten Algorithmen stellt. 

Darüber hinaus beschäftigen wir uns mit Metadaten-Standards und der Integration und Orchestrierung von Analyse-Komponenten. Wir adressieren zudem Datenschutzfragen und andere Aspekte vertrauenswürdiger KI, um die Bereitstellung von umfassenden Lösungen für konkrete Anwendungsanforderungen zu ermöglichen.

Forschungsbereiche Analyse und automatische Annotation von audiovisuellen Inhalten

 

Musik- und Klanganalyse

Im Mittelpunkt steht die Erkennung musikalischer Merkmale wie Tonhöhe, Rhythmus, Timbre und Genre bis hin zur musikalischen Transkription. Unsere Technologien ermöglichen Musikklassifizierungen, Ähnlichkeitsanalysen zwischen Stücken und die Detektion spezifischer Klangereignisse und akustischer Umgebungen.

 

Videoanalyse

Im Bereich der visuellen Analyse legen wir den Fokus auf die Analyse von Gesichtern in Videos. Mittels Gesichtserkennung und -verfolgung können wir menschliche Gesichter analysieren und identifizieren. Darüber hinaus nutzen wir bildverarbeitende Techniken und maschinelles Lernen, um Tiere in Videos zu erkennen und zu klassifizieren.

Herkunftsanalyse und Matching

Die Erkennung von wiederkehrenden Mustern, Wiederverwendung von Medieninhalten und Transformationsschritten zwischen verschiedenen Inhalten lässt Rückschlüsse über deren Herkunft und Weiterverarbeitung zu.

Multimodale und crossmodale Analyse

Um optimale Ergebnisse zu erzielen, lassen sich die beschriebenen Verfahren in vielen Anwendungsfällen miteinander kombinieren oder mit anderen Analyseverfahren, wie einer Metadaten-Analyse, ergänzen. Eine wichtige Voraussetzung dafür sind geeignete Schnittstellen, ein gemeinsames Datenmodell und die Möglichkeit einer flexiblen Orchestrierung und Konfiguration der verwendeten Analysekomponenten.

Eingesetzt werden die beschriebenen Technologien insbesondere zur Verschlagwortung und Erschließung von A/V-Archiven, für Empfehlungssysteme und Programmanalyse, Content-Tracking und Rechtemanagement, aber auch für die audio-visuelle Biodiversitätsmessung, sowie zur Unterstützung von Desinformationserkennung.

 

Forschungsprojekt

AI4Media

Exzellenzprojekt für KI im Medienbereich – unsere Beiträge: Audioforensik, Audio-Herkunftsanalyse, Musikanalyse, technischer Datenschutz und Empfehlungssysteme

 

Forschungsprojekt

Construction-sAIt

Multimodale KI-basierte Technologien zur automatischen Baustellenüberwachung

 

Forschungsprojekt

SAISBECO

Software für Biodiversitätsmonitoring, die automatisch einzelne Bilder, Video- und Audioaufnahmen nach Sequenzen mit Menschenaffen durchsucht

 

Forschungsprojekt

iMediaCities

Entwicklung einer digitalen Plattform, um das audiovisuelle Kulturerbe der europäischen Städte zugänglich zu machen 

 

Forschungsprojekt

CUBRIK

Framework zur Multimedia-Suche, das Nutzerwissen und -fähigkeiten verwendet, um automatische Analyseverfahren zu optimieren und zu ergänzen

 

Forschungsprojekt

MiCO

Plattform für multimodale und kontextbasierte Analyse, in die unterschiedlichste Analysekomponenten für verschiedene Medientypen integriert werden können

Dienstleistungen

  • Media Analytics: Dienstleistungen zur Analyse und Annotation von Medieninhalten
  • Evaluation (Visual AI Assessment): Technische Evaluation von Verfahren, Komponenten und Systemen im Bereich Audio- und Videoanalyse

Datensätze

Das Fraunhofer IDMT hat in den letzten Jahren Audiodatensätze für verschiedene Forschungsbereiche wie die Erkennung von Instrumenten, Fingersätzen oder Performance-Analysen erstellt. Diese Datensätze wurden in mehreren wissenschaftlichen Publikationen auf internationalen Konferenzen vorgestellt und sollen der wissenschaftlichen Gemeinschaft als mögliche Benchmarks für Vergleichsexperimente dienen.