Fraunhofer IDMT
Abstract:
Algorithmen der computergestützten Audioanalyse kombinieren Methoden der Audiosignalverarbeitung und des maschinellen Lernens, um die
menschliche Fähigkeit zur Wahrnehmung und Analyse komplexer akustischer Szenen nachzubilden. Diese Szenen umfassen in der Regel mehrere
räumlich verteilte Schallquellen, die im Laufe der Zeit charakteristische akustische Signale (Schallereignisse) abgeben. Die akustische Ereignisdetektion
versucht, diese Schallereignisse anhand einer Audioaufnahme automatisch zu erkennen. Die größten Herausforderungen liegen dabei in der komplexen
Überlagerung gleichzeitiger Schallereignisse und in der natürlichen Vielfalt innerhalb der Klangklassen. In diesem Beitrag geben wir einen Überblick
über aktuelle Ansätze zur akustischen Ereignisdetektion, die aktuell vor allem durch die Verwendung von tiefen neuronalen Netzen dominiert wird. Nach
einem Überblick über typische Verfahren zur Merkmalsextraktion, Signalvorverarbeitung und künstlichen Datenerweiterung diskutieren wir verschiedene
neuronale Netzwerkstrukturen, z. B. rekurrente Faltungsnetzwerke und Transformer-Netzwerke. Praktische Lösungsansätze für Probleme wie
Datenknappheit und die Verwendung von Rechenplattformen mit begrenzter Leistungsfähigkeit werden ebenfalls besprochen. Zum Abschluss geben wir
einen Überblick über verfügbare Audiodatensätze und übliche Evaluationsmaße, mit denen Algorithmen zur akustischen Ereignisdetektion systematisch
getestet werden.