Selbstüberwachtes Vortraining zur Verbesserung automatischer Audioklassifikationsalgorithmen

Sascha Grollmisch

Fraunhofer IDMT

Donnerstag, 21. März 2024 from 10:40 to 11:00

in Neuer Saal

Abstract:
Tiefe neuronale Netze bilden derzeit den Stand der Technik in der automatischen Klassifikation von Audiosignalen. Im Normalfall benötigen sie jedoch eine große Menge an annotierten Daten, um neue Daten robust zu klassifizieren. In vielen Anwendungsfällen stehen diese Datenmengen jedoch nicht zur Verfügung, so dass alternative Trainingsstrategien benötigt werden. Das selbstüberwachte Vortraining von neuronalen Netzen hat sowohl in der Bild- als auch in der Textverarbeitung zu einer deutlichen Verbesserung der Erkennungsleistungen geführt. Hierbei werden i. d. R. mithilfe von künstlichen Aufgabenstellungen Annotationen erzeugt, die sich aus den Daten ableiten lassen und zum Vortraining der neuronalen Netze geeignet sind. Für diesen Ansatz können beliebige Datensätze verwendet werden, da im Gegensatz zum überwachten Lernen keine Datenannotationen benötigt werden. In dieser Arbeit evaluieren wir verschiedene Ansätze des selbstüberwachten Lernens für Audioklassifikation in den Bereichen Musik, Alltagsklänge sowie industrielle Geräusche und untersuchen insbesondere den Einfluss der Zusammenstellung der Trainingsdaten auf die erreichbare Erkennungsleistung. Das beste Ergebnis wurde mit dem Contrastive Learning-Ansatz auf dem umfassenden AudioSet-Datensatz als Trainingsgrundlage erzielt. Hierbei wurden die Ergebnisse im Vergleich zu neuronalen Netzen mit Zufallsgewichten als Startpunkt auf allen Datensätzen übertroffen, was das große Potenzial von selbstüberwachtem Lernen auch für Audioklassifikation bestätigt.

ICS file for iCal / Outlook

[ Close ]