Fraunhofer IDMT
Abstract:
Tiefe neuronale Netze bilden derzeit den Stand der Technik in der automatischen Klassifikation von Audiosignalen. Im Normalfall benötigen sie jedoch
eine große Menge an annotierten Daten, um neue Daten robust zu klassifizieren. In vielen Anwendungsfällen stehen diese Datenmengen jedoch nicht
zur Verfügung, so dass alternative Trainingsstrategien benötigt werden. Das selbstüberwachte Vortraining von neuronalen Netzen hat sowohl in der
Bild- als auch in der Textverarbeitung zu einer deutlichen Verbesserung der Erkennungsleistungen geführt. Hierbei werden i. d. R. mithilfe von
künstlichen Aufgabenstellungen Annotationen erzeugt, die sich aus den Daten ableiten lassen und zum Vortraining der neuronalen Netze geeignet sind.
Für diesen Ansatz können beliebige Datensätze verwendet werden, da im Gegensatz zum überwachten Lernen keine Datenannotationen benötigt
werden. In dieser Arbeit evaluieren wir verschiedene Ansätze des selbstüberwachten Lernens für Audioklassifikation in den Bereichen Musik,
Alltagsklänge sowie industrielle Geräusche und untersuchen insbesondere den Einfluss der Zusammenstellung der Trainingsdaten auf die erreichbare
Erkennungsleistung. Das beste Ergebnis wurde mit dem Contrastive Learning-Ansatz auf dem umfassenden AudioSet-Datensatz als
Trainingsgrundlage erzielt. Hierbei wurden die Ergebnisse im Vergleich zu neuronalen Netzen mit Zufallsgewichten als Startpunkt auf allen Datensätzen
übertroffen, was das große Potenzial von selbstüberwachtem Lernen auch für Audioklassifikation bestätigt.