Audio Codierung für maschinelle Anwendungen

Thomas Sporer

Fraunhofer IDMT

Dienstag, 19. März 2024 from 14:20 to 14:40

in Roter Saal

Abstract:
MPEG-Standards werden in vielen Geräten der Informations- und Kommunikationstechnik verwendet. Hierbei werden niedrige Datenraten bei hoher wahrgenommener Audio-Qualität durch die Einbeziehung von psychoakustischen Modellen erreicht. Hingegen sollten KI-Algorithmen zur Erkennung von Geräuschen und akustischen Szenen Zugriff auf die gesamten Audio-Daten haben und nicht auf den dem menschlichen Gehör zugänglichen Teilbereich beschränkt sein. Die Güte von KI-Algorithmen wird oft limitiert durch die Mächtigkeit und Qualität der Trainingsdaten. Bei vielen Anwendungen ist Zuverlässigkeit der Algorithmen wichtig, und „halluzinieren“ ist nicht akzeptabel. Große Mengen von Trainingsdaten mit möglichst vielen, maschinenlesbaren Metadaten müssen daher effizient gespeichert werden können. MPEG WG2 und WG6 explorieren derzeit, ob ein neues Standardisierungsprojekt „Audio Coding for Machines (ACoM)“ gestartet werden soll. Der Vortrag stellt den derzeitigen Stand der Arbeiten in MPEG dar: In einer ersten Phase sollte ein universelles, verlustloses Datenformat zur effizienten Speicherung von räumlichen Audiodaten und den zugehörigen Metadaten entstehen. Neben der Speicherung von Trainingsdaten soll das Datenformat auch für die Vernetzung von verteilten akustischen Sensoren mit einer zentralen Verarbeitungseinrichtung nutzbar sein. Derzeit genauer betrachtete Anwendungen sind „vorausschauende Instandhaltung“, „Prozess-Steuerung“, „Qualitätskontrolle“, „Verkehrs- und Baustellenüberwachung“ sowie „Überwachung des persönlichen Lebensumfelds“. MPEG ist interessiert an der Mitarbeit von Firmen und Universitäten.

ICS file for iCal / Outlook

[ Close ]