banner
Nachrichtenzentrum
Artikuliert und kompetent in ihrem Fachwissen.

Audio skalieren

Aug 04, 2023

Vorheriges Bild Nächstes Bild

Forscher des MIT, des MIT-IBM Watson AI Lab, von IBM Research und anderswo haben eine neue Technik zur Analyse unbeschrifteter Audio- und Bilddaten entwickelt, die die Leistung von Modellen des maschinellen Lernens verbessern könnte, die in Anwendungen wie Spracherkennung und Objekterkennung verwendet werden. Die Arbeit kombiniert zum ersten Mal zwei Architekturen des selbstüberwachten Lernens, des kontrastiven Lernens und der maskierten Datenmodellierung, um maschinelle Lernaufgaben wie die Ereignisklassifizierung in ein- und multimodalen Daten ohne die Notwendigkeit einer Annotation zu skalieren und so zu replizieren wie Menschen unsere Welt verstehen und wahrnehmen.

„Ein größerer Teil des menschlichen Wissens wird auf selbstüberwachte Weise erlernt, da wir nicht immer Überwachungssignale erhalten, und wir möchten, dass das Modell des maschinellen Lernens über die gleichen Fähigkeiten verfügt“, sagt Yuan Gong, Postdoktorand am MIT im Labor für Informatik und künstliche Intelligenz (CSAIL).

„Mit anderen Worten: Selbstüberwachtes Lernen bildet oft die Grundlage eines anfänglichen Modells, da es auf riesigen Mengen unbeschrifteter Daten lernen kann. Und dann können Sie klassisches, überwachtes Lernen oder verstärkendes Lernen verwenden, um das Modell zu verfeinern.“ Modell auf etwas Bestimmtes umstellen, wenn Sie möchten“, sagt Jim Glass, leitender Forschungswissenschaftler am MIT und Mitglied des MIT-IBM Watson AI Lab.

Die als kontrastiver audiovisueller maskierter Autoencoder (CAV-MAE) bezeichnete Technik ist eine Art neuronales Netzwerk, das lernen kann, aus akustischen und visuellen Daten aussagekräftige latente Darstellungen zu extrahieren und in einen hochdimensionalen Raum abzubilden, indem es an großen YouTube-Datensätzen trainiert Audio- und Videoclips von 10 Sekunden Länge. Die Forscher sagen, dass die Technik effektiver ist als frühere Ansätze, weil sie die Beziehungen zwischen Audio- und visuellen Daten explizit auf eine Weise modelliert, die bei anderen Methoden nicht möglich ist.

An der Studie nehmen neben Gong und Glass die Doktoranden Andrew Rouditchenko und Alexander H. Liu vom MIT, David Harwath PhD '18 von der University of Texas in Austin sowie die MIT-IBM Watson AI Lab-Mitglieder Leonid Karlinsky und Hilde Kuehne teil. Kühne ist außerdem mit der Goethe-Universität Frankfurt verbunden. Die Methode wurde kürzlich auf der International Conference on Learning Representations vorgestellt.

Ein gemeinsames und koordiniertes Vorgehen

Das CAV-MAE funktioniert nach „Lernen durch Vorhersage“ und „Lernen durch Vergleich“, sagt Gong. Bei der maskierten Datenmodellierung oder Vorhersagemethode wird ein Video zusammen mit seiner koordinierten Audiowellenform aufgenommen, das Audio in ein Spektrogramm umgewandelt und 75 Prozent von beidem maskiert. Die entlarvten Daten werden tokenisiert und dann in separate Audio- und visuelle Encoder eingespeist, bevor sie in einen gemeinsamen Encoder/Decoder gelangen, wo das Modell aufgefordert wird, die fehlenden Daten wiederherzustellen. Der Unterschied (Rekonstruktionsverlust) zwischen der resultierenden rekonstruierten Vorhersage und der ursprünglichen audiovisuellen Kombination wird dann verwendet, um das Modell für eine bessere Leistung zu trainieren. Ein Beispiel hierfür wäre die Abdeckung eines Teils eines Videos eines Klaviers und eines Teils eines Spektrogramms von Klaviermusik und die anschließende Aufforderung an das Modell, zu versuchen, die maskierten Eingaben zu ermitteln. Leider erfasst diese Methode möglicherweise nicht die Assoziation zwischen dem Video- und Audiopaar, wohingegen kontrastives Lernen dies nutzt, aber möglicherweise einige modalitätsspezifische Informationen, wie den Hintergrund in einem Video, vernachlässigt.

Kontrastives Lernen zielt darauf ab, Darstellungen abzubilden, die nahe beieinander liegen. Beispielsweise wird das Modell versuchen, verschiedene Video- und Audiodaten verschiedener Papageien nahe beieinander und weiter entfernt von Video- und Audiopaaren spielender Gitarren zu platzieren. Ähnlich wie bei der maskierten Autokodierung werden audiovisuelle Paare an separate Modalitätskodierer übergeben; Allerdings werden die Audio- und visuellen Komponenten im gemeinsamen Encoder getrennt gehalten, bevor das Modell Pooling und Kontrastverlust durchführt. Auf diese Weise versucht kontrastives Lernen, die Teile jedes Audios oder Videos zu identifizieren, die für das andere am relevantesten sind. Wenn in einem Video beispielsweise jemand beim Sprechen zu sehen ist und der entsprechende Audioclip Sprache enthält, lernt der Autoencoder, die Mundbewegungen des Sprechers mit den gesprochenen Wörtern zu verknüpfen. Anschließend werden die Parameter des Modells so angepasst, dass diese Eingaben nahe beieinander dargestellt werden. Letztendlich kombiniert die CAV-MAE-Methode beide Techniken mit mehreren Vorwärtsdatenströmen mit Maskierung als erstem Schritt, modalitätsspezifischen Encodern und Layer-Normalisierung, sodass die Darstellungsstärken ähnlich sind.

„Wir wollten [damals] das vorgeschlagene CAV-MAE mit einem Modell vergleichen, das nur mit einem maskierten Autoencoder trainiert wurde, und einem Modell, das nur mit kontrastivem Lernen trainiert wurde, weil wir zeigen wollen, dass wir durch die Kombination von maskiertem Autoencoder und kontrastivem Lernen eine gewisse Leistung erzielen können.“ Verbesserung“, sagt Gong, „und die Ergebnisse stützen unsere Hypothese, dass es eine offensichtliche Verbesserung gibt.“

Die Forscher testeten CAV-MAE – sowie ihre Methode ohne Kontrastverlust oder einen maskierten Autoencoder – im Vergleich zu anderen hochmodernen Methoden für audiovisuelle Retrieval- und audiovisuelle Ereignisklassifizierungsaufgaben unter Verwendung von Standard-AudioSet (20K und 2M). und VGGSound-Datensätze – beschriftete, realistische kurze Clips, die mehrere Sounds enthalten können. Audiovisueller Abruf bedeutet, dass das Modell entweder die Audio- oder die visuelle Komponente eines Abfragepaars sieht und nach der fehlenden sucht; Die Ereignisklassifizierung umfasst die Identifizierung von Aktionen oder Geräuschen in Daten, beispielsweise einer singenden Person oder einem fahrenden Auto.

Insgesamt stellten sie fest, dass kontrastives Lernen und maskierte Datenmodellierung komplementäre Methoden sind. CAV-MAE war in der Lage, frühere Techniken (mit vollständig selbstüberwachtem Vortraining) bei der Ereignisklassifizierungsleistung im Vergleich zu Modellen mit vergleichbarer Berechnung um etwa 2 Prozent zu übertreffen und, was noch beeindruckender ist, mit Modellen mit branchenüblichen Rechenressourcen Schritt zu halten oder diese zu übertreffen. Das Modell des Teams rangierte ähnlich wie Modelle, die nur mit dem Kontrastverlust trainiert wurden. Und überraschenderweise, so das Team, verbessert die Einbeziehung multimodaler Daten in das CAV-MAE-Vortraining die Feinabstimmung der Einzelmodalitätsdarstellung durch überwachtes Lernen (mit einigen gekennzeichneten Daten) und die Leistung bei reinen Audio-Ereignisklassifizierungsaufgaben erheblich . Dies zeigt, dass multimodale Informationen wie Menschen einen zusätzlichen „Soft-Label“-Schub bieten, selbst bei reinen Audio- oder visuellen Aufgaben; Beispielsweise hilft es dem Modell zu verstehen, ob es nach einer elektrischen oder akustischen Gitarre sucht – ein reichhaltigeres Überwachungssignal.

„Ich denke, den Leuten gefällt die Eleganz dieses Modells zum Kombinieren von Informationen in den verschiedenen Audio- und Videoströmen. Es weist den Kontrast- und Rekonstruktionsverlust auf und schneidet im Vergleich zu Modellen, die mit ähnlichen Daten ausgewertet wurden, in einem bestimmten Bereich eindeutig sehr gut ab.“ dieser Aufgaben", sagt Glass.

Darauf aufbauend „ist eine Besonderheit, dass unser Modell sowohl eine Klassifizierung als auch einen Abruf durchführen kann, was nicht üblich ist“, fügt Gong hinzu. „Vor dieser Arbeit wurden diese Methoden separat verwendet, aber nach dieser Arbeit sehe ich, dass die meisten audiovisuellen Lernrahmen implizit oder explizit den Kontraktionsverlust und den maskierten Autoencoder zusammen verwenden.“

Wir bringen selbstüberwachtes audiovisuelles Lernen in unsere Welt

Die Forscher sehen ihren Beitrag des kontrastiven audiovisuellen maskierten Autoencoders (CAV-MAE) als wichtigen Meilenstein und Fortschritt für Anwendungen, die sich zunehmend von Einzelmodalität zu Multimodalität bewegen und die audiovisuelle Fusion erfordern oder nutzen. Sie gehen davon aus, dass es eines Tages zur Handlungserkennung in Bereichen wie Sport, Bildung, Unterhaltung, Kraftfahrzeuge und öffentliche Sicherheit eingesetzt werden könnte. Es könnte eines Tages auch auf andere Modalitäten ausgeweitet werden. Derzeit mag die Tatsache, dass „dies nur für audiovisuelle Daten gilt, eine Einschränkung darstellen, aber wir zielen auf multimodales Lernen ab, was ein Trend des maschinellen Lernens ist“, sagt Gong. „Als Menschen verfügen wir über Multimodalitäten – wir haben Gerüche, Berührungen – viele weitere Dinge, die nicht nur audiovisuell sind. Wenn wir also versuchen, KI zu entwickeln, versuchen wir, Menschen irgendwie nachzuahmen, nicht unbedingt aus der biologischen Perspektive, und das.“ Die Methode könnte [potenziell] auf andere unerforschte Modalitäten verallgemeinert werden.“

Da maschinelle Lernmodelle weiterhin eine immer wichtigere Rolle in unserem Leben spielen, werden Techniken wie diese immer wertvoller.

Diese Forschung wurde vom MIT-IBM Watson AI Lab unterstützt.

Vorheriger Artikel Nächster Artikel

Ein gemeinsamer und koordinierter Ansatz, der selbstüberwachtes audiovisuelles Lernen in unsere Welt bringt