AutoDistill: Ein Ende
Forscher der University of Illinois Urbana-Champaign und Google stellen AutoDistill vor, ein vollständig automatisiertes End-to-End-Framework zur Modelldestillation, das die Erforschung der Modellarchitektur und die Optimierung mit mehreren Zielen integriert, um hardwareeffiziente vorab trainierte Modelle zur Verarbeitung natürlicher Sprache zu erstellen.
Da KI-gestützte Sprachmodelle immer größer werden, ist die Reduzierung der Bereitstellungskosten zu einem wichtigen Forschungsgebiet geworden. Die Wissensdestillation hat sich als vielversprechende und effektive Methode zur Modellkomprimierung herausgestellt. Bestehende Destillationsmethoden können jedoch Probleme mit der Modellbereitstellung in den heutigen riesigen Rechenzentren haben, wo sie vor Herausforderungen wie der Handhabung sich schnell entwickelnder Modelle, der Berücksichtigung der Bereitstellungsleistung und der Optimierung für mehrere Ziele stehen .
Um diese Probleme zu lösen, hat ein Forschungsteam der University of Illinois Urbana-Champaign und Google AutoDistill eingeführt, ein durchgängiges, vollautomatisches Modelldestillationsframework, das die Erforschung der Modellarchitektur und die Optimierung mit mehreren Zielen für den Aufbau hardwareeffizienter vorab trainierter Modelle integriert Modelle zur Verarbeitung natürlicher Sprache (NLP).
Das Team fasst seine wichtigsten Beiträge wie folgt zusammen:
AutoDistill ist eine End-to-End-Lösung zur Generierung optimierter, aufgabenunabhängiger, vorab trainierter Sprachmodelle für Zielhardwarekonfigurationen. AutoDistill verwendet Benutzeranforderungen, Ziele und Einschränkungen als Eingaben, die wichtige zu berücksichtigende Komponenten darstellen, wie z. B. Vortrainingsaufgaben, Modellentwurfsräume, Zielhardware, Bewertungsmetriken usw.
Der Gesamtablauf für AutoDistill umfasst drei Hauptphasen: Modellexploration, Flash-Destillation und Bewertung. Die Modellexploration dient der Suche nach besser komprimierten Modellen unter Berücksichtigung des Designraums, der Bewertungsmetriken und benutzerdefinierten Einschränkungen. Anschließend wird die Flash-Destillation angewendet, um das vielversprechendste Kandidatenmodell als Schülermodell zu entwickeln, das sowohl aus Datensätzen vor dem Training als auch aus dem Lehrermodell lernt. Diese Phase ist auch für die regelmäßige Destillation mit demselben Lehrermodell, aber unterschiedlichen Trainingsaufbauten verantwortlich. Das flashdestillierte Schülermodell wird dann anhand der Zielaufgaben und der Hardware auf Vorhersagegenauigkeit, Genauigkeit der Vorhersage des nächsten Satzes und Hardwareleistung bewertet. Nachdem alle gewünschten Metriken erfasst wurden, werden die Informationen an die Phase der Modellerkundung zurückgegeben, wo die Suchmaschine das optimale Modell für die nächste Iteration auswählt.
Insbesondere formuliert AutoDistill die Suche nach studentischer Modellarchitektur als Black-Box-Optimierungsproblem und integriert den Bayesian Optimization (BO)-Algorithmus und den cloudbasierten Black-Box-Optimierungsdienst Vizier (Golovin et al., 2017) in die Suchmaschine für studentische Architektur suchen. Die Forscher können gültiges und präzises Hardware-Feedback erfassen, indem sie das Studentenmodell in der vollautomatischen und integrierten Evaluierungsphase auf der Zielhardware und der Softwareumgebung des Rechenzentrums messen.
AutoDistill hat mehrere Vorteile gegenüber früheren Methoden der differenzierbaren neuronalen Architektursuche (DNAS): 1) Es ist kein enormer Aufwand erforderlich, um im Vorfeld ein großes Supernetz auf NLP-Vortrainingsaufgaben zu trainieren. 2) Es lässt sich besser skalieren, um einen viel größeren Designraum zu bewältigen. und 3) Es kann problemlos auf neue Ziele und neue Modelle mit unterschiedlichen Architekturkonfigurationen erweitert werden.
Das Team führte umfangreiche Experimente durch, um AutoDistill zu bewerten. Beim GLUE-Benchmark (General Language Understanding Evaluation) mit neun nachgelagerten Aufgaben zum Verstehen natürlicher Sprache erzielte AutoDistill mit deutlich kleineren Modellgrößen höhere Durchschnittswerte als BERTBASE, DistilBERT, TinyBERT6 und MobileBERT. In Experimenten mit der TPUv4i-Hardware von Google erzielten mit AutoDistill generierte Modelle im Vergleich zu MobileBERT eine bis zu 3,2 Prozent höhere vorab trainierte Genauigkeit und eine bis zu 1,44-fache Beschleunigung der Latenz.
Insgesamt verbessert AutoDistill sowohl die Vorhersagegenauigkeit als auch die Bereitstellungslatenz auf der Zielhardware, was auf sein Versprechen und Potenzial für die Erstellung hardwareeffizienter vorab trainierter NLP-Modelle der nächsten Generation hinweist.
Der Artikel AutoDistill: an End-to-End Framework to Explore and Distill Hardware-Efficient Language Models ist auf arXiv verfügbar.
Autor: Hekate Er |Editor: Michael Sarazen
Wir wissen, dass Sie keine Neuigkeiten oder Forschungsdurchbrüche verpassen möchten.Abonnieren Sie unseren beliebten Newsletter Synced Global AI Weekly, um wöchentliche KI-Updates zu erhalten.
Maschinenintelligenz | Technologie & Industrie | Information & Analyse
Ich mag diesen Blog wirklich, weil er sehr informativ und technikbezogen ist. Vielen Dank für das Teilen und Ansehen des IFO DEVELOPMENT LAUNCHPAD
Dieser Artikel ist sehr informativ und sehr nützlich, danke fürs Teilen!! Erste Austauschangebotsentwicklung
guuuut
Deine Email-Adresse wird nicht veröffentlicht. Erforderliche Felder sind markiert *
Kommentar *
Name
Webseite
Benachrichtigen Sie mich über nachfolgende Kommentare per E-Mail.
Benachrichtigen Sie mich per E-Mail über neue Beiträge.
D
Autor Herausgeber Abonnieren Sie unseren beliebten Newsletter Synced Global AI Weekly, um wöchentliche KI-Updates zu erhalten.