MIT-Forscher machen Sprachmodelle selbst skalierbar | ClearVitality Innovations Co., Ltd

Vorheriges Bild Nächstes Bild

Sokrates sagte einmal: „Es ist nicht die Größe einer Sache, sondern die Qualität, die wirklich zählt. Denn der wahre Wert liegt in der Beschaffenheit der Substanz, nicht in ihrem Volumen.“

Spielt die Größe bei großen Sprachmodellen (LLMs) immer eine Rolle? In einer technologischen Landschaft, die von LLMs im Mittelpunkt steht, ist ein Team von Forschern des MIT Computer Science and Artificial Intelligence Laboratory (CSAIL) der Meinung, dass kleinere Modelle nicht übersehen werden sollten, insbesondere bei Produkten zum Verständnis natürlicher Sprache, die in der Branche weit verbreitet sind.

Zu diesem Zweck entwickelten die Forscher einen Ansatz für die seit langem bestehenden Probleme der Ineffizienz und des Datenschutzes, die mit großen, textbasierten KI-Modellen einhergehen – ein logikbewusstes Modell, das bei einigen Sprachverständnisaufgaben ohne menschliche Hilfe 500-mal größere Gegenstücke übertrifft. generierte Anmerkungen unter Wahrung der Privatsphäre und Robustheit bei hoher Leistung.

LLMs, die einige vielversprechende Fähigkeiten bei der Generierung von Sprache, Kunst und Code gezeigt haben, sind rechenintensiv und ihre Datenanforderungen können bei der Verwendung von Anwendungsprogrammierschnittstellen zum Hochladen von Daten zu Datenschutzverletzungen führen. Kleinere Modelle waren in der Vergangenheit im Vergleich zu ihren größeren Gegenstücken insbesondere bei Multitasking und schwach überwachten Aufgaben weniger leistungsfähig.

Was hilft diesen kleineren Modellen dann, so mächtig zu wirken? Etwas, das als „textuelle Folgerung“ bezeichnet wird und diesen Modellen hilft, eine Vielzahl von Sprachaufgaben zu verstehen. Wenn ein Satz (die Prämisse) wahr ist, ist es wahrscheinlich, dass auch der andere Satz (die Hypothese) wahr ist. Wenn die Prämisse beispielsweise lautet: „Alle Katzen haben einen Schwanz“, dann würde die Hypothese „Eine getigerte Katze hat einen Schwanz“ impliziert. Dieses Konzept wird verwendet, um ein „Entailment-Modell“ zu trainieren, das sich aus früheren Untersuchungen des Teams als weniger voreingenommen erwiesen hat als andere Sprachmodelle. Anschließend erstellten sie „Eingabeaufforderungen“, mit denen die Modelle herausfinden können, ob bestimmte Informationen in einem bestimmten Satz oder einer bestimmten Phrase für verschiedene Aufgaben enthalten sind. Diese Methode verbesserte die Fähigkeit des Modells, sich ohne zusätzliches Training an verschiedene Aufgaben anzupassen, was als Null bezeichnet wird -Shot-Adaption.

Im Bereich des „Verstehens natürlicher Sprache“ gibt es verschiedene Anwendungen, bei denen es auf die Bestimmung der Beziehung zwischen zwei Textteilen ankommt. Bei der Stimmungsklassifizierung kann beispielsweise eine Aussage wie „Ich finde den Film gut“ aus einer Filmrezension abgeleitet oder abgeleitet werden, die besagt: „Ich mag die Geschichte und die Schauspielerei sind großartig“, was auf eine positive Stimmung hinweist. Eine weitere Möglichkeit ist die Nachrichtenklassifizierung, bei der das Thema eines Nachrichtenartikels aus seinem Inhalt abgeleitet werden kann. Beispielsweise kann eine Aussage wie „Der Nachrichtenartikel handelt von Sport“ nach sich ziehen, wenn der Hauptinhalt des Artikels über ein NBA-Spiel berichtet. Die wichtigste Erkenntnis war, dass viele bestehende Aufgaben zum Verstehen natürlicher Sprache in eine Folgeaufgabe (dh logische Schlussfolgerung in natürlicher Sprache) umgewandelt werden könnten.

„Bei unserer Forschung geht es darum, die Fähigkeit von Computerprogrammen zu verbessern, natürliche Sprache zu verstehen und zu verarbeiten – die Art und Weise, wie Menschen sprechen und schreiben. Unsere selbst trainierten Entailment-Modelle mit 350 Millionen Parametern und ohne vom Menschen generierte Bezeichnungen übertreffen überwachte Sprachmodelle mit 137 auf 175 Milliarden Parameter“, sagt MIT CSAIL-Postdoc Hongyin Luo, Hauptautor eines neuen Artikels über die Studie. „Dies hat das Potenzial, die Landschaft von KI und maschinellem Lernen neu zu gestalten und eine skalierbarere, vertrauenswürdigere und kostengünstigere Lösung für die Sprachmodellierung bereitzustellen“, sagt Luo. „Durch den Nachweis, dass kleinere Modelle beim Sprachverständnis die gleiche Leistung wie größere erbringen können, ebnet diese Arbeit den Weg für nachhaltigere und die Privatsphäre schützende KI-Technologien.“

Das Team entdeckte, dass es die Leistung des Modells noch weiter verbessern konnte, indem es eine Technik namens „Selbsttraining“ nutzte, bei der das Modell seine eigenen Vorhersagen nutzt, um sich selbst beizubringen, und so ohne menschliche Aufsicht und zusätzliche annotierte Trainingsdaten effektiv lernt. Die Selbsttrainingsmethode Die Leistung bei einer Reihe nachgelagerter Aufgaben, einschließlich Stimmungsanalyse, Fragebeantwortung und Nachrichtenklassifizierung, wurde erheblich verbessert. Es übertraf sowohl Googles LaMDA als auch FLAN in Bezug auf Zero-Shot-Funktionen, GPT-Modelle und andere überwachte Algorithmen.

Eine Herausforderung beim Selbsttraining besteht jedoch darin, dass das Modell manchmal falsche oder verrauschte Bezeichnungen generieren kann, die die Leistung beeinträchtigen. Um dieses Problem zu lösen, entwickelten sie einen neuen Algorithmus namens „SimPLE“ (Simple Pseudo-Label Editing), einen Prozess zur Überprüfung und Änderung der in den ersten Lernrunden erstellten Pseudo-Labels. Durch die Korrektur etwaiger falsch gekennzeichneter Instanzen wurde die Gesamtqualität der selbst erstellten Etiketten verbessert. Dies machte die Modelle nicht nur effektiver beim Verstehen von Sprache, sondern auch robuster gegenüber widersprüchlichen Daten.

Wie bei den meisten Forschungsarbeiten gibt es einige Einschränkungen. Das Selbsttraining bei Mehrklassen-Klassifizierungsaufgaben erbrachte bei Aufgaben zum Verstehen binärer natürlicher Sprache keine so gute Leistung, was auf die Herausforderung hindeutet, Folgerungsmodelle auf Multi-Choice-Aufgaben anzuwenden. „Diese Forschung stellt eine effiziente und effektive Möglichkeit dar, große Sprachen zu trainieren „Modelle (LLMs) durch die Formulierung von Aufgaben zum Verstehen natürlicher Sprache als kontextuelle Entailment-Probleme und den Einsatz eines Pseudo-Labeling-Selbsttrainingsmechanismus, um große Mengen unbeschrifteter Textdaten in den Trainingsprozess einzubeziehen“, fügt James Glass, Senior Research Scientist bei CSAIL, hinzu Autor auf dem Papier. „Während der Bereich der LLMs schnelle und dramatische Veränderungen durchläuft, zeigt diese Forschung, dass es möglich ist, relativ kompakte Sprachmodelle zu erstellen, die bei Benchmark-Verständnisaufgaben im Vergleich zu ihren etwa gleich großen oder sogar viel größeren Sprachmodellen sehr gut abschneiden.“ ."

„Entailment-Aufgabe ist ein beliebter Proxy, um das „Verständnis“ eines bestimmten Kontexts durch ein KI-Modell zu bewerten“, sagt Leonid Karlinsky, Forschungsmitarbeiter am MIT-IBM Watson AI Lab. „Es wird in vielen Bereichen verwendet, um Modelle mit unimodalen Eingaben wie LLMs und multimodalen Eingaben wie VLMs (visuelle Sprachmodelle) zu analysieren und die Aufgabe der Beantwortung von Fragen zu einem bestimmten Eingabekontext für ein binäres Klassifizierungsproblem zu vereinfachen Kontext eine bestimmte (z. B. Text-) Schlussfolgerung mit sich bringen oder nicht? Dieses Papier leistet zwei Beiträge in diesem Bereich. Erstens schlägt es eine Möglichkeit vor, die Zero-Shot-NLU-Leistung (ohne zusätzliche Abstimmung) und die Robustheit gegenüber gegnerischen Angriffen durch Abstimmung mit synthetisierten zu verbessern (spezialisierte) Entailment-Aufgaben, die für die ursprüngliche NLU-Aufgabe generiert wurden. Zweitens bietet es eine selbstüberwachte SimPLE-Methode einschließlich Pseudo-Labeling und konfidenzbasierter Filterung, um die NLU-Leistung großer LLMs weiter zu verbessern.“

Luo und Glass verfassten die Arbeit zusammen mit Yoon Kim, einem CSAIL-Mitglied und Assistenzprofessor an der Fakultät für Elektrotechnik und Informatik des MIT, und Jiaxin Ge von der Universität Peking. Ihre Arbeit wird diesen Juli auf dem Treffen der Association for Computational Linguistics in Toronto, Ontario, vorgestellt. Diese Forschung wurde durch ein Stipendium des Hong Kong Innovation AI-Programms unterstützt.

Vorheriger Artikel Nächster Artikel