banner
Nachrichtenzentrum
Artikuliert und kompetent in ihrem Fachwissen.

Hinweise auf eine prädiktive Codierungshierarchie im menschlichen Gehirn beim Hören von Sprache

May 07, 2023

Nature Human Behavior Band 7, Seiten 430–441 (2023)Diesen Artikel zitieren

79.000 Zugriffe

1170 Altmetrisch

Details zu den Metriken

In der Verarbeitung natürlicher Sprache wurden in letzter Zeit erhebliche Fortschritte erzielt: Deep-Learning-Algorithmen sind zunehmend in der Lage, Texte zu generieren, zusammenzufassen, zu übersetzen und zu klassifizieren. Dennoch entsprechen diese Sprachmodelle immer noch nicht den Sprachfähigkeiten des Menschen. Die prädiktive Codierungstheorie bietet eine vorläufige Erklärung für diese Diskrepanz: Während Sprachmodelle darauf optimiert sind, Wörter in der Nähe vorherzusagen, würde das menschliche Gehirn kontinuierlich eine Hierarchie von Darstellungen vorhersagen, die sich über mehrere Zeitskalen erstreckt. Um diese Hypothese zu testen, analysierten wir die Gehirnsignale der funktionellen Magnetresonanztomographie von 304 Teilnehmern, die Kurzgeschichten hörten. Zunächst haben wir bestätigt, dass sich die Aktivierungen moderner Sprachmodelle linear auf die Gehirnreaktionen auf Sprache auswirken. Zweitens haben wir gezeigt, dass die Erweiterung dieser Algorithmen mit Vorhersagen, die sich über mehrere Zeitskalen erstrecken, diese Gehirnkartierung verbessert. Schließlich haben wir gezeigt, dass diese Vorhersagen hierarchisch organisiert sind: Frontoparietale Kortizes sagen Darstellungen auf höherer Ebene, mit größerer Reichweite und mehr Kontext voraus als temporale Kortizes. Insgesamt stärken diese Ergebnisse die Rolle der hierarchischen prädiktiven Codierung bei der Sprachverarbeitung und veranschaulichen, wie die Synergie zwischen Neurowissenschaften und künstlicher Intelligenz die rechnerischen Grundlagen der menschlichen Kognition entschlüsseln kann.

In weniger als drei Jahren hat Deep Learning erhebliche Fortschritte bei der Textgenerierung, -übersetzung und -vervollständigung gemacht1,2,3,4 dank Algorithmen, die mit einem einfachen Ziel trainiert wurden: Wörter aus ihrem nahegelegenen Kontext vorherzusagen. Bemerkenswerterweise hat sich gezeigt, dass die Aktivierungen dieser Modelle linear auf die Reaktionen des menschlichen Gehirns auf Sprache und Text abgebildet werden5,6,7,8,9,10,11,12. Darüber hinaus hängt diese Zuordnung in erster Linie von der Fähigkeit der Algorithmen ab, zukünftige Wörter vorherzusagen7,8, was darauf hindeutet, dass dieses Ziel ausreicht, um sie zu gehirnähnlichen Berechnungen konvergieren zu lassen.

Dennoch besteht weiterhin eine Kluft zwischen Menschen und diesen Algorithmen: Trotz umfangreicher Trainingsdaten werden aktuelle Sprachmodelle durch die Generierung langer Geschichten, die Zusammenfassung und den kohärenten Dialog sowie den Informationsabruf herausgefordert13,14,15,16,17; Sie können mehrere syntaktische Konstrukte und semantische Eigenschaften nicht erfassen18,19,20,21,22 und ihr sprachliches Verständnis ist oberflächlich19,21,22,23,24. Beispielsweise neigen sie dazu, das Verb in verschachtelten Phrasen fälschlicherweise dem Subjekt zuzuordnen, etwa „die Schlüssel, die der Mann hält, SIND hier“20. Wenn die Textgenerierung nur auf die Vorhersage des nächsten Wortes optimiert wird, erzeugen Deep-Language-Modelle ebenfalls langweilige, inkohärente Sequenzen oder bleiben in Wiederholungsschleifen stecken13.

Die prädiktive Kodierungstheorie25,26,27 bietet eine mögliche Erklärung für diese Mängel; Während tiefe Sprachmodelle meist darauf abgestimmt sind, das nächste Wort vorherzusagen, legt dieses Framework nahe, dass das menschliche Gehirn Vorhersagen über mehrere Zeitskalen und Darstellungsebenen in der kortikalen Hierarchie trifft28,29 (Abb. 1a).

Frühere Arbeiten haben bereits Sprachvorhersagen im Gehirn nachgewiesen, indem sie Wort- oder phonetische Überraschungen, d. 36, Magnetenzephalographie37 und Elektrokortikographie11,38. Solche überraschenden Schätzungen stammen jedoch von Modellen, die darauf trainiert sind, das nächste Wort oder Phonem vorherzusagen und ihre Ausgabe auf eine einzige Zahl, also die Wahrscheinlichkeit des nächsten Tokens, zu reduzieren. Folglich sind die Art der vorhergesagten Darstellungen und ihr zeitlicher Umfang weitgehend unbekannt.

In dieser Studie gehen wir diese Probleme an, indem wir die Gehirnsignale von 304 Personen analysieren, die Kurzgeschichten hören, während ihre Gehirnaktivität mit fMRT aufgezeichnet wird39. Nachdem wir bestätigt haben, dass Deep-Language-Algorithmen die Gehirnaktivität linear abbilden6,8,40, zeigen wir, dass die Erweiterung dieser Modelle mit weitreichenden und mehrstufigen Vorhersagen diese Gehirnabbildung verbessert. Entscheidend ist, dass unsere Ergebnisse im Einklang mit der prädiktiven Codierungstheorie eine hierarchische Organisation von Sprachvorhersagen im Kortex offenbaren, in der die höchsten Bereiche die am weitesten entfernten und höchststufigen Darstellungen vorhersagen.

a: Deep-Language-Algorithmen werden typischerweise darauf trainiert, Wörter aus ihrem engen Kontext vorherzusagen. Im Gegensatz zu diesen Algorithmen macht das Gehirn gemäß der prädiktiven Codierungstheorie (1) weitreichende und (2) hierarchische Vorhersagen. b: Um diese Hypothese zu testen, haben wir zunächst die fMRT-Signale von 304 Personen extrahiert, die jeweils ca. 26 Minuten Kurzgeschichten (Y) hörten, sowie die Aktivierungen eines Deep-Language-Algorithmus (X), der mit denselben Geschichten eingegeben wurde. Anschließend haben wir die Ähnlichkeit zwischen X und Y mit einem „Brain Score“ quantifiziert: einer Pearson-Korrelation \({{{\mathcal{R}}}}\) nach einer optimalen linearen Projektion W (Methoden). c: Um zu testen, ob das Hinzufügen von Darstellungen zukünftiger Wörter (oder vorhergesagter Wörter; ergänzende Abbildung 4) diese Korrelation verbessert, haben wir die Aktivierungen des Netzwerks (X, hier als schwarzes Rechteck dargestellt) mit den Aktivierungen eines Prognosefensters verkettet (⊕). ' (\(\tilde{X}\), hier als farbiges Rechteck dargestellt). Wir haben PCA verwendet, um die Dimensionalität des Prognosefensters auf die Dimensionalität von zu diesem Prognosefenster. Wir haben diese Analyse mit unterschiedlich weit entfernten Fenstern wiederholt (d, Methoden). d, Oben: Ein flacher Prognosewert über die Distanzen weist darauf hin, dass Prognosedarstellungen den Algorithmus nicht dem Gehirn ähnlicher machen. Im Gegensatz dazu würde ein Prognosewert, der bei d > 1 seinen Höhepunkt erreicht, darauf hinweisen, dass dem Modell eine gehirnähnliche Prognose fehlt. Der Spitzenwert von \({{{{\mathcal{F}}}}}^{d}\) gibt an, wie weit der Algorithmus in der Zukunft entfernt sein müsste, um Darstellungen vorherzusagen, die dem Gehirn am ähnlichsten sind.

Zunächst haben wir die Ähnlichkeit zwischen tiefen Sprachmodellen und dem Gehirn quantifiziert, wenn diese beiden Systeme mit denselben Geschichten eingegeben werden. Hierzu verwendeten wir den Narratives-Datensatz39 und analysierten das fMRT von 304 Personen, die Kurzgeschichten hörten (27 Geschichten mit einer Länge von 7 bis 56 Minuten; insgesamt 4,6 Stunden einzigartiger Reiz, durchschnittlich 26 Minuten pro Teilnehmer, von 7 bis 99 Minuten). . Anschließend haben wir für jedes Voxel und jedes Individuum unabhängig eine lineare Ridge-Regression angepasst, um die fMRT-Signale aus den Aktivierungen mehrerer Deep-Language-Modelle vorherzusagen. Schließlich berechneten wir die entsprechenden „Gehirnwerte“ anhand zurückgehaltener Daten, d. h. der voxelweisen Korrelation zwischen den fMRT-Signalen und den Vorhersagen der Ridge-Regressionseingabe mit den Aktivierungen eines bestimmten Sprachmodells (Abb. 1b). Aus Gründen der Klarheit haben wir uns zunächst auf die Aktivierungen der achten Schicht des Generative Pre-trained Transformer 2 (GPT-2) konzentriert, einem 12-schichtigen kausalen tiefen neuronalen Netzwerk, das von HuggingFace2 bereitgestellt wird, da es die Gehirnaktivität am besten vorhersagt7,8.

Im Einklang mit früheren Studien5,7,40,41 lassen sich die Aktivierungen von GPT-2 genau auf einen verteilten und bilateralen Satz von Gehirnbereichen abbilden. Die Gehirnwerte erreichten ihren Höhepunkt im auditorischen Kortex sowie im vorderen und oberen temporalen Bereich (Abb. 2a, ergänzende Abb. 1, ergänzende Anmerkung 1 und ergänzende Tabellen 1–3). Die Effektgrößen dieser Gehirn-Scores stimmen mit früheren Arbeiten7,42,43 überein: Beispielsweise stellen die höchsten Gehirn-Scores (R = 0,23 im Sulcus temporalis superior (Abb. 2a)) 60 % des maximal erklärbaren Signals dar, wie z mit einer Lärmdeckenanalyse bewertet (Methoden). Ergänzende Anmerkung 2 und ergänzende Abbildung 2 zeigen, dass mit anderen modernen Sprachmodellen im Durchschnitt ähnliche Gehirnwerte erzielt werden, und ergänzende Abbildung 3 zeigt, dass Hörregionen mit Sprachdarstellungen auf niedrigerer Ebene weiter verbessert werden können. Wie erwartet erreichten die Gehirnbewertung der Wortrate (ergänzende Abbildung 3), der Rauschobergrenze (Methoden) und GPT-2 (Abb. 2a) alle ihren Höhepunkt im Sprachnetzwerk . Insgesamt bestätigen diese Ergebnisse, dass Deep-Language-Modelle die Reaktionen des Gehirns auf gesprochene Geschichten linear abbilden.

a, Der „Gehirn-Score“ (\({{{\mathcal{R}}}}\); Abb. 1b und Methoden), erhalten mit GPT-2, für jedes Individuum und jedes Voxel, hier gemittelt über Individuen (n = 304). Nur die Voxel mit signifikanten Gehirnwerten sind farblich gekennzeichnet. b: Durchschnittliche (über Voxel hinweg) Gehirn-Scores, die mit GPT-2 mit (grau) oder ohne (blau) Prognosedarstellungen erhalten wurden. Der durchschnittliche Brain-Score erreicht seinen Höhepunkt bei d* = 8 (grauer Stern). c, Für jedes Voxel der durchschnittliche (individuell) „Prognose-Score“ \({{{{\mathcal{F}}}}}^{d}\), d. h. der Gewinn im Gehirn-Score bei der Verkettung der Aktivierungen von GPT-2 mit einem Prognosefenster \({\tilde{X}}^{(8)}\) wird angezeigt. Nur die Voxel mit signifikanten Prognosewerten sind farblich gekennzeichnet. d, Durchschnittliche (über Voxel hinweg) Prognosewerte für unterschiedliche Entfernungen d. e, Abstand, der \({{{{\mathcal{F}}}}}^{d}\ maximiert), berechnet für jedes Individuum und jedes Voxel und bezeichnet mit d*. Diese „Prognosedistanz“ zeigt die Regionen auf, die mit kurz- und langfristigen Vorhersagen verbunden sind. Regionen in Rot und Blau sind mit Langfrist- bzw. Kurzfristprognosen verbunden. Wir zeigen nur die Voxel mit einem signifikanten durchschnittlichen Peak an (\({{{{\mathcal{F}}}}}^{{d}^{* }}-{{{{\mathcal{F}}}}} ^{0},{d}^{* }=\,8\); Methoden). f, Prognosewert innerhalb von zwei interessierenden Regionen. Für jede Region berichten wir über die durchschnittlichen Prognosewerte von Personen mit einem repräsentativen Peak (Personen, deren Peak zu den 45–55 Perzentilen aller Peaks gehört, n = 30 Personen). g: Vorhersage der Entfernung von sieben interessierenden Regionen, berechnet für jedes Voxel jedes Individuums und dann gemittelt innerhalb der ausgewählten Gehirnregionen. Für alle Panels berichten wir über den durchschnittlichen Effekt aller Individuen (n = 304) mit den 95 %-KIs aller Individuen (b, d, f). Die P-Werte wurden mit einem zweiseitigen Wilcoxon-Signed-Rank-Test für alle Personen ermittelt. In a, c, e wurden die P-Werte für mehrere Vergleiche zwischen Voxeln mithilfe des FDR korrigiert und die Gehirnkarten haben einen Schwellenwert von P < 0,01. Das Boxplot in g fasst die Verteilung des erzielten Effekts auf zehn verschiedene und zufällige Unterteilungen des Datensatzes zusammen.

Als nächstes testeten wir, ob die Verbesserung der Aktivierung von Sprachmodellen mit Vorhersagen über große Entfernungen zu höheren Gehirnwerten führt (Abb. 1c, d). Konkret haben wir für jedes Wort (1) die Modellaktivierungen des aktuellen Wortes (bezeichnet mit X) und (2) ein „Vorhersagefenster“ (bezeichnet mit \({\tilde{X}}^{(d)}\) verkettet. ), bestehend aus den Einbettungen zukünftiger Wörter und parametrisiert durch einen zeitlichen Abstand d und eine Breite von w = 7 Wörtern (siehe ergänzende Abbildung 4 für die Analyse des wachsenden Fensters). Während die Breite die Anzahl der verketteten Wörter angibt, entspricht d dem Abstand zwischen dem aktuellen Wort und dem letzten Wort des Fensters. Zum Beispiel ist \({\tilde{X}}^{(10)}\) die Verkettung von Wörtern in Abständen von 4, 5 und bis zu 10 vom aktuellen Wort und \({\tilde{X}}^ {(8)}\) ist die Verkettung von Wörtern in Abständen von 2, 3 und bis zu 8 vom aktuellen Wort. Für jede Distanz d haben wir den „Prognose-Score“ (bezeichnet mit \({{{{\mathcal{F}}}}}^{d}\)) berechnet, indem wir die mit und ohne Prognosedarstellungen erhaltenen Gehirn-Scores verglichen haben (Abb . 2b).

Unsere Ergebnisse zeigen, dass \({{{\mathcal{F}}}}\) für einen Abstand von d = 8 Wörtern maximal ist und in den Bereichen seinen Höhepunkt erreicht, die typischerweise mit der Sprachverarbeitung verbunden sind (Abb. 2b–d). Zum Vergleich: Die Reize enthalten durchschnittlich 2,54 Wörter pro Sekunde. Somit entsprechen 8 Wörter 3,15 s Audio (der Zeit von zwei aufeinanderfolgenden fMRT-Scans). Diese Prognosewerte sind im Gehirn bilateral verteilt, mit Ausnahme der unteren frontalen und supramarginalen Gyri (P < 0,001 im Pars opercularis und supramarginalen, unter Verwendung eines zweiseitigen paarweisen Wilcoxon-Rangsummentests zwischen der linken und rechten Hemisphäre, nach Korrektur). für Mehrfachvergleiche (Methoden)).

Ergänzende Analysen bestätigen, dass (1) jedes zukünftige Wort von Wort null bis Wort zehn erheblich zum Prognoseeffekt beiträgt, (2) Prognosedarstellungen am besten mit einer Fenstergröße von etwa 8 Wörtern erfasst werden und (3) zufällige Prognosedarstellungen die Gehirnwerte nicht verbessern und (4) die Verwendung der von GPT-2 generierten Wörter anstelle der wahren zukünftigen Wörter führt zu niedrigeren, aber ähnlichen Ergebnissen (Ergänzende Anmerkungen 3–5 und ergänzende Abbildungen 4–6).

Zusammengenommen zeigen diese Ergebnisse langfristige Vorhersagedarstellungen im Gehirn, was einer Verbesserung der Gehirnwerte um 23 % (±9 % bei allen Personen) entspricht (Abb. 2a, b).

Sowohl anatomische als auch funktionelle Studien haben gezeigt, dass der Kortex hierarchisch organisiert ist28,45: Akustik, Phoneme und Semantik auf niedriger Ebene sind beispielsweise hauptsächlich im Gyrus Heschl, im Gyrus temporalis superior und in den assoziativen Kortexen des Frontal-, Temporal- und Gyrus kodiert Parietallappen bzw.42,46,47,48,49.

Sagen die verschiedenen Ebenen dieser kortikalen Hierarchie dasselbe Zeitfenster voraus? Um dieses Problem zu lösen, haben wir den Spitzenwert der Prognosebewertung jedes Voxels geschätzt und mit d* die entsprechende Entfernung bezeichnet. Die Ergebnisse zeigen, dass die Vorhersage des präfrontalen Bereichs im Durchschnitt weiter in der Zukunft liegt als die temporalen Bereiche (Abb. 2e). Beispielsweise ist d* im Gyrus temporalis inferior (IFG) höher als im Sulcus temporalis anterior superior (aSTS) (Δd* = 0,9 ± 0,2, P < 0,001; Abb. 2f, g).

Die Variation des optimalen Vorhersageabstands entlang der temporo-parietalen-frontalen Achse ist über die beiden Hemisphären weitgehend symmetrisch (ergänzende Abbildung 1).

Was ist die Natur dieser prädiktiven Darstellungen? Um dieses Problem anzugehen, haben wir beurteilt, ob sich der Prognosewert auf (1) niedrige oder hohe sowie (2) syntaktische oder semantische Darstellungen bezieht. Zu diesem Zweck berechneten wir die Prognosewerte wie in Abb. 1c, variierten jedoch die verwendete Ebene von GPT-2. Dann haben wir k* für jedes Voxel identifiziert, d. h. die Tiefe, die die Prognosewerte maximiert (Methoden). Wir gingen davon aus, dass die tiefen Schichten von Sprachalgorithmen höherstufige und stärker kontextualisierte Darstellungen kodieren als ihre ersten Schichten50,51.

Unsere Ergebnisse zeigten, dass die optimale Prognosetiefe entlang der erwarteten kortikalen Hierarchie variiert (Abb. 3a). Insbesondere lassen sich assoziative Kortizes am besten mit tieferen Prognosen (k* > 6) modellieren als Sprachbereiche auf niedriger Ebene (z. B. k* <6 in Heschls Gyri/Sulci, aSTS; Abb. 3a, b). Der Unterschied zwischen den Regionen war zwar im Durchschnitt gering, war jedoch bei allen Individuen hochsignifikant (z. B. zwischen dem Winkel- und dem Heschl-Gyri: Δk* = 2,5 ± 0,3, P < 0,001) und wurde sowohl in der linken als auch in der rechten Hemisphäre beobachtet (Abb. 3b). ).

a, Tiefe der Darstellung, die den Prognosewert im Gehirn maximiert, bezeichnet mit k*. Die Vorhersagewerte wurden für jede Tiefe, jedes Individuum und jedes Voxel, bei einem festen Abstand von d* = 8 berechnet und über die einzelnen Individuen gemittelt. Wir haben die optimale Tiefe für jedes Individuum und jedes Voxel berechnet und die durchschnittliche Vorhersagetiefe für alle Individuen aufgetragen. Dunkle Regionen lassen sich am besten durch tiefe Vorhersagen erklären, während helle Regionen am besten durch flache Vorhersagen berücksichtigt werden. Nur signifikante Voxel sind wie in Abb. 2c farblich gekennzeichnet. b: Wie a, jedoch mit k* gemittelt über die Voxel von neun interessierenden Regionen in der linken (Kreis) und rechten (Dreieck) Hemisphäre. Die Werte wurden über Einzelpersonen gemittelt (n = 304) und das Boxplot fasst die Verteilung des erzielten Effekts auf zehn verschiedene und zufällige Unterteilungen des Datensatzes zusammen. Die paarweise Signifikanz zwischen Regionen wurde mithilfe eines zweiseitigen Wilcoxon-Rangsummentests für die Ergebnisse der linken Hemisphäre bewertet (die grauen Balken zeigen P < 0,001 an).

Zusammengenommen deuten diese Ergebnisse darauf hin, dass die langfristigen Vorhersagen des frontoparietalen Kortizes kontextualisierter und auf einer höheren Ebene sind als die kurzfristigen Vorhersagen von Gehirnregionen auf niedriger Ebene.

Um Prognosedarstellungen in syntaktische und semantische Komponenten zu zerlegen, haben wir eine in Caucheteux et al.40 eingeführte Methode angewendet und sind wie folgt vorgegangen: Für jedes Wort und seinen vorhergehenden Kontext haben wir zehn mögliche Zukünfte generiert, die der Syntax der wahren zukünftigen Wörter entsprechen. Wir haben k = 10 mögliche Zukünfte nach 40 gewählt. Für jede dieser möglichen Zukünfte haben wir die entsprechenden GPT-2-Aktivierungen extrahiert und sie über die zehn möglichen Zukünfte gemittelt (Abb. 4a und Methoden). Mit dieser Methode konnten wir die Aktivierungen eines gegebenen Sprachmodells X in syntaktische (den Durchschnittsvektor, mit Xsyn bezeichnet) und semantische Komponenten (die Residuen, Xsem = Nachdem die syntaktischen und semantischen Prognosefenster erstellt waren, berechneten wir die entsprechenden Prognosewerte (Methoden).

a, Methode zum Extrahieren syntaktischer und semantischer Prognosedarstellungen, adaptiert von Caucheteux et al.40. Für jedes Wort und seinen Kontext (z. B. „Großartig, Ihre Arbeit ...“) haben wir zehn mögliche Zukünfte mit derselben Syntax wie der ursprüngliche Satz (Wortart und Abhängigkeitsbaum), aber zufällig ausgewählter Semantik (z. B. „ ... bleibt so wahr“, „... erscheint so klein“). Dann extrahierten wir die entsprechenden GPT-2-Aktivierungen (Schicht acht). Schließlich haben wir die Aktivierungen über die zehn Futures gemittelt. Mit dieser Methode konnten wir extrahieren die syntaktische Komponente, die den zehn Futures gemeinsam ist und mit Xsyn bezeichnet wird. Die semantische Komponente wurde als die Reste der Syntax in den vollständigen Aktivierungen definiert; aufeinanderfolgende zukünftige Wörter (Methoden). b, Syntaktische (blau) und semantische (rot) Vorhersagewerte im Durchschnitt über alle Voxel, wie in Abb. 2c. Die Werte wurden über Einzelpersonen gemittelt; die schattierten Bereiche geben die 95 %-KIs über alle Voxel an Individuen (n = 304). Die durchschnittlichen Spitzenwerte über Individuen hinweg sind mit einem Stern gekennzeichnet. c, semantische Prognosewerte für jedes Voxel, gemittelt über Individuen und bei d* = 8, dem Abstand, der die semantischen Prognosewerte in b maximiert. Wie in Abb. 2c werden nur signifikante Voxel angezeigt. d, Gleich wie c für syntaktische Prognosewerte und d* = 5.

Die Ergebnisse zeigen, dass semantische Vorhersagen eine große Reichweite haben (d* = 8) und ein verteiltes Netzwerk mit Spitzenwerten im Frontal- und Parietallappen beinhalten. Im Gegensatz dazu haben syntaktische Vorhersagen (Abb. 4b) eine relativ kurze Reichweite (d* = 5) und sind im oberen temporalen und linken Frontalbereich lokalisiert (Abb. 4c, d). Beachten Sie, dass das syntaktische Modell ohne Prognosefenster (das eine geringere Dimensionalität aufweist) eine bessere Leistung erbringt als das syntaktische Modell mit einem entfernten Prognosefenster. Aufgrund des berüchtigten Fluchs der Dimensionalität52 kann es zu solchen verringerten Werten kommen, wenn in der zusätzlichen Dimension der Regression keine zusätzlichen Informationen vorhanden sind. Dies deutet darauf hin, dass eine langfristige syntaktische Vorhersage im vorliegenden Datensatz nicht erkennbar ist.

Insgesamt zeigen diese Ergebnisse mehrere Vorhersageebenen im Gehirn, wobei der obere temporale Kortex überwiegend kurzfristige, flache und syntaktische Darstellungen vorhersagt, während die unteren frontalen und parietalen Bereiche überwiegend langfristige, kontextuelle, hochrangige und semantische Darstellungen vorhersagen .

Diese Ergebnisse zeigen, dass die Verkettung gegenwärtiger und zukünftiger Wortdarstellungen von GPT-2 zu einer besseren Modellierung der Gehirnaktivität führt, insbesondere in frontoparietalen Bereichen (Abb. 2). Verbessert die Feinabstimmung von GPT-2 zur Vorhersage von Darstellungen mit größerer Reichweite, mehr Kontext und höherer Ebene die Hirnkartierung in solchen Regionen? Um diese Frage zu beantworten, haben wir GPT-2 auf Wikipedia verfeinert und dabei nicht nur Sprachmodellierung (d. h. die Vorhersage des nächsten Wortes) verwendet, sondern auch ein übergeordnetes und langfristiges Ziel (d. h. die Vorhersage von Darstellungen auf hoher Ebene). von weit entfernten Wörtern). Das übergeordnete Ziel besteht insbesondere darin, Schicht 8 des vorab trainierten GPT-2-Modells des Wortes t + 8 (Methoden) vorherzusagen. Die Ergebnisse zeigen, dass GPT-2, fein abgestimmt mit High-Level- und Long-Range-Modellierung, die frontoparietalen Reaktionen am besten berücksichtigt (Abb. 5, >2 % Zuwachs im IFG und im Winkel-/supramarginalen Gyri im Durchschnitt, alle P < 0,001). Andererseits profitieren Hörbereiche und Gehirnregionen auf niedrigerer Ebene nicht wesentlich von einem so hohen Ziel (Abb. 5 und ergänzende Abb. 7). Diese Ergebnisse stärken die Rolle frontoparietaler Bereiche bei der Vorhersage weiträumiger, kontextueller und hochrangiger Sprachdarstellungen weiter.

a, Steigerung der Gehirnwerte zwischen GPT-2, fein abgestimmt mit Sprachmodellierung plus High-Level-Vorhersage (für αhigh level = 0,5) und GPT-2, fein abgestimmt mit Sprachmodellierung allein. Es werden nur die Voxel mit einem signifikanten Gewinn angezeigt (P < 0,05 mit einem zweiseitigen Wilcoxon-Rangsummentest nach FDR-Korrektur für mehrere Vergleiche). b, Brain-Score-Gewinn als Funktion des High-Level-Gewichts α im Verlust (Gleichung (8)), von der vollständigen Sprachmodellierung (links, α = 0) bis zur vollständigen High-Level-Vorhersage (rechts, α = 1). Die Gewinne wurden über Voxel innerhalb von sechs interessierenden Regionen gemittelt (siehe Methoden für die Parzellierung und ergänzende Abbildung 7 für die anderen Regionen im Gehirn). Die Werte wurden über die einzelnen Personen gemittelt und wir zeigen die 95 %-KIs für alle Personen an (n = 304).

In der vorliegenden Studie stellen wir spezifische Hypothesen der prädiktiven Kodierungstheorie auf die Probe25,26,27. Während Deep-Language-Algorithmen in der Regel darauf trainiert werden, Vorhersagen auf Nah- und Wortebene zu treffen1,2,3,53,54,55, haben wir untersucht, ob die kortikale Hierarchie mehrere Darstellungsebenen über mehrere Zeitskalen vorhersagt. Mit diesem Ziel vor Augen verglichen wir die Aktivierungen des Gehirns mit denen modernster Deep-Language-Modelle5,6,7,42,56. Wir haben unsere Hypothese erfolgreich an einer Kohorte von 304 Teilnehmern validiert, die gesprochene Erzählungen hörten39. Die Gehirnaktivität lässt sich am besten durch die Aktivierung von Deep-Language-Algorithmen erklären, die durch Vorhersagen über große Entfernungen und auf hoher Ebene ergänzt werden. Unsere Studie liefert drei zusätzliche Beiträge.

Erstens wiesen die lateralen, dorsolateralen und inferior-frontalen Kortizes sowie der supramarginale Gyrus die längsten prognostizierten Entfernungen auf. Interessanterweise wurden diese kortikalen Regionen wiederholt mit Semantik auf hoher Ebene, langfristiger Planung, Aufmerksamkeitskontrolle, abstraktem Denken und anderen exekutiven Funktionen auf hoher Ebene in Verbindung gebracht57,58. Dieses Ergebnis stimmt mit früheren Studien überein, die zeigen, dass die Integrationskonstante der frontoparietalen Kortizes größer ist als die der sensorischen und temporalen Bereiche46,59,60,61. Unsere Ergebnisse deuten insbesondere darauf hin, dass diese Regionen, die sich an der Spitze der Sprachhierarchie befinden, nicht darauf beschränkt sind, vergangene Reize passiv zu integrieren, sondern zukünftige Sprachdarstellungen aktiv antizipieren.

Zweitens haben wir gezeigt, dass die Tiefe der Vorhersagedarstellungen entlang einer ähnlichen anatomischen Organisation variiert: Vorhersagen auf niedriger Ebene modellieren am besten den Sulcus temporalis superior und den Gyrus temporalis, während Vorhersagen auf hoher Ebene die mittleren Temporal-, Parietal- und Frontalbereiche am besten modellieren. Dieses Ergebnis erweitert frühere Studien, in denen die Vielzahl von Vorhersagen untersucht wurde, die der komplexen Klang- oder Sprachverarbeitung zugrunde liegen28,34,36,62. Während sich frühere Studien auf die Korrelation der Gehirnaktivität mit einer Teilmenge handgefertigter und eindimensionaler Vorhersagefehler (z. B. Wort- oder Phonemüberraschung) konzentrierten, untersuchten und zerlegten die vorliegenden Analysen hochdimensionale Vorhersagen. Generell stützen unsere Ergebnisse die Idee, dass das Gehirn im Gegensatz zu aktuellen Sprachalgorithmen nicht darauf beschränkt ist, Darstellungen auf Wortebene vorherzusagen, sondern vielmehr mehrere Ebenen von Darstellungen vorherzusagen.

Schließlich haben wir diese neuronalen Aktivierungen in syntaktische und semantische Darstellungen zerlegt und gezeigt, dass semantische Merkmale im Gegensatz zu syntaktischen Merkmalen langfristige Prognosen beeinflussen. Dieser Befund bestärkt die Idee, dass die Syntax zwar explizit in der neuronalen Aktivität dargestellt werden kann40,63,64, die Vorhersage der Semantik auf hoher Ebene jedoch im Mittelpunkt der Verarbeitung langer Sprachen stehen könnte65,66.

Zusammengenommen stützen diese Ergebnisse prädiktive Kodierungstheorien, bei denen das Gehirn kontinuierlich sensorische Eingaben vorhersagt, diese Vorhersagen mit der Wahrheit vergleicht und sein internes Modell entsprechend aktualisiert25,26,67. Unsere Studie verdeutlicht diesen allgemeinen Rahmen weiter. Das Gehirn sagt nicht nur sensorische Eingaben voraus, sondern jede Region der kortikalen Hierarchie ist auch so organisiert, dass sie unterschiedliche zeitliche Bereiche und unterschiedliche Darstellungsebenen vorhersagt (Abb. 1a). Der Zusammenhang zwischen hierarchischen Konstrukten in der Syntax und der funktionalen Hierarchie im Kortex und im Modell ist jedoch eine wichtige Frage, die es zu untersuchen gilt40,51,68.

Diese rechnerische Organisation steht im Widerspruch zu aktuellen Sprachalgorithmen, die hauptsächlich darauf trainiert sind, Vorhersagen auf benachbarter Ebene und auf Wortebene zu treffen (Abb. 1a). Einige Studien untersuchten alternative Lernregeln4,53,55,69,70,71,72, kombinierten jedoch nicht sowohl langfristige als auch hochrangige Vorhersagen. Wir spekulieren, dass die in dieser Studie nachgewiesene Gehirnarchitektur mindestens einen großen Vorteil gegenüber ihren aktuellen Deep-Learning-Gegenstücken bietet. Während zukünftige Beobachtungen in ihrem ursprünglichen Format schnell unbestimmt werden, können ihre latenten Darstellungen über lange Zeiträume vorhersehbar bleiben. Dieses Problem ist bei sprach- und bildbasierten Algorithmen bereits weit verbreitet und wurde teilweise durch Verluste umgangen, die auf vorab trainierter Einbettung73, kontrastivem Lernen und allgemeiner auf gemeinsamen Einbettungsarchitekturen74,75,76,77 basieren. In dieser Studie heben wir hervor, dass dieses Problem auch bei Sprachmodellen auftritt, bei denen Wortfolgen, aber wohl nicht ihre Bedeutung, schnell unvorhersehbar werden. Unsere Ergebnisse deuten darauf hin, dass die Vorhersage mehrerer Darstellungsebenen über mehrere zeitliche Bereiche hinweg von entscheidender Bedeutung sein kann, um der Unbestimmtheit solch entfernter Beobachtungen Rechnung zu tragen und ihre relative Zuverlässigkeit entsprechend anzupassen78.

Drei Hauptelemente mildern diese Schlussfolgerungen. Erstens liegt die zeitliche Auflösung der fMRT im Gegensatz zu zeitaufgelösten Techniken7,11,36 bei etwa 1,5 s und kann daher kaum zur Untersuchung sublexikalischer Vorhersagen verwendet werden. Zweitens sollen die präzisen Darstellungen und Vorhersagen charakterisiert werden, die in jeder Region der kortikalen Hierarchie berechnet werden. Dies wird wahrscheinlich neue Sondierungstechniken erfordern, da die Interpretation neuronaler Darstellungen sowohl für die künstliche Intelligenz als auch für die Neurowissenschaften eine große Herausforderung darstellt. Schließlich ist die derzeit getestete prädiktive Codierungsarchitektur rudimentär. Eine systematische Verallgemeinerung, Skalierung und Bewertung dieses Ansatzes anhand von Benchmarks für die Verarbeitung natürlicher Sprache ist erforderlich, um den effektiven Nutzen einer stärkeren Ähnlichkeit von Modellen mit dem Gehirn zu demonstrieren.

Über die Aufklärung des Gehirns und der Rechengrundlagen der Sprache hinaus erfordert unsere Studie daher ein systematisches Training von Algorithmen, um mehrere Zeitskalen und Darstellungsebenen vorherzusagen.

Wir bezeichnen:

w als eine Folge von M Wörtern (also mehrere Kurzgeschichten);

X als die Aktivierungen einer tiefen Sprachmodelleingabe mit w, der Größe M × U, mit U als Dimensionalität der Einbettungen (für eine Schicht von GPT-2, U = 768). Sofern nicht anders angegeben, haben wir die aus der achten Schicht eines 12-schichtigen GPT-2-Modells extrahierten Aktivierungen verwendet. Wir bezeichnen Xk explizit als die aus Schicht k extrahierten Aktivierungen, wenn eine andere Schicht verwendet wird;

Y als die durch w hervorgerufenen fMRT-Aufzeichnungen der Größe T × V, mit T als Anzahl der fMRT-Zeitabtastungen und V als Anzahl der Voxel;

\({{{\mathcal{R}}}}(X)\) als Brain-Score von X;

\({\widetilde{X}}^{(d)}\) als Prognosefenster, das Informationen bis zu d Wörter in der Zukunft enthält. Kurz gesagt ist das Prognosefenster die Verkettung der Deep-Net-Aktivierungen von sieben aufeinanderfolgenden Wörtern, wobei das letzte Wort einen Abstand d vom aktuellen Wort hat;

\({{{{\mathcal{F}}}}}^{(d)}(X)\) als Prognose-Score bei Distanz d, d. h. der Gewinn an Brain-Score bei der Verkettung des Prognosefensters \({ \tilde{X}}^{(d)}\) zu den Aktivierungen des Netzwerks; \({{{{\mathcal{F}}}}}^{(d)}(X)={{{\mathcal{R}}}}(X\oplus {\tilde{X}}^{( d)})-{{{\mathcal{R}}}}(X)\);

d* als die Entfernung, die den Prognosewert maximiert; \({d}^{* }={{{{\rm{argmax}}}}}_{d\in [-10,\ldots,30]}\,{{{{\mathcal{F}} }}}^{(d)}(X)\);

k* als die Tiefe des Netzwerks, die den Prognosewert bei einem festen Abstand d = 8 maximiert; \({k}^{* }={{{{\rm{argmax}}}}}_{k\in [0,\ldots ,12]}\,{{{{\mathcal{F}}} }}^{(8)}({X}_{k})\), mit Xk als den aus der k-ten Schicht von GPT-2 extrahierten Aktivierungen. Wir haben d = 8 verwendet, da dies die Entfernung mit dem besten Prognosewert im Durchschnitt über Einzelpersonen und Voxel war.

Wir verwendeten die Gehirnaufzeichnungen (mit Y bezeichnet) des Narratives-Datensatzes39, einem öffentlich zugänglichen Datensatz, der die fMRT-Aufzeichnungen von 345 Personen enthält, die 27 gesprochene Geschichten auf Englisch von 7 bis 56 Minuten hörten (insgesamt 4,6 Stunden einzigartiger Reiz). Wir verwenden die vorverarbeiteten fMRI-Signale aus dem Originaldatensatz ohne räumliche Glättung (im Repository als „afni-nosmooth“ bezeichnet) und mit TR = 1,5 s abgetastet. Die Vorverarbeitungsschritte wurden mit fMRIPrep79 durchgeführt; Es wurde keine zeitliche Filterung angewendet. Die daraus resultierende Vorverarbeitung führte zur Analyse kortikaler Voxel, die auf die Oberfläche projiziert und in eine „fsaverage“-Gehirnvorlage umgewandelt wurden; Im Folgenden werden sie der Einfachheit halber als Voxel bezeichnet. Wie im Originalpapier vorgeschlagen, wurden einige Einzel-Geschichten-Paare aufgrund von Rauschen ausgeschlossen, was insgesamt 304 Personen und 622 Einzel-Geschichten-Paare und 4 Stunden einzigartiges Audiomaterial ergab.

Wir verglichen die fMRT-Aufzeichnungen mit den Aktivierungen mehrerer vorab trainierter Deep-Language-Modelleingaben mit denselben Sätzen, die den Einzelpersonen präsentiert wurden. Aus Gründen der Klarheit haben wir uns hauptsächlich auf GPT-2 konzentriert, ein leistungsstarkes kausales Sprachmodell, das darauf trainiert ist, Wörter anhand ihres vorherigen Kontexts vorherzusagen. GPT-2 besteht aus 12 Transformer-Modulen1,2, die jeweils als „Schicht“ bezeichnet werden und auf einer nicht kontextuellen Worteinbettungsschicht gestapelt sind. Wir haben die vorab trainierten Modelle von Huggingface80 verwendet (1,5 Milliarden Parameter, die auf 8 Millionen Webseiten trainiert wurden).

Um in der Praxis die durch eine Folge von M Wörtern w hervorgerufenen Aktivierungen ?.' durch Punkte), (2) tokenisierte den Text mit dem Huggingface-Tokenizer, (3) gab das Netzwerk mit den Tokens ein und (4) extrahierte die entsprechenden Aktivierungen aus Schicht k. Dies führte zu einem Vektor der Größe M × U, wobei M die Anzahl der Wörter und U die Anzahl der Einheiten pro Schicht ist (d. h. U = 768). Angesichts der eingeschränkten Kontextgröße des Netzwerks wurde jedes Wort nacheinander mit höchstens 1.024 vorherigen Token in das Netzwerk eingegeben. Während beispielsweise der Vektor des dritten Wortes durch Eingabe des Netzwerks mit (w1, w2, w3) berechnet wurde, wurde der Vektor wM des letzten Wortes durch Eingabe des Netzwerks mit (wM−1.024,…,wM) berechnet. Der Abgleich zwischen den Audioaufnahmen der Geschichten und ihren Texttranskripten wurde in der ursprünglichen Narratives-Datenbank39 bereitgestellt.

Im Anschluss an frühere Arbeiten7,42,56 haben wir für jedes einzelne s und Voxel v die Zuordnung zwischen (1) den fMRI-Aktivierungen Y(s,v) als Reaktion auf die Audiogeschichten und (2) den Aktivierungen X der Tiefe ausgewertet Netzwerkeingabe mit den Texttranskripten derselben Geschichten. Zu diesem Zweck haben wir eine lineare Ridge-Regression W an einen Trainingssatz angepasst, um die fMRT-Scans angesichts der Aktivierungen des Netzwerks vorherzusagen. Anschließend haben wir diese Zuordnung ausgewertet, indem wir die Pearson-Korrelation zwischen vorhergesagten und tatsächlichen fMRT-Scans an einem zurückgehaltenen Satz berechnet haben:

mit W als angepasster linearer Projektion, corr als Pearson-Korrelation, .

In der Praxis und in Anlehnung an Huth et al.42 haben wir die langsame fette Reaktion mithilfe eines FIR-Modells (Finite Impulse Response) mit sechs Verzögerungen (von 0 bis 9 s, TR = 1,5 s) modelliert. Wir folgten weiterhin Huth et al.42 und summierten die Modellaktivierungen der im selben TR präsentierten Wörter, um sie an die Abtastfrequenz des fMRI- und Sprachmodells anzupassen (ergänzende Abbildungen 8 und 9). Anschließend haben wir die lineare Abbildung W mit einer ℓ2-bestraften linearen Regression geschätzt, nachdem wir die Daten standardisiert und ihre Dimensionalität reduziert hatten (aus rechnerischen Gründen). Wir haben scikit-learn81 implementiert und eine Pipeline mit den folgenden Schritten verwendet: (1) Standardisierung der Features (mit einem StandardScaler auf den Mittelwert 0 mit einem SD von 1 gesetzt), (2) Hauptkomponentenanalyse (PCA) mit 20 Komponenten und ( 3) ℓ2-bestrafte lineare Regression (RidgeCV in scikit-learn). In der ergänzenden Abbildung 3c haben wir die Hauptanalysen ohne PCA wiederholt (die Gehirnwerte und der Prognoseeffekt wurden durch die PCA leicht unterschätzt). Der Regularisierungshyperparameter des RidgeCV wurde mit einer verschachtelten Kreuzvalidierung unter zehn möglichen Werten mit einem logarithmischen Abstand zwischen 10−1 und 108 für jedes Voxel und jede Trainingsfalte ausgewählt.

Das äußere Kreuzvalidierungsschema, das eine unabhängige Leistungsbewertung ermöglicht, verwendet fünf Falten, die durch Aufteilen der fMRI-Zeitreihe in fünf zusammenhängende Abschnitte erhalten werden. Die über die fünf Testfalten gemittelten Pearson-Korrelationen werden als „Gehirn-Score“ bezeichnet und als \({{{{\mathcal{R}}}}}^{(s,v)}(X)\) bezeichnet. Es misst die Zuordnung zwischen dem Aktivierungsraum X und dem Gehirn einer Person s an einem Voxel v als Reaktion auf denselben Sprachreiz.

In Abb. 2a, b wurden die Gehirnwerte für jedes (einzelne Voxel-)Paar berechnet. Anschließend haben wir je nach Analyse den Durchschnitt der Gehirnwerte für Einzelpersonen (Abb. 2a) und/oder Voxel (Abb. 2b) ermittelt. Der Einfachheit halber bezeichnen wir \({{{\mathcal{R}}}}(X)\) als den über Individuen und/oder Voxel gemittelten Gehirn-Score.

Wir haben getestet, ob das Hinzufügen von Vorhersagedarstellungen unsere Fähigkeit zur Vorhersage der Gehirnaktivität verbessern würde. Zu diesem Zweck haben wir das tiefe Netzwerk selbst nicht verändert, sondern der Eingabe des Kodierungsmodells, also dem Prognosefenster, Prognosedarstellungen hinzugefügt. Das Prognosefenster im Abstand d, bezeichnet mit \({\widetilde{X}}^{(d)}\), ist die Verkettung der Netzwerkaktivierungen von sieben aufeinanderfolgenden Wörtern, wobei das letzte im Abstand d vom aktuellen liegt Wort. Genauer gesagt ist das Prognosefenster eines Wortes wn in einer Entfernung d die Verkettung der Netzwerkaktivierungen, die durch die Wörter wn + d−6, …, wn + d hervorgerufen werden. Daher,

mit ⊕ als Verkettungsoperator und M als Anzahl der Wörter im Transkript w (Ergänzende Abbildung 9). Beachten Sie, dass d negativ sein kann: In diesem Fall enthält das Prognosefenster nur vergangene Informationen. Sofern nicht anders angegeben, wurde das Prognosefenster aus den Aktivierungen X erstellt, die aus der achten Schicht von GPT-2 extrahiert wurden. In Abb. 3 wurde das Prognosefenster aus den Aktivierungen Xk erstellt, die aus verschiedenen Schichten k von GPT-2 extrahiert wurden. Wir haben \({\widetilde{X}}_{k}^{(d)}\) als die entsprechenden Prognosefenster bezeichnet. In Abb. 4 wurden die Prognosefenster aus den syntaktischen (Xsyn) und semantischen (Xsem) Aktivierungen von GPT-2 erstellt.

Für jede Entfernung d, jedes einzelne s und jedes Voxel v haben wir den „Prognosewert“ \({{{{\mathcal{F}}}}}^{(d,s,v)}\) berechnet, der den Gewinn darstellt im Gehirn-Score, wenn die Prognosefenster mit den aktuellen GPT-2-Aktivierungen verknüpft werden. Daher,

Um die Dimensionalität von X und \(\tilde{X}\) anzupassen, wurde der PCA, der zur Berechnung der Abbildung verwendet wurde, separat auf {{{\mathcal{F}}}}(X)={{{\mathcal{R}}}}({{{\rm{PCA}}}}(X)+{{{\rm{PCA} }}}(\tilde{X}))-{{{\mathcal{R}}}}({{{\rm{PCA}}}}(X))\).

Um zu testen, ob der Prognoseumfang entlang der kortikalen Hierarchie variiert, haben wir die Entfernung geschätzt, wodurch der Prognosewert maximiert wurde. Genauer gesagt wurde die optimale „Vorhersageentfernung“ d* für jedes einzelne s und Voxel v wie folgt definiert:

mit (Gleichung (3)). Die prognostizierten Entfernungen d* wurden dann je nach Analyse über Einzelpersonen und/oder Voxel gemittelt.

Die vorliegende Analyse ist nur für die Gehirnregionen relevant, für die die Prognosewerte nicht flach sind. Tatsächlich wäre die Berechnung der Entfernung zur Maximierung einer flachen Kurve irreführend. Daher haben wir in Abb. 2e die Differenz \({{{{\mathcal{F}}}}}^{8}-{{{{\mathcal{F}}}}}^{0}\) berechnet. Für jedes Individuum und jedes Voxel wurde die Signifikanz mit einem Wilcoxon-Rangsummentest für alle Individuen bewertet und die Voxel mit einem nicht signifikanten Unterschied (P > 0,01) ignoriert.

Um zu testen, ob die Tiefe der Prognose entlang der kortikalen Hierarchie variiert, haben wir den Prognosewert für verschiedene Darstellungstiefen berechnet. Wir haben X durch die Aktivierungen Xk ersetzt, die aus der Schicht k von GPT-2 (k ∈ [0, …, 12]) in den Gleichungen (3) und (4) extrahiert wurden. Dann haben wir die Tiefe berechnet, die den Prognosewert maximiert, genannt „Prognosetiefe“, gegeben durch:

mit \({{{{\mathcal{F}}}}}^{(d,s,v)}({X}_{k})={{{{\mathcal{R}}}}}^ {(s,v)}({X}_{k}\oplus {\widetilde{{X}_{k}}}^{(d)})-{{{\mathcal{R}}}}( {X}_{k})\) (Gleichung (3)). Der Einfachheit halber haben wir die Tiefenfokussierung auf den festen Abstand d = 8 untersucht (Abb. 3c, d), was den Prognosewert in Abb. 2 maximiert.

Um die syntaktischen und semantischen Komponenten von Für jedes Wort (1) haben wir n = 10 Futures mit derselben Syntax wie die wahre Zukunft (d. h. mit denselben Wortarten und Abhängigkeits-Tags wie die wahre Zukunft), aber zufällig ausgewählter Semantik generiert, (2) haben wir die Aktivierungen für berechnet jede der 10 möglichen Futures und (3) wir haben die Aktivierungen über die 10 Futures gemittelt. Wir haben den gleichen Hyperparameter n = 10 wie in der Originalarbeit verwendet. Die Methode konvergiert tatsächlich ab n = 7 (ergänzende Abbildung 8 im Artikel). Diese Methode ermöglicht die Extraktion des durchschnittlichen Vektors Xsyn, der syntaktische Informationen enthält, aber keine semantischen Informationen enthält. Die semantischen Aktivierungen Xsem = X − Xsyn sind die Reste der Syntax in den vollständigen Aktivierungen der syntaktische Baum) und nicht mehr kodierte semantische Informationen (Worthäufigkeit, Worteinbettung, semantische Kategorie).

Um syntaktische und semantische Vorhersagen im Gehirn zu untersuchen, haben wir Prognosefenster aus den syntaktischen bzw. semantischen Aktivierungen von GPT-2 erstellt. Zu diesem Zweck haben wir zunächst die Prognosefenster aus GPT-2-Aktivierungen \({\widetilde{X}}^{(d)}\) erstellt. Dann extrahierten wir das syntaktische \({\widetilde{X}}_{{{{\rm{syn}}}}}^{(d)}\) und das semantische \({\widetilde{X}}_{ {{{\rm{sem}}}}}^{(d)}\) Komponenten der verketteten Aktivierungen, wie in Caucheteux et al.40 eingeführt. Schließlich ist der syntaktische Prognosewert die Steigerung des Gehirnwerts bei der Verkettung des syntaktischen Fensters:

Ebenso ergibt sich der semantische Prognosewert durch:

Wir führten systematisch Ganzhirnanalysen durch und berechneten Scores für jedes Voxel im Gehirn. Der Einfachheit halber geben wir jedoch in den Abbildungen die gemittelten Werte über ausgewählte Regionen von Interesse an. 2f,g und 3c. Zu diesem Zweck verwendeten wir eine Unterteilung des Destrieux-Atlas82. Regionen mit mehr als 500 Stützpunkten wurden in kleinere Teile aufgeteilt. Dies führte zu 142 Regionen pro Hemisphäre, von denen jede weniger als 500 Eckpunkte enthielt.

Dies führt zu 142 Regionen pro Hemisphäre, von denen jede weniger als 500 Eckpunkte enthält

STG / STS

Oberer temporaler Gyrus / Sulcus

aSTS

Vorderes STS

mSTS

Mitte STS

pSTS

Hinterer STS

Eckig / Supramar

Eckiger/supramarginaler Gyrus parietalis inferior

IFG / IFS

Unterer Frontalgyrus / Sulcus

Tri / Op

Pars triangularis / opercularis (IFG)

Heschl G / Heschl S

Heschl-Gyrus / Sulcus

Wir haben systematisch Einzelindividuum- und Gesamthirnanalysen durchgeführt: Alle Metriken (Gehirn-Score, Prognose-Score, Prognoseentfernung und -tiefe) wurden für jedes Individuum-Voxel-Paar berechnet. Wir berichten über die Metriken, die je nach Analyse über Einzelpersonen und/oder Voxel gemittelt werden. Statistiken wurden über Einzelpersonen hinweg mithilfe eines zweiseitigen Wilcoxon-Rangsummentests von Scipy83 berechnet, um zu bewerten, ob die Metrik (oder die Differenz zwischen zwei Metriken) signifikant von Null abweicht, und dann für mehrere Vergleiche mithilfe der Falscherkennungsrate (FDR) korrigiert. Wir geben einen Effekt als signifikant an, wenn P < 0,01. Die schattierten Bereiche in Abb. 2, 4 und 5 entsprechen den 95 %-Konfidenzintervallen (CIs) für Einzelpersonen (n = 304). Die Boxplots in Abb. 2–5 fassen die Verteilung des erzielten Effekts auf 10 verschiedene und zufällige Unterteilungen des Datensatzes zusammen.

Die fMRT-Aufzeichnungen sind von Natur aus verrauscht. Um die Menge des erklärbaren Signals zu beurteilen, haben wir eine „Rauschobergrenzen“-Analyse verwendet, das heißt, wir haben die Gehirnreaktionen Y(s) jedes Individuums anhand der Reaktionen der anderen Individuen auf dieselbe Geschichte \(\overline{Y) vorhergesagt }\). Wir sind ähnlich wie bei der Berechnung des Gehirnscores vorgegangen und haben die gleiche Einstellung wie Gleichung (1) angewendet, aber die durchschnittlichen Gehirnsignale der Gehirne anderer Personen verwendet \({\overline{Y}}^{(s)}=\frac{1} {| {{{\mathcal{S}}}}| }{\sum }_{{s}^{{\prime} }\ne s}{Y}^{({s}^{{\prime} })}\) (der Größe T × V) anstelle der Aktivierungen X des Netzwerks. Genau:

Für die Berechnung des Brain-Scores stellt Y(s) die fMRT-Aufzeichnungen der einzelnen Personen dar, entsprechend allen Geschichten, die die einzelnen Personen während des Scans gehört haben. X besteht aus den kontextuellen Einbettungen der entsprechenden Wörter, die innerhalb jedes TR summiert und mit FIR transformiert werden. Daher,

mit X als GPT-2-Einbettungen, zeitlich ausgerichtet mit Y unter Verwendung von FIR.

Für die Berechnung der Lärmgrenze ist Y(s) dasselbe wie für die Berechnung des Brain-Scores. X besteht aus den durchschnittlichen fMRT-Aufzeichnungen der anderen Personen, die dieselben Geschichten wie Einzelpersonen gehört haben. X und Y haben die gleiche Dimensionalität und es wird davon ausgegangen, dass die fette Verzögerung bei allen Individuen vergleichbar ist, daher haben wir keinen FIR auf X angewendet. Daher gilt:

mit Y(s) als durchschnittlichem fMRT der anderen Personen, die sich die gleiche Geschichte angehört haben wie die einzelnen s.

Sowohl für den Brain-Score als auch für die Berechnung der Lärmgrenze haben wir eine Ridge-Regression W(s) für jedes einzelne s angepasst und Y(s) bei gegebenem X vorhergesagt, wobei wir dieselbe fünffache Kreuzvalidierungseinstellung verwendet haben. Wir haben die Vorhersage nacheinander anhand der fünf Testfalten mithilfe der Pearson-Korrelation ausgewertet und die Korrelationswerte über die Falten hinweg gemittelt. Dies führte zu einem Gehirn-Score und einer Schätzung der Lärmgrenze pro Person (und Voxel). Die über Einzelpersonen gemittelten Ergebnisse sind in der ergänzenden Abbildung 10 dargestellt. Dieser Wert ist eine mögliche Obergrenze für den besten Gehirnwert, der angesichts des Rauschpegels im Datensatz erhalten werden kann.

Erhöht die Feinabstimmung von GPT-2 zur Vorhersage langfristiger, hochrangiger und stärker kontextualisierter Darstellungen seine Ähnlichkeit mit dem Gehirn?

Um diese Frage zu testen, haben wir GPT-2 mithilfe einer Mischung aus Sprachmodellierungsverlust und High-Level- und Langzeitverlust verfeinert. Anschließend haben wir die Gehirnwerte ausgewertet und getestet, ob das übergeordnete Ziel zu deutlich höheren Gehirnwerten führen würde als das Ziel der Sprachmodellierung.

Wir haben das von Huggingface bereitgestellte vorab trainierte GPT-2-Modell mit einer Mischung aus Sprachmodellierung und High-Level-Prognose verfeinert. Der Mischungsverlust wurde durch einen Hyperparameter α ∈ [0,1] parametrisiert. Der minimierte Gesamtverlust ergibt sich aus:

mit der Einschränkung, dass \({\alpha }^{{\prime} }{{{{\mathcal{L}}}}}_{\mathrm{high-level}}=\alpha (1-{\alpha } ^{{\prime} }){{{{\mathcal{L}}}}}_{\mathrm{Sprache}\ {\mathrm{Modellierung}}}\). Wenn man dabei α auf 0,5 setzt, bedeutet dies, dass jede Verlustperiode zu 50 % des Gesamtverlusts beiträgt. Das Sprachmodellierungsziel sagt das nächste Wort voraus und ist gegeben durch:

mit:

CE als Kreuzentropieverlust;

f als erlerntes fein abgestimmtes Modell. f wird mit den Gewichten des vorab trainierten GPT-2 initialisiert. Somit ist f ein 12-schichtiges Transformer-Netzwerk, das auf einer Worteinbettung gestapelt ist, wobei jede Schicht eine Dimensionalität von 768 hat;

\(h_{{\rm{Sprache}}\,{\rm{Modellierung}}}\) als linearer Kopf der Sprachmodellierung über der letzten Schicht von f, von 768 bis nvocab, der das nächste Wort vorhersagt;

xt als Eingabe-Token;

xt + 1, da sich die Eingabetoken von einem Zeitschritt (den nachfolgenden Wörtern) verschoben haben.

Das übergeordnete Ziel sagt die Schicht k des Wortes im Abstand d vom aktuellen Wort voraus und ist gegeben durch:

Wo:

Nk ist ein separates und festes Netzwerk. Hier verwenden wir die vorab trainierte Version von GPT-2 von Huggingface, erstellt auf Ebene k. Die Gewichte sind fest vorgegeben: Sie variieren nicht je nach Training.

\(h_{{\rm{high}}\hbox{-}{\rm{level}}}\) ist ein linearer Kopf über der letzten Schicht von f, von 768 bis 768, der die Aktivierungen des vorhersagt k-te Schicht des Festnetzes Nk, entsprechend dem Wort im Abstand d vom aktuellen Wort.

x stellt die Eingaben dar, xt markiert die aktuellen Wörter und xt + d markiert die Wörter im Abstand d vom aktuellen Wort.

CPC ist der Kontrast, der den Codierungsverlust vorhersagt84.

mit S als Ähnlichkeitsmetrik, ytrue,negative als Satz negativer Stichproben und ytrue,positiv als Satz positiver Stichproben.

In der Praxis haben wir uns entschieden, die verborgenen Zustände auf Schicht k = 8 des zukünftigen Wortes im Abstand d = 8 vorherzusagen. Wir haben Schicht k = 8 und d = 8 gewählt, weil dies zu den besten Ergebnissen führte (Abb. 2d). Um den CPC-Verlust zu berechnen, haben wir τ = 0,1 angenommen und die Kosinusähnlichkeit als Ähnlichkeitsmetrik S verwendet. Wir haben 2.000 Negative verwendet, die zufällig aus einer Negativwarteschlange (mit einer Größe von 2.500) ausgewählt wurden. Die negative Warteschlange wurde bei jedem Stapel aktualisiert, indem die verborgenen Zustände zu den Nichtzielwörtern aus dem aktuellen Stapel hinzugefügt wurden. Solche verborgenen Zustände wurden aus dem vorab trainierten Netzwerk auf Schicht k (Nk) extrahiert. Damit die High-Level- und Sprachmodellierungsverluste während des Trainings einen festen Beitrag α und 1 − α haben, haben wir den Parameter \({\alpha }^{{\prime} }\) in Gleichung (8) alle 100 Gradientenschritte aktualisiert .

Wir haben GPT-2 anhand des bereits vorverarbeiteten englischen Wikipedia-Datensatzes (https://huggingface.co/datasets/wikipedia) optimiert, der aus 6 Millionen Dokumenten (30 GB) auf 2 Grafikprozessoren besteht. Wir haben die „Trainer“-Implementierung von Huggingface mit den Standard-Trainingsargumenten verwendet (Adam-Optimierer, Lernrate = 0,00005; siehe https://huggingface.co/docs/transformers/main_classes/trainer für die anderen Standardparameter). Aufgrund von Speicherbeschränkungen haben wir die Kontextgröße von GPT-2 auf 256 Token beschränkt und eine Stapelgröße von 4 pro Gerät verwendet (also 2 × 4 × 256 = 1.024 Token pro Stapel und Verlaufsaktualisierungen). Aus Stabilitätsgründen optimieren wir die obersten Schichten des Netzwerks (von Schicht 8 bis Schicht 12), während die unteren Schichten eingefroren bleiben. Die Feinabstimmung des gesamten Netzwerks mittels Sprachmodellierung führte zu einem deutlichen Rückgang der Gehirnwerte (bei festen Trainingsparametern). Die Verluste wurden anhand eines separaten Auswertungssatzes von 1.000 Wikipedia-Dokumenten überwacht.

Wir haben sieben GPT-2-Modelle mit unterschiedlichem High-Level-Gewicht α verfeinert, von einem Verlust durch vollständige Sprachmodellierung (α = 0), Halbsprachenmodellierung und High-Level (α = 0,5) bis hin zu Full-High-Level (α =). 1). Während des Trainings haben wir ca. 15 Modellkontrollpunkte gespeichert (in regelmäßigen Abständen zwischen 0 und 106 Gradientenaktualisierungen). Für jedes Modell und jeden Schritt haben wir die Gehirnwerte seiner verketteten Schichten [0,4,8,12] anhand desselben Narratives-Datensatzes berechnet39. Wir haben uns dafür entschieden, alle Ebenen von 0 bis 12 zu umfassen, da sich Darstellungen während der Feinabstimmung über Ebenen hinweg „bewegen“ könnten, was die Ergebnisse verfälschen könnte. Anschließend haben wir die Gehirnwerte über die einzelnen Schritte gemittelt und den Gewinn eines Netzwerks gegenüber einem anderen bewertet. In Abb. 5 zeigen wir den über Einzelpersonen gemittelten Gewinn, wenn wir dem Verlust immer mehr Vorhersagen auf hoher Ebene hinzufügen.

Weitere Informationen zum Forschungsdesign finden Sie in der mit diesem Artikel verlinkten Nature Portfolio Reporting Summary.

Der Narratives-Datensatz39 ist öffentlich auf OpenNeuro https://openneuro.org/datasets/ds002345/versions/1.1.4 verfügbar.

Alle Analysen wurden mit Python und scikit-learn81 durchgeführt. Die fMRT-Daten wurden mit nilearn (https://nilearn.github.io/stable/index.html), mne-python85,86,87,88 und freesurfer (https://surfer.nmr.mgh.harvard.edu) analysiert /). Deep-Language-Modelle wurden mithilfe der Transformers-Bibliothek80 analysiert. Die statistische Signifikanz wurde mit Scipy83 bewertet.

Vaswani, A. et al. Aufmerksamkeit ist alles, was Sie brauchen. In Advances in Neural Information Processing Systems, Bd. 30 (Curran Associates, 2017).

Radford, A. et al. Sprachmodelle sind unbeaufsichtigte Multitasking-Lernende (2019).

Brown, TB et al. Sprachmodelle sind Wenig-Schuss-Lernende. In Advances in Neural Information Processing Systems, Bd. 33, 1877-1901 (Curran Associates, 2020).

Fan, A., Lewis, M. und Dauphin, Y. Hierarchische neuronale Story-Generierung. In Proceedings of the 56th Annual Meeting of the Association for Computational Linguistics (Band 1: Long Papers), 889–898 (Association for Computational Linguistics, 2018).

Jain, S. und Huth, AG Integration von Kontext in Sprachkodierungsmodelle für fMRT. In Proc. 32. Konferenz über neuronale Informationsverarbeitungssysteme (NeurIPS 2018), Bd. 31, (Curran Associates, 2018).

Toneva, M. & Wehbe, L. Interpretation und Verbesserung der Verarbeitung natürlicher Sprache (in Maschinen) durch Verarbeitung natürlicher Sprache (im Gehirn). In Advances in Neural Information Processing Systems, Bd. 32 (Curran Associates, 2019).

Caucheteux, C. & King, J.-R. Gehirne und Algorithmen laufen bei der Verarbeitung natürlicher Sprache teilweise zusammen. Kommunale Biol. 5, 134 (2022).

Schrimpf, M. et al. Die neuronale Architektur der Sprache: Integrative Modellierung konvergiert mit prädiktiver Verarbeitung. Proceedings of the National Academy of Sciences, Bd. 118, e2105646118 (Proceedings of the National Academy of Sciences, 2020).

Toneva, M., Mitchell, TM & Wehbe, L. Die Kombination rechnerischer Kontrollen mit natürlichem Text enthüllt neue Aspekte der Bedeutungskomposition. Nat. Berechnen. Wissenschaft. 2, 745–757 (2022).

Artikel PubMed PubMed Central Google Scholar

Reddy, AJ & Wehbe, L. Syntaktische Darstellungen im menschlichen Gehirn: über aufwandsbasierte Metriken hinaus. Vorabdruck bei bioRxiv https://doi.org/10.1101/2020.06.16.155499 (2021).

Goldstein, A. et al. Gemeinsame Rechenprinzipien für die Sprachverarbeitung beim Menschen und tiefe Sprachmodelle. Nat Neurosci. 25, 369–380 (2022).

Artikel CAS PubMed PubMed Central Google Scholar

Millet, J., et al. Auf dem Weg zu einem realistischen Modell der Sprachverarbeitung im Gehirn mit selbstüberwachtem Lernen. In Fortschritte in neuronalen Informationsverarbeitungssystemen (NeurIPS, 2022).

Holtzman, A., Buys, J., Maxwell Forbes, LD & Choi, Y. Der seltsame Fall der neuronalen Textdegeneration. In International Conference on Learning Representations (2020).

Wiseman, S., Shieber, SM & Rush, AM Herausforderungen bei der Daten-zu-Dokument-Generierung. In Proceedings of the 2017 Conference on Empirical Methods in Natural Language Processing, 2253–2263. (Vereinigung für Computerlinguistik, 2017).

Thakur, N., Reimers, N., Rücklé, A., Srivastava, A. & Gurevych, I. BEIR: ein heterogener Benchmark für die Zero-Shot-Bewertung von Information-Retrieval-Modellen. In der fünfunddreißigsten Konferenz über Datensätze und Benchmarks neuronaler Informationsverarbeitungssysteme (Runde 2) (2021).

Raffel, C. et al. Erkunden Sie die Grenzen des Transferlernens mit einem einheitlichen Text-zu-Text-Transformator. J. Mach. Lernen. Res. 21, 140 (2020).

Google Scholar

Krishna, K., Roy, A. & Iyyer, M. Hürden für Fortschritte bei der Beantwortung langer Fragen. In Proceedings of the 2021 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, 4940–4957 (Association for Computational Linguistics, 2021).

Lakretz, Y. et al. Die Entstehung von Zahlen- und Syntaxeinheiten in LSTM-Sprachmodellen. In Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Band 1 (Long and Short Papers), 11–20 (Association for Computational Linguistics, 2019).

Arehalli, S. und Linzen, T. Neuronale Sprachmodelle erfassen einige, aber nicht alle Übereinstimmungsanziehungseffekte. Vorabdruck bei PsyArXiv https://doi.org/10.31234/osf.io/97qcg (2020).

Lakretz, Y. et al. Können RNNs rekursive verschachtelte Subjekt-Verb-Vereinbarungen lernen? Vorabdruck bei arXiv https://doi.org/10.48550/arXiv.2101.02258 (2021).

Baroni, M. Sprachliche Verallgemeinerung und Kompositionalität in modernen künstlichen neuronalen Netzen. Philos. Trans. R. Soc. London. B Biol. Wissenschaft. 375, 20190307 (2020).

Artikel PubMed Google Scholar

Lake, BM & Murphy, GL Wortbedeutung in Köpfen und Maschinen. Psychol. Rev. Advance Online-Veröffentlichung https://doi.org/10.1037/rev0000297 (2021).

Marcus, G. Gpt-2 und die Natur der Intelligenz. Der Gradient https://thegradient.pub/gpt2-and-the-nature-of-intelligence/ (2020).

Warstadt, A. und Bowman, SR Was künstliche neuronale Netze uns über den menschlichen Spracherwerb sagen können. Vorabdruck bei arXiv https://doi.org/10.48550/arXiv.2208.07998 (2022).

Rumelhart, DE & McClelland, JL Ein interaktives Aktivierungsmodell von Kontexteffekten in der Buchstabenwahrnehmung: Teil 2. Der kontextbezogene Verbesserungseffekt und einige Tests und Erweiterungen des Modells. Psychol. Rev. 89, 60–94 (1982).

Artikel CAS PubMed Google Scholar

Rao, RP & Ballard, DH Prädiktive Codierung im visuellen Kortex: eine funktionale Interpretation einiger außerklassischer Rezeptionsfeldeffekte. Nat. Neurosci. 2, 79–87 (1999).

Artikel CAS PubMed Google Scholar

Friston, K. & Kiebel, S. Prädiktive Codierung nach dem Prinzip der freien Energie. Philos. Trans. R. Soc. London. B Biol. Wissenschaft. 364, 1211–1221 (2009).

Artikel PubMed PubMed Central Google Scholar

Wacongne, C. et al. Hinweise auf eine Hierarchie von Vorhersagen und Vorhersagefehlern im menschlichen Kortex. Proz. Natl Acad. Wissenschaft. USA 108, 20754–20759 (2011).

Artikel CAS PubMed PubMed Central Google Scholar

Garrido, MI, Kilner, JM, Stephan, KE & Friston, KJ Die Mismatch-Negativität: eine Überprüfung der zugrunde liegenden Mechanismen. Klin. Neurophysiol. 120, 453–463 (2009).

Artikel PubMed PubMed Central Google Scholar

Willems, RM, Frank, SL, Nijhof, AD, Hagoort, P. & van den Bosch, A. Vorhersage während des natürlichen Sprachverständnisses. Großhirn. Kortex 26, 2506–2516.

Artikel PubMed Google Scholar

Lopopolo, A., Frank, SL, van den Bosch, A. & Willems, RM Verwendung stochastischer Sprachmodelle (SLM) zur Abbildung der lexikalischen, syntaktischen und phonologischen Informationsverarbeitung im Gehirn. PLoS ONE 12, e0177794 (2017).

Artikel PubMed PubMed Central Google Scholar

Okada, K., Matchin, W. & Hickok, G. Neuronale Beweise für prädiktive Kodierung im auditorischen Kortex während der Sprachproduktion. Psychon. Stier. Rev. 25, 423–430 (2018).

Artikel PubMed Google Scholar

Shain, C., Blank, IA, van Schijndel, M., Schuler, W. & Fedorenko, E. fMRT enthüllt sprachspezifische prädiktive Kodierung während des naturalistischen Satzverständnisses.Neuropsychologia 138, 107307 (2020).

Artikel PubMed Google Scholar

Heilbron, M., Armeni, K., Schoffelen, J.-M., Hagoort, P. & de Lange, F. Eine Hierarchie sprachlicher Vorhersagen während des natürlichen Sprachverständnisses. Proz. Natl. Acad. Wissenschaft. USA 119, e2201968119 (2022).

Artikel CAS PubMed PubMed Central Google Scholar

Heilbron, M., Ehinger, B., Hagoort, P. & de Lange, FP Verfolgung naturalistischer sprachlicher Vorhersagen mit tiefen neuronalen Sprachmodellen. In der Konferenz über kognitive Computational Neuroscience (2019).

Donhauser, PW & Baillet, S. Zwei unterschiedliche neuronale Zeitskalen für die prädiktive Sprachverarbeitung. Neuron 105, 385–393 (2020).

Artikel Google Scholar

Mousavi, Z., Kiani, MM und Aghajan, H. Überraschungssignaturen des Gehirns in EEG- und MEG-Daten. Vorabdruck bei bioRxiv https://doi.org/10.1101/2020.01.06.895664 (2020).

Forseth, KJ, Hickok, G., Rollo, PS & Tandon, N. Sprachvorhersagemechanismen im menschlichen auditorischen Kortex. Nat. Komm. 11, 5240 (2020).

Artikel CAS PubMed PubMed Central Google Scholar

Nastase, SA et al. Erzählungen: fMRT-Daten zur Bewertung von Modellen des naturalistischen Sprachverständnisses. Wissenschaft. Daten 8, 250 (2021).

Artikel PubMed PubMed Central Google Scholar

Caucheteux, C., Gramfort, A. & King, J.-R. Syntax und Semantik im Gehirn mit tiefen Netzwerken entwirren. In Proceedings of the 38th International Conference on Machine Learning, 1336-1348 (PMLR, 2021).

Wehbe, L., Vaswani, A., Knight, K. & Mitchell, T. Ausrichtung kontextbasierter statistischer Sprachmodelle auf die Gehirnaktivität beim Lesen. In Proc. 2014 Conference on Empirical Methods in Natural Language Processing (EMNLP), 233–243 (Association for Computational Linguistics, 2014).

Huth, AG, de Heer, WA, Griffiths, TL, Theunissen, FE & Gallant, JL Natürliche Sprache enthüllt die semantischen Karten, die die menschliche Großhirnrinde bilden. Natur 532, 453–458 (2016).

Artikel PubMed PubMed Central Google Scholar

Toneva, M., Mitchell, TM & Wehbe, L. Die Bedeutung, die sich aus der Kombination von Wörtern ergibt, ist räumlich, aber nicht zeitlich eindeutig lokalisierbar. Vorabdruck bei bioRxiv https://doi.org/10.1101/2020.09.28.316935 (2020).

Fedorenko, E. et al. Neuronales Korrelat der Konstruktion der Satzbedeutung. Proz. Natl. Acad. Wissenschaft. USA 113, E6256–E6262 (2016).

Artikel CAS PubMed PubMed Central Google Scholar

Felleman, DJ & Van Essen, DC Verteilte hierarchische Verarbeitung in der Großhirnrinde von Primaten. Großhirn. Cortex 1, 1–47 (1991).

Artikel CAS PubMed Google Scholar

Lerner, Y., Honey, CJ, Silbert, LJ & Hasson, U. Topografische Kartierung einer Hierarchie zeitlicher Empfangsfenster anhand einer erzählten Geschichte. J. Neurosci. 31, 2906–2915 (2011).

Artikel CAS PubMed PubMed Central Google Scholar

Kell, AJE, Yamins, DLK, Shook, EN, Norman-Haignere, SV & McDermott, JH Ein aufgabenoptimiertes neuronales Netzwerk reproduziert das menschliche Hörverhalten, sagt Gehirnreaktionen voraus und offenbart eine kortikale Verarbeitungshierarchie. Neuron 98, 630–644 (2018).

Artikel Google Scholar

Mesgarani, N., Cheung, C., Johnson, K. & Chang, EF Phonetische Merkmalskodierung im oberen Temporalgyrus des Menschen. Wissenschaft 343, 1006–1010 (2014).

Artikel CAS PubMed PubMed Central Google Scholar

Hickok, G. & Poeppel, D. Die kortikale Organisation der Sprachverarbeitung. Nat. Rev. Neurosci. 8, 393–402 (2007).

Artikel CAS PubMed Google Scholar

Jawahar, G., Sagot, B. & Seddah, D. Was lernt BERT über die Struktur der Sprache? In Proc. 57. Jahrestagung der Association for Computational Linguistics, 3651–3657 (Association for Computational Linguistics, 2019).

Manning, CD, Clark, K., Hewitt, J., Khandelwal, U. & Levy, O. Emergente sprachliche Struktur in künstlichen neuronalen Netzen, trainiert durch Selbstüberwachung. Proz. Natl. Acad. Wissenschaft. USA 117, 30046–30054 (2020).

Artikel CAS PubMed PubMed Central Google Scholar

Bellman, R. Dynamische Programmierung. Wissenschaft 153, 34–37 (1966).

Artikel CAS PubMed Google Scholar

Devlin, J., Chang, M.-W., Lee, K. & Toutanova, K. BERT: Vortraining tiefer bidirektionaler Transformatoren für das Sprachverständnis. In Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, 1, 4171–4186, (Association for Computational Linguistics, 2019).

Liu, Y. et al. RoBERTa: ein robust optimierter BERT-Pretraining-Ansatz. Vorabdruck bei arXiv https://doi.org/10.48550/arXiv.1907.11692 (2019).

Clark, K., Luong, M.-T. & Le, QV & Manning, CD ELECTRA: Textkodierer vorab als Diskriminatoren statt als Generatoren trainieren. Vorabdruck bei arXiv https://doi.org/10.48550/arXiv.2003.10555 (2020).

Caucheteux, C., Gramfort, A. & King, J.-R. Deep-Language-Algorithmen sagen semantisches Verständnis anhand der Gehirnaktivität voraus. Sci Rep. 12, 16327 (2022).

Artikel CAS PubMed PubMed Central Google Scholar

Gilbert, SJ & Burgess, PW Führungsfunktion. Curr. Biol. 18, R110–R114 (2008).

Artikel CAS PubMed Google Scholar

Shallice, T. & Burgess, P. Defizite bei der Strategieanwendung nach Frontallappenschäden beim Menschen. Brain 114, 727–741 (1991).

Artikel PubMed Google Scholar

Wang, L. et al. Dynamische prädiktive Codierung in der gesamten linken frontotemporalen Sprachhierarchie: Beweise aus MEG, EEG und fMRT. Vorabdruck bei bioRxiv https://doi.org/10.1101/2021.02.17.431452 (2021).

Lee, CS, Aly, M. & Baldassano, C. Antizipation zeitlich strukturierter Ereignisse im Gehirn. eLife 10, e64972 (2021).

Artikel CAS PubMed PubMed Central Google Scholar

Caucheteux, C., Gramfort, A. und King, J.-R. Eine modellbasierte Analyse der Gehirnaktivität enthüllt die Hierarchie der Sprache bei 305 Probanden. In Proc. EMNLP 2021, Konferenz über empirische Methoden in der Verarbeitung natürlicher Sprache 3635–3644 (Association for Computational Linguistics, 2021).

Vidal, Y., Brusini, P., Bonfieni, M., Mehler, J. & Bekinschtein, TA Neuronales Signal auf Verletzungen abstrakter Regeln durch sprachähnliche Reize. eNeuro 6, ENEURO.0128-19.2019 (2019).

Nelson, MJ et al. Neurophysiologische Dynamik der Phrasenstrukturbildung während der Satzverarbeitung. Proz. Natl Acad. Wissenschaft. USA 114, E3669–E3678 (2017).

Artikel CAS PubMed PubMed Central Google Scholar

Ding, N., Melloni, L., Zhang, H., Tian, ​​X. & Poeppel, D. Kortikale Verfolgung hierarchischer Sprachstrukturen in verbundener Sprache. Nat. Neurosci. 19, 158–164 (2016).

Artikel CAS PubMed Google Scholar

Jackendoff, R. & Jackendoff, RS Grundlagen der Sprache: Gehirn, Bedeutung, Grammatik, Evolution (Oxford Univ. Press, 2002).

Shain, C. et al. „Konstituentenlängen“-Effekte in der fMRT liefern keinen Beweis für eine abstrakte syntaktische Verarbeitung. Vorabdruck bei bioRxiv https://doi.org/10.1101/2021.11.12.467812 (2021).

McClelland, JL & Rumelhart, DE Ein interaktives Aktivierungsmodell von Kontexteffekten in der Buchstabenwahrnehmung: I. Ein Bericht über grundlegende Erkenntnisse. Psychol. Rev. 88, 375–407 (1981).

Artikel Google Scholar

Hale, JT et al. Neuroinformatische Modelle der Sprachverarbeitung. Ann. Rev. Linguist. 8, 427–446 (2022).

Artikel Google Scholar

Jernite, Y., Bowman, SR & Sontag, D. Diskursbasierte Ziele für schnelles, unbeaufsichtigtes Lernen der Satzdarstellung. Vorabdruck bei arXiv https://doi.org/10.48550/arXiv.1705.00557 (2017).

Lewis, M. et al. BART: Entrauschen von Sequenz-zu-Sequenz-Vortraining für die Erzeugung, Übersetzung und das Verständnis natürlicher Sprache. In Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics, 7871–7880 (Association for Computational Linguistics, 2020).

Yang, Z. et al. XLNet: verallgemeinertes autoregressives Vortraining für das Sprachverständnis. In Advances in Neural Information Processing Systems, 32 (Curran Associates, 2019).

Joshi, M. et al. SpanBERT: Verbesserung des Pre-Trainings durch Darstellung und Vorhersage von Spannen. In Transaktionen der Association for Computational Linguistics 8, 64–77 (2020).

Google Scholar

Szegedy, C. et al. Mit Windungen tiefer gehen. In Proc. 2015 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 1–9 (IEEE, 2015).

Chen, T., Kornblith, S., Norouzi, M. & Hinton, G. Ein einfacher Rahmen für das kontrastive Lernen visueller Darstellungen. In Proceedings of the 37th International Conference on Machine Learning, 149 (2020).

He, K., Fan, H., Wu, Y., Xie, S. und Girshick, R. Momentum-Kontrast für unbeaufsichtigtes visuelles Repräsentationslernen. Vorabdruck bei arXiv https://doi.org/10.48550/arXiv.1911.05722 (2020).

El-Nouby, A. et al. XCiT: Kreuzkovarianz-Bildtransformatoren. In Advances in Neural Information Processing Systems, 34, 20014–20027 (Curran Associates, 2021).

Bardes, A., Ponce, J. & LeCun, Y. VICReg: Varianz-Invarianz-Kovarianz-Regularisierung für selbstüberwachtes Lernen. In International Conference on Learning Representations (2022).

Kepecs, A., Uchida, N., Zariwala, HA & Mainen, ZF Neuronale Korrelationen, Berechnung und Verhaltensauswirkungen der Entscheidungssicherheit. Natur 455, 227–231 (2008).

Artikel CAS PubMed Google Scholar

Esteban, O. et al. fMRIPrep: eine robuste Vorverarbeitungspipeline für die funktionelle MRT. Nat. Methoden 16, 111–116 (2019).

Artikel CAS PubMed Google Scholar

Wolf, T. et al. Transformers: Modernste Verarbeitung natürlicher Sprache. In Proc. 2020-Konferenz über empirische Methoden in der Verarbeitung natürlicher Sprache: Systemdemonstrationen, 38–45 (Association for Computational Linguistics, 2020).

Pedregosa, F. et al. Scikit-learn: Maschinelles Lernen in Python. J. Mach. Lernen. Res. 12, 2825–2830 (2011).

Google Scholar

Destrieux, C., Fischl, B., Dale, A. & Halgren, E. Automatische Parzellierung menschlicher kortikaler Gyri und Sulci unter Verwendung der standardmäßigen anatomischen Nomenklatur. Neuroimage 53, 1–15 (2010).

Artikel PubMed Google Scholar

Virtanen, P. et al. SciPy 1.0: grundlegende Algorithmen für wissenschaftliches Rechnen in Python. Nat. Methoden 17, 261–272 (2020).

Artikel CAS PubMed PubMed Central Google Scholar

Hénaff, OJ et al. Dateneffiziente Bilderkennung mit kontrastiver prädiktiver Codierung. In Proceedings of the 37th International Conference on Machine Learning, 4182–4192 (PMLR, 2020).

Gramfort, A. et al. MEG- und EEG-Datenanalyse mit MNE-Python. Vorderseite. Neurosci. 7, 267 (2013).

Artikel PubMed PubMed Central Google Scholar

Dai, Z. et al. Transformer-XL: aufmerksame Sprachmodelle über einen Kontext fester Länge hinaus. In Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics, 2978–2988 (Association for Computational Linguistics, 2019).

Nunez-Elizalde, AO, Huth, AG & Gallant, JL Voxelweise Codierung von Modellen mit nicht-sphärischen multivariaten Normalprioritäten. Neuroimage 197, 482–492 (2019).

Artikel PubMed Google Scholar

Dupré la Tour, T., Eickenberg, M., Nunez-Elizalde, AO & Gallant, J. Feature-Space-Auswahl mit gebänderter Ridge-Regression. Neuroimage 264, 119728 (2022).

Artikel PubMed Google Scholar

Referenzen herunterladen

Dieses Projekt wurde teilweise von der Bettencourt-Schueller-Stiftung, der Philippe-Stiftung und dem FrontCog-Stipendium Nr. finanziert. ANR-17-EURE-0017 an JRK für seine Arbeit an der Université Paris Sciences et Lettres. Die Geldgeber hatten keinen Einfluss auf das Studiendesign, die Datenerfassung und -analyse, die Entscheidung zur Veröffentlichung oder die Erstellung des Manuskripts.

Meta AI, Paris, Frankreich

Charlotte Caucheteux, Alexandre Gramfort und Jean-Rémi King

Universität Paris-Saclay, Inria, Kommission für Atomenergie und alternative Energien, Paris, Frankreich

Charlotte Caucheteux und Alexandre Grammort

Labor für Wahrnehmungssysteme, Abteilung für kognitive Studien, École Normale Supérieure, PSL-Universität, CNRS, Paris, Frankreich

Jean-Remi King

Sie können diesen Autor auch in PubMed Google Scholar suchen

Sie können diesen Autor auch in PubMed Google Scholar suchen

Sie können diesen Autor auch in PubMed Google Scholar suchen

CC, AG und J.-RK haben gemeinsam die Analyse entworfen, die Ergebnisse interpretiert und die Arbeit verfasst. CC führte die Analysen und Experimente durch.

Korrespondenz mit Charlotte Caucheteux oder Jean-Rémi King.

Die Autoren geben an, dass keine Interessenkonflikte bestehen.

Nature Human Behavior dankt Samuel Nastase und den anderen, anonymen Gutachtern für ihren Beitrag zum Peer-Review dieser Arbeit.

Anmerkung des Herausgebers Springer Nature bleibt hinsichtlich der Zuständigkeitsansprüche in veröffentlichten Karten und institutionellen Zugehörigkeiten neutral.

Ergänzende Anmerkungen 1–5, Abb. 1–10 und Tabellen 1–3.

Open Access Dieser Artikel ist unter einer Creative Commons Attribution 4.0 International License lizenziert, die die Nutzung, Weitergabe, Anpassung, Verbreitung und Reproduktion in jedem Medium oder Format erlaubt, sofern Sie den/die ursprünglichen Autor(en) und die Quelle angemessen angeben. Geben Sie einen Link zur Creative Commons-Lizenz an und geben Sie an, ob Änderungen vorgenommen wurden. Die Bilder oder anderes Material Dritter in diesem Artikel sind in der Creative Commons-Lizenz des Artikels enthalten, sofern in der Quellenangabe für das Material nichts anderes angegeben ist. Wenn Material nicht in der Creative-Commons-Lizenz des Artikels enthalten ist und Ihre beabsichtigte Nutzung nicht durch gesetzliche Vorschriften zulässig ist oder über die zulässige Nutzung hinausgeht, müssen Sie die Genehmigung direkt vom Urheberrechtsinhaber einholen. Um eine Kopie dieser Lizenz anzuzeigen, besuchen Sie http://creativecommons.org/licenses/by/4.0/.

Nachdrucke und Genehmigungen

Caucheteux, C., Gramfort, A. & King, JR. Hinweise auf eine prädiktive Codierungshierarchie im menschlichen Gehirn beim Hören von Sprache. Nat Hum Behav 7, 430–441 (2023). https://doi.org/10.1038/s41562-022-01516-2

Zitat herunterladen

Eingegangen: 31. März 2022

Angenommen: 15. Dezember 2022

Veröffentlicht: 02. März 2023

Ausgabedatum: März 2023

DOI: https://doi.org/10.1038/s41562-022-01516-2

Jeder, mit dem Sie den folgenden Link teilen, kann diesen Inhalt lesen:

Leider ist für diesen Artikel derzeit kein Link zum Teilen verfügbar.

Bereitgestellt von der Content-Sharing-Initiative Springer Nature SharedIt