Lernen, RNA-Sequenzausdrücke anhand ganzer Objektträgerbilder mit Anwendungen zur Suche und Klassifizierung vorherzusagen

Communications Biology Band 6, Artikelnummer: 304 (2023) Diesen Artikel zitieren

3463 Zugriffe

14 Altmetrisch

Details zu den Metriken

Deep-Learning-Methoden werden in der digitalen Pathologie häufig eingesetzt, um klinische Herausforderungen wie Prognose und Diagnose zu bewältigen. Als eine der neuesten Anwendungen wurden Tiefenmodelle auch verwendet, um molekulare Merkmale aus ganzen Objektträgerbildern zu extrahieren. Obwohl molekulare Tests umfangreiche Informationen liefern, sind sie oft teuer und zeitaufwändig und erfordern zusätzliche Gewebeproben. In diesem Artikel schlagen wir tRNAsformer vor, eine aufmerksamkeitsbasierte Topologie, die lernen kann, sowohl die Massen-RNA-Sequenz aus einem Bild vorherzusagen als auch das gesamte Objektträgerbild eines Glasobjektträgers gleichzeitig darzustellen. Der tRNAsformer nutzt das Lernen mehrerer Instanzen, um ein schwach überwachtes Problem zu lösen, während die Annotation auf Pixelebene für ein Bild nicht verfügbar ist. Wir haben mehrere Experimente durchgeführt und im Vergleich zu den hochmodernen Algorithmen eine bessere Leistung und schnellere Konvergenz erzielt. Der vorgeschlagene tRNAsformer kann als computergestütztes Pathologie-Tool dabei helfen, eine neue Generation von Such- und Klassifizierungsmethoden zu ermöglichen, indem er die Gewebemorphologie und den molekularen Fingerabdruck der Biopsieproben kombiniert.

Pathologen verwenden die Histopathologie, um Krebs nach der Untersuchung einer Biopsieprobe zu diagnostizieren und einzustufen. Die Einführung der digitalen Pathologie, Fortschritte in der Computertechnologie und die zunehmende Verfügbarkeit riesiger Datensätze ermöglichten es, immer komplexere Deep-Learning-Modelle für verschiedene klinische Aufgaben zu trainieren. Convolutional Neural Networks (CNNs) übertrafen alle anderen herkömmlichen Computer-Vision-Algorithmen in einem breiten Spektrum klinischer Anwendungen, einschließlich der Subtypisierung von Krebserkrankungen1, der Suche und Kategorisierung von Ganzbildbildern (WSI)2, der Mitoseerkennung3 und der Einstufung4 unter den Deep-Learning-Architekturen.

Allerdings gab es kürzlich einige Versuche, die in den Bildern eingebetteten morphologischen Merkmale mit molekularen Signaturen in Verbindung zu bringen5,6,7,8. Jüngste Forschungsergebnisse haben beispielsweise gezeigt, dass statistische Modelle histomorphologische Merkmale mit Mutationen in Organen, einschließlich der Lunge und der Prostata, in Verbindung bringen können9,10. Es ist bekannt, dass Mutationen und epigenomische Veränderungen große Unterschiede in der Genexpression verursachen. Daher kann die Charakterisierung der Genexpression für Diagnose und Behandlung von entscheidender Bedeutung sein11. Auch wenn kostengünstigere Tools zur Sequenzierung des gesamten Transkriptoms zur Untersuchung von Geninformationen etabliert wurden, sind sie noch weit davon entfernt, in medizinischen Zentren weit verbreitet zu sein12. Andererseits ist die Wiederherstellung molekularer Merkmale aus mit Hämatoxylin und Eosin (H&E) gefärbten WSIs eine der schnelleren und kostengünstigeren Optionen. Es wurde gezeigt, dass die Fähigkeit, die Genexpression mithilfe von WSIs vorherzusagen, entweder als Zwischenmodalität oder als Ergebnis, die Diagnose und Prognose unterstützt5,8. Frühere Studien haben die Aufmerksamkeit auf die Vorhersage der Genexpression mithilfe von WSI gelenkt. Allerdings stellen die Größe der WSIs und die Menge gut kommentierter Daten immer noch große Herausforderungen dar. Insbesondere die Stichprobenauswahl und WSI-Darstellung ist ein offenes Thema, das oft willkürlich gehandhabt wird.

Laut dem jüngsten globalen Krebsstatistikbericht gab es im Jahr 2020 weltweit schätzungsweise 431.288 neue Fälle von Nierenkrebs und 179.368 Todesfälle13. Das Nierenzellkarzinom (RCC) ist der häufigste Nierenkrebs, der für 85 % der bösartigen Fälle verantwortlich ist14. Von einem einzelnen bösartigen Phänotyp bis hin zu einer heterogenen Gruppe von Tumoren hat sich unser Wissen über RCC im Laufe der Zeit weiterentwickelt14. Unter allen histologischen RCC-Subtypen machen ccRCC, pRCC und crRCC fast 75 %, 16 % bzw. 7 % aller RCC-Fälle aus14. RCC-Subtypen unterscheiden sich aufgrund dieser Heterogenität in ihrer Histologie, ihren molekularen Eigenschaften, ihren klinischen Ergebnissen und ihrer therapeutischen Reaktionsfähigkeit. Da beispielsweise die 5-Jahres-Überlebensrate je nach Subtyp unterschiedlich ist, ist eine ordnungsgemäße Subtypdiagnose von entscheidender Bedeutung15. Alle Methoden dieser Arbeit werden auf RCC-Objektträger angewendet, um die Subtypen mithilfe von Suche und Klassifizierung zu identifizieren.

Hier stellen wir tRNAsformer (ausgesprochen t-RNAs-former) vor, ein Deep-Learning-Modell für die End-to-End-Genvorhersage und das gleichzeitige Lernen der WSI-Darstellung (Abb. 1 und ergänzende Abb. 1). Unser Modell verwendet Transformatormodule, die auf dem Aufmerksamkeitsmechanismus basieren, um Informationen zu sammeln, die zum Erlernen von WSI-Darstellungen erforderlich sind. Der aufmerksamkeitsbasierte Mechanismus ermöglicht das Erlernen von Informationen, die bestimmten Merkmalen im Bild zugeordnet werden, und bewertet sie mit anderen Merkmalen. Auf diese Weise würde das Modell erfassen, wie ein Merkmal mit den anderen im Bild zusammenhängt, sodass es sich auf den relevanten Teil des Bildes konzentriert. Darüber hinaus nutzt tRNAsformer das Konzept des Multiple Instance Learning (MIL)16, um das Problem zu lösen, dass die tatsächlichen Genexpressionswerte pro WSI statt pro Kachel vorliegen. MIL ist eine Form des schwach überwachten Lernens, bei der Trainingsinstanzen in Beuteln (Sets) angeordnet sind und ein Etikett für den gesamten Beutel bereitgestellt wird. Um unser Modell zu trainieren, haben wir Daten aus dem öffentlichen Datensatz des Cancer Genome Atlas (TCGA) verwendet, um Nieren-WSIs und die zugehörigen RNA-Seq-Daten zu sammeln. Für WSIs präsentierten wir unsere Ergebnisse im Zusammenhang mit der Genvorhersage und der internen Darstellung. Abschließend haben wir die Verallgemeinerung unseres Modells im Hinblick auf die erlernte interne WSI-Repräsentation anhand modernster Benchmarks anhand eines externen Nierenkrebs-Datensatzes der Ohio State University getestet.

49 Kacheln der Größe 224 × 224 × 3, ausgewählt aus 49 räumlichen Clustern in einem WSI, werden mit einem DenseNet-121 eingebettet. Das Ergebnis ist eine Matrix der Größe 49 × 1024, da DenseNet-121 nach dem letzten Pooling über 1024 tiefe Features verfügt. Dann wird die Matrix umgeformt und in eine 224 × 224-Matrix umgeordnet, in der jeder 32 × 32-Block einer Kachel entspricht, die 1 × 1024 einbettet. b Anwenden einer 2D-Faltung mit Kernel 32, Schritt 32 und 384 Kerneln, jeder 32 × 32-Block hat Es wird ein 384-dimensionaler Vektor linear abgebildet. Als nächstes wird ein Klassentoken mit den restlichen Kacheleinbettungen verkettet und Epos wird der Matrix hinzugefügt, bevor die L-Encoder-Ebenen betreten werden. Die erste Zeile des Ergebnisses, die dem Klassentoken zugeordnet ist, wird dem Klassifizierungsleiter zugeführt. Der Rest der internen Einbettungen, die mit allen Kacheleinbettungen verknüpft sind, wird an den Genvorhersagekopf übergeben. Alle Teile mit lernbaren Variablen werden lila dargestellt.

In diesem Abschnitt bewerten wir die Leistung von tRNAsformer im Hinblick auf die beiden Hauptaufgaben, für die er trainiert wurde: Vorhersage der Genexpression aus WSI und WSI-Darstellung für die Bildsuche und -klassifizierung. Die Leistung von tRNAsformer bei der Vorhersage von Genexpressionen wurde mit der Leistung eines hochmodernen Modells namens HE2RNA verglichen. Die Leistung von tRNAsformer im Hinblick auf das Erlernen umfangreicher Informationen zur Darstellung von WSIs wurde mit zwei anderen Methoden verglichen, nämlich Yottixel und Low Power.

In dieser Studie wurden die FPKM-UQ-Dateien mit 60.483 Ensembl-Gen-IDs verwendet17. Während des Vorverarbeitungsschritts (beschrieben im Abschnitt „Vorverarbeitung der Genexpression“) wurden einige der Genexpressionswerte ausgewählt und dann zuerst transformiert.

Beide Modelle, tRNAsformer und HE2RNA, wurden anhand von drei verschiedenen Kriterien verglichen, nämlich dem mittleren Korrelationskoeffizienten der Vorhersagen, der Anzahl der Gene, die deutlich besser als eine zufällige Basislinie vorhergesagt wurden, und dem Vorhersagefehler. Im ersten Experiment wird die Korrelation für jedes Gen separat anhand des Korrelationskoeffizienten von Pearson und Spearman bewertet. Wenn die Datensätze normalverteilt sind, misst der Pearson-Korrelationskoeffizient den linearen Zusammenhang zwischen ihnen. Der Pearson-Korrelationskoeffizient variiert zwischen −1 und +1. Eine Korrelation von −1 oder +1 bedeutet eine perfekte lineare negative bzw. positive Beziehung, wohingegen eine Korrelation von 0 keine Korrelation bedeutet. Der p-Wert stellt grob die Wahrscheinlichkeit dar, dass ein unkorreliertes System Datensätze mit einer Pearson-Korrelation erzeugen kann, die mindestens so hoch ist wie die aus diesen Datensätzen berechnete. Die Spearman-Korrelation erfordert im Gegensatz zur Pearson-Korrelation nicht, dass beide Datensätze normalverteilt sind. Abbildung 2 zeigt die Verteilung des Korrelationskoeffizienten für 31.793 Gene, die von verschiedenen Modellen vorhergesagt wurde.

Die Violindiagramme zeigen die Verteilung sowie die Mindest-, Höchst- und Mittelwerte der Korrelationskoeffizienten. a Violindiagramme für Pearson-Korrelationskoeffizienten und b Violindiagramme für Spearmans Korrelationskoeffizienten. Die Geigendiagramme sind für tRNAsformerL für L = (1, 2, 4, 8, 12) und HE2RNAbb1024 dargestellt. Der Mittelwert und die Standardabweichung der Korrelationskoeffizienten sind in der Legende für Violinen von links nach rechts enthalten.

Abbildung 1 zeigt die Verteilung der Korrelationskoeffizienten für 31.793 Gene, die von verschiedenen Modellen vorhergesagt wurden, zusammen mit ihren wahren Werten im Testsatz von TCGA. Wie in Abb. 2 zu sehen ist, wuchs der mittlere Korrelationskoeffizient R mit der Tiefe von L = 1 auf L = 8. Der mittlere R-Wert nimmt nach acht Blöcken von Transformer-Encodern ab, was darauf hindeutet, dass eine Erhöhung der Anzahl der Schichten die Vorhersagen der Genexpression nicht verbessert. Hinsichtlich der Korrelation der vorhergesagten Genexpressionen mit realen Werten erzielten tRNAsformer-Modelle von L = 2 bis L = 8 vergleichbare Ergebnisse mit einer leichten Verbesserung im Vergleich zu HE2RNA. Über Korrelationswerte hinaus werden in der Literatur Violindiagramme18,19,20,21 verwendet, da die große Anzahl von Datenpunkten pro Patient die Sichtbarkeit interpretierbarer Hinweise drastisch verringert, wenn andere Methoden wie Streudiagramme22 verwendet werden.

Die Korrelationskoeffizienten und p-Werte von Pearson und Spearman wurden zwischen dem vorhergesagten und dem wahren Wert der Genexpression für jedes Gen berechnet. Zur Anpassung der p-Werte wurden zwei Methoden zum Testen mehrerer Hypothesen verwendet, nämlich Holm-Šidák (HS) und Benjamini-Hochberg (BH). Wenn der p-Wert des R-Koeffizienten nach der Korrektur für das Testen mehrerer Hypothesen weniger als 0,01 betrug, unterschied sich die Vorhersage deutlich von der zufälligen Basislinie23,24. Ähnlich wie Ref. In 5 wurden Mehrfachhypothesetests sowohl mit HS- als auch mit BH-Korrektur durchgeführt. Die Ergebnisse sind in Tabelle 1 für alle Architekturen dargestellt.

Wie in Tabelle 1 gezeigt wird, erhöht die Erhöhung der Tiefe des tRNAsformers von eins auf acht die Anzahl der Gene, die sich signifikant von einer zufälligen Basislinie unterscheiden. Ähnlich wie bei den Ergebnissen in Abb. 2 nimmt die Anzahl der Gene ab, wenn die Tiefe 12 Blöcke des Transformer Encoders erreicht. Andererseits schnitt das auf dem Design von HE2RNA basierende Modell schlechter ab als fast alle anderen tRNAsformer-Modelle (mit Ausnahme von L = 1).

Wir haben MAE, RMSE und RRMSE25 ausgewählt, um den Fehler zwischen der Vorhersage und den tatsächlichen Genexpressionswerten zu berechnen. MAE, RMSE und RRMSE sind definiert als

Dabei bezeichnet Dtest den Testsatz, (xi, yi) ist die i-te Stichprobe xi mit Grundwahrheit \({y}_{i},{\hat{y}}_{i}\) ist der vorhergesagte Wert von \({y}_{i},\bar{y}\) ist der Mittelwert über die Ziele im Testsatz und |Dtest| ist die Anzahl der Proben im Testsatz. Die Ergebnisse sind in Tabelle 2 aufgeführt.

Ähnlich wie bei den Ergebnissen in Abb. 2 und Tabelle 1 führt eine Erhöhung der Anzahl der Transformer-Encoder-Blöcke von acht auf zwölf zu einer erheblichen Verschlechterung der Leistung des Modells. Die von tRNAsformer erzielten Korrelationswerte sind vergleichbar mit den Werten des HE2RNA-Modells.

Die Hyperparameter sowohl des tRNAsformer- als auch des HE2RNA-Modells wurden vor der Durchführung der Experimente optimiert. HE2RNA nutzt alle Kacheln eines WSI, um das Modell zu trainieren und eine Vorhersage für jede Kachel zu erstellen. Dies trägt dazu bei, die Fehlerrate zu verbessern, wenn eine große Anzahl von Kachelvorhersagen gemittelt wird, um eine Vorhersage pro Folie zu erhalten. Die Mittelung mehrerer vorhergesagter Werte (Kachelvorhersagen) würde die Wahrscheinlichkeit erhöhen, einen dem tatsächlichen Wert ähnlicheren Wert zu erhalten, da der Effekt der Anwendung dieser Methode so ist, als würde man die Fehlerrate aller Vorhersagen mitteln, um einen einzigen repräsentativen Wert aller Kacheln zu erhalten. Allerdings führt die Erstellung eines Genexpressions-Scores pro Kachel, wie bei HE2RNA, dazu, dass die Abhängigkeiten zwischen den Kacheln eines WSI ignoriert werden, da die tatsächlichen Werte pro WSI und nicht pro Kachel gelten. tRNAsformer löst dieses Problem, indem es ein WSI in seiner Gesamtheit behandelt und daher eine Vorhersage pro WSI erstellt. Das Modell nutzt das Konzept des Multi-Instanz-Lernens, um das Problem zu bewältigen, dass die tatsächlichen Genexpressionswerte pro WSI statt pro Kachel vorliegen. Darüber hinaus ist die Berücksichtigung aller Kacheln zum Trainieren des Netzwerks aus rechnerischer Sicht unerschwinglich zeit- und ressourcenintensiv, da ein einzelnes WSI leicht mehrere tausend Kacheln umfassen kann. Deshalb haben wir in tRNAsformer dieses Problem angegangen, indem wir den Aufmerksamkeitsmechanismus und das Konzept des Lernens mehrerer Instanzen in den Trainingsprozess integriert haben.

Wie aus den obigen Ergebnissen hervorgeht, ist die Leistung von tRNAsformer-Modellen mit L = 2 bis 8 insgesamt vergleichbar. Unter Berücksichtigung aller zur Bewertung der Modelle verwendeten Metriken schneidet tRNAsformer mit L = 4 jedoch am besten ab. In diesem Artikel stellen wir die Leistung von tRNAsformer mit unterschiedlichen Tiefen vor, da die Modelltiefe basierend auf den verfügbaren Ressourcen ausgewählt werden kann. Bei begrenzten Ressourcen kann beispielsweise L = 2 verwendet werden, da damit eine vergleichbare Leistung wie die tieferen Modelle erreicht werden kann, jedoch mit geringerem Ressourcenbedarf.

Die Klassifizierungsexperimente wurden durchgeführt, um die Qualität der internen Darstellung zu bewerten, die das vorgeschlagene Modell erlernt. Zunächst wurden 100 Beutel aus jedem TCGA-Test-WSI erstellt. Laut Ergänzungstabelle 1 wurden aus dem TCGA-Testsatz insgesamt 8000 Beutel erstellt, da es 80 WSIs gab. Dieselben Modelle, die im vorherigen Abschnitt zur Vorhersage von RCC-Subtypen trainiert wurden, wurden auch für die Klassifizierungsaufgabe bewertet. Die Genauigkeits-, Makro- und gewichteten F1-Werte sind für alle Modelle in Tabelle 3 dargestellt. Die Verwirrungsmatrizen verschiedener Modelle sind in der ergänzenden Abbildung 2 dargestellt. Alle hier angegebenen Werte basieren auf Klassifizierungsergebnissen auf Folienebene. Die Vorhersage wird für alle Beutel getroffen, um Werte auf Folienebene zu berechnen. Die Etikettenvorhersage jedes Testobjektträgers wird als die häufigste Vorhersage unter allen auf diesem Objektträger erstellten Beuteln ausgewählt. Die von den Modellen gelernten WSI-Darstellungen werden auf eine Ebene projiziert, die durch die ersten beiden Hauptkomponenten erstellt wurde, die mithilfe von PCA gefunden wurden, um die interne Darstellung unserer Modelle im zweidimensionalen Raum darzustellen. Die zweidimensionalen PCA-Projektionen sind in der ergänzenden Abbildung 3 dargestellt.

Aufgrund unterschiedlicher Krankenhausstandards und Methoden zur Gewebeverarbeitung, Objektträgervorbereitung und Digitalisierungsprotokollen kann das Erscheinungsbild von WSIs erheblich variieren. Daher ist es wichtig sicherzustellen, dass Modelle, die unter Verwendung von Datenquellen erstellt wurden, datenquellenspezifischen Verzerrungen standhalten und auf reale klinische Daten aus Quellen verallgemeinert werden können, die während des Trainings nicht verwendet wurden26. Zum Testen der Generalisierung unserer trainierten Modelle werden 142 RCC-WSIs der Ohio State University als unabhängige Testkohorte verwendet (siehe Abschnitt „Der Nierendatensatz der Ohio State University“).

Zunächst wurden aus jedem externen Test-WSI 100 Beutel erstellt. Laut Ergänzungstabelle 1 wurden aus dem TCGA-Testsatz insgesamt 14.200 Beutel erstellt, da es 142 WSIs gab. Dieselben Modelle, die im vorherigen Abschnitt zur Vorhersage von RCC-Subtypen trainiert wurden, werden verwendet, um Klassifizierungsergebnisse für den externen Datensatz zu melden. Die Genauigkeits-, Makro- und gewichteten F1-Scores sind für alle Modelle in Tabelle 3 angegeben. Wie in Tabelle 3 gezeigt, verringerte sich die Genauigkeit von tRNAsformer bei der externen Validierung um etwa 13 %. Diese Ergebnisse zeigen immer noch eine angemessene Leistung, insbesondere wenn man die Leistung des Gegenstücks berücksichtigt, bei dem die Genauigkeit um etwa 20 % abnahm. Mangelnde Generalisierung aufgrund von Überanpassung, Voreingenommenheit und Abkürzungen ist ein allgemeines Problem beim Deep Learning27,28. Allerdings kann die Anwendung einer ausgefeilteren Vorverarbeitung die Modellleistung verbessern und zu einer höheren Empfindlichkeit bei der Verwendung eines externen Datensatzes führen. Die Modellleistung kann auch durch das Training an einem größeren Datensatz verbessert werden. Aus Gründen der Reproduzierbarkeit beschränken wir uns jedoch auf die Anzahl der auf TCGA verfügbaren WSIs. Darüber hinaus können wir nur WSIs berücksichtigen, bei denen RNA-seq-Profile in TCGA verfügbar waren. Die Verwirrungsmatrizen verschiedener Modelle sind in der ergänzenden Abbildung 4 dargestellt. Die von den Modellen erlernten WSI-Darstellungen werden auf eine Ebene projiziert, die durch die ersten beiden Hauptkomponenten erstellt wurde, die mithilfe von PCA gefunden wurden, um die interne Darstellung der Modelle im zweidimensionalen Raum darzustellen. Die zweidimensionalen PCA-Projektionen sind in der ergänzenden Abbildung 5 dargestellt. Ergänzende Abbildungen. 3, 5 zeigen, wie gut die aus dem tRNAsformer-Modell extrahierten WSI-Darstellungen über verschiedene Klassen hinweg unterschieden werden können. Mit anderen Worten: Die Zahlen veranschaulichen die Unterscheidungskraft der von jedem tRNAsformer-Modell gelernten Merkmale.

Das vorgeschlagene Modell in Lit. 29, auch als „Low Power“-Technik bekannt, übertraf alle kachelbasierten und hochmodernen WSI-Level-Ansätze. Die Genauigkeit der „Low Power“-Methode, der F1-Score (Makro und gewichtet) und die AUC betrugen 73,76 %, 0,7388, 0,7385 bzw. 0,893. Wie in Tabelle 3 und Abb. 3 gezeigt wird, übertreffen alle tRNAsformer-Modelle die in Lit. beschriebene Methode. 29 in allen Messungen, nämlich Genauigkeit, F1-Score (Makro und gewichtet) und AUC. Darüber hinaus weisen die tRNAsformer-Modelle, wie in der ergänzenden Abbildung 4 dargestellt, tendenziell ausgewogenere korrekte Vorhersagen für alle Klassen auf, da in Verwirrungsmatrizen eine scharfe diagonale Linie hervorgehoben ist. Anders ausgedrückt: tRNAsformer-Modelle sind gut darin, zwischen allen Klassen zu unterscheiden.

Die Mikro-ROC-Kurve verschiedener Modelle, angewendet auf a den TCGA-Testsatz und b den externen Datensatz. Die AUC wird für alle Modelle in der Legende angegeben.

WSI-Suchexperimente wurden durchgeführt, um die Qualität der internen Darstellung des tRNAsformers zu bewerten. Das Modell wird sowohl auf TCGA als auch auf einem externen Datensatz getestet. Wie bereits erwähnt, wurden von jedem WSI im TCGA-Datensatz 100 Instanzen erstellt; Der TCGA-Testsatz enthielt 8000 Instanzen, die 80 Folien zugeordnet waren. Nach dem Training des tRNAsformer wurde dieser zum Extrahieren von Merkmalen (Einbettungen) verwendet. Um die Leistung von tRNAsformer bei der WSI-Suche zu quantifizieren, wurden zunächst 100 Teilmengen von Instanzen aus 8000 TCGA-Testinstanzen erstellt. Als nächstes wird eine paarweise Distanzmatrix unter Verwendung der WSI-Einbettungen (Merkmalsvektoren) für jede Teilmenge berechnet. Als Distanzmaß wird die Pearson-Korrelation verwendet. Nach dem Leave-one-patient-out-Verfahren wurden die Top-k-Proben für jede Instanz (WSI) bestimmt. Später wurden P@K (Precision@K) und AP@K (Average Precision@K) für jede Teilmenge berechnet. P@K spiegelt wider, wie viele relevante Bilder in den Top-k-Empfehlungen vorhanden sind, die das Modell vorschlägt, während AP@K der Mittelwert von P@i für i = 1,…,K ist. Schließlich wurde der MAP@K-Wert (Mean Average Precision@K) berechnet, indem der Durchschnitt von 100 Abfragen ermittelt wurde, die 100 Suchteilmengen zugeordnet waren.

Ebenso wurden für jedes WSI im externen Datensatz 100 Instanzen erstellt. Insgesamt wurden 100 Teilmengen von 142 WSIs für die WSI-Suche im externen Datensatz generiert. Als Ergebnis wurden die MAP@K-Werte ausgewertet, indem ein Durchschnitt aus 100 verschiedenen Suchexperimenten gebildet wurde. Die Zusammenfassung der MAP@K-Werte sowohl für den TCGA-Test als auch für den externen Datensatz ist in Tabelle 4 dargestellt.

Die Leistung von tRNAsformer wurde mit der Leistung von Yottixel30, dem neuesten Stand der WSI-Suche, hinsichtlich der mittleren durchschnittlichen Präzision bei verschiedenen k, MAP@5 und MAP@10 verglichen. Der MAP@5 und der MAP@10 für 10 unabhängige Yottixel-Läufe betrugen 0,7416 bzw. 0,7092. tRNAsformer übertrifft Yottixel sowohl bei den MAP@5- als auch bei den MAP@10-Messungen. Darüber hinaus bieten tRNAsformer-Modelle mehr Stabilität, da der MAP@ K-Wert bei steigendem k nicht so steil abfällt wie bei anderen Suchalgorithmen.

In diesem Artikel wird ein auf dem tRNAsformer-Modell basierendes Multitasking-MIL-Framework zum Erlernen der WSI-Darstellung vorgeschlagen, indem gelernt wird, die Genexpression anhand von H&E-Folien vorherzusagen. Durch die Integration des Aufmerksamkeitsmechanismus und des Transformer-Designs kann tRNAsformer präzisere Vorhersagen für Genexpressionen aus einem WSI liefern. Unterdessen übertraf tRNAsformer die Benchmarks für die Massen-RNA-Seq-Vorhersage und verfügte gleichzeitig über weniger Hyperparameter. Darüber hinaus lernt tRNAsformer anhand der molekularen Signatur der Gewebeprobe die exklusive und kompakte Darstellung für einen WSI. Dadurch lernt die vorgeschlagene Technik eine diagnostisch relevante Darstellung aus einem Bild, indem sie Geninformationen in einem multimodalen Ansatz integriert.

Tatsächlich werden Whole Slide Images (WSIs) normalerweise dadurch gekennzeichnet, dass das Bild als Ganzes behandelt wird (die Beschriftung wird dem gesamten Bild zugewiesen). Beispielsweise kann ein gesamtes Objektträgerbild als Tumorobjektträger gekennzeichnet werden, obwohl es möglicherweise auch etwas normales Gewebe enthält. Die gleichzeitige Verarbeitung einer gesamten WSI ist mit der derzeitigen Hardwaretechnologie nicht möglich. Diese Bilder werden üblicherweise in kleinere, besser handhabbare Teile unterteilt, die als Patches oder Kacheln bezeichnet werden. Allerdings werden große WSI-Datensätze im Allgemeinen weich gekennzeichnet, da Expertenanmerkungen auf Pixelebene kostspielig und arbeitsintensiv sind. Daher enthalten einige Kacheln möglicherweise keine Informationen, die für das mit dem WSI verknüpfte Diagnoseetikett relevant sind. Das tRNAsformer-Design ermöglichte eine effizientere und präzisere Verarbeitung einer Probensammlung. Es nutzt wöchentlich überwachtes Lernen zusammen mit dem Konzept des Multi-Instanzen-Lernens (MIL)16. Schwach überwachtes Lernen ist ein Ansatz zum Trainieren eines tiefen Netzwerks, indem die Kombination der gegebenen gekennzeichneten Daten und der schwachen Überwachung verwendet wird, um neue gekennzeichnete Daten zu erhalten31. Dieser Ansatz ermöglicht das Training eines tiefen Netzwerks, wenn die verfügbaren gekennzeichneten Daten nicht ausreichen. Darüber hinaus nutzt tRNAsformer das Konzept von MIL, um das Problem zu lösen, dass die tatsächlichen Genexpressionswerte pro WSI statt pro Kachel vorliegen. MIL ist eine Form des schwach überwachten Lernens, bei der Trainingsinstanzen in Beuteln (Sets) angeordnet sind und ein Etikett für den gesamten Beutel bereitgestellt wird.

Vor dem Training von tRNAsformer wurde ein vorab trainiertes CNN-Modell zum Abtasten und Einbetten von Bildkacheln verwendet. Dieser Ansatz ermöglicht es uns, umfangreiche Zwischeneinbettungen aus Bildbeispielen zu erstellen, da das vorab trainierte CNN-Modell auf großen Bilddatensätzen trainiert wurde. Darüber hinaus ist die Arbeit mit eingebetteten Beispielinstanzen rechenintensiv im Vergleich zur Behandlung jedes WSI als Instanz. Laut Ergänzungstabelle 2 kann das kleinste tRNAsformer-Modell im Vergleich zum MLP-basierten Modell etwa 60 % weniger Hyperparameter aufweisen. Darüber hinaus können sie beim Training und bei der Validierung etwa 72 % bzw. 15 % schneller sein als MLP-basierte Modelle.

Unser Hauptziel beim Vergleich zwischen tRNAsformer und HE2RNA besteht darin, zu zeigen, dass tRNAsformer Genexpressionen aus einem WSI genauso genau vorhersagen kann wie die hochmodernen Genexpressionsalgorithmen und dabei gleichzeitig eine reichhaltige WSI-Darstellung sowohl aus morphologischen Merkmalen als auch aus molekularen Merkmalen erlernt Fingerabdruck, der für Anwendungen wie die Bildsuche verwendet werden kann. tRNAsformer war in der Lage, Genexpressionswerte mit einer leicht verbesserten Korrelation im Vergleich zu HE2RNA vorherzusagen. Allerdings muss man bedenken, dass es sich bei tRNAsformer um ein Multitasking-Tool für die rechnerische Pathologie handelt, das nicht nur zur Vorhersage der Genexpression, sondern auch zum Erlernen der WSI-Darstellung auf der Grundlage der Gewebemorphologie und des molekularen Fingerabdrucks einer Biopsieprobe verwendet werden kann in die Bildsuche und -klassifizierung integriert werden. Die Korrelationsmetrik wurde verwendet, um nur eine Aufgabe zu bewerten, nämlich die Vorhersage der Genexpression. Die andere Aufgabe (d. h. transkriptomisches Lernen für die WSI-Darstellung für die Bildsuche und -klassifizierung) wurde unter Berücksichtigung eines externen Datensatzes zusammen mit zwei anderen Vergleichsmethoden, nämlich „Yottixel“- und „Low-Power“-Methoden, evaluiert.

Im Gegensatz zu ref. 7, wo der räumliche Transkriptomik-Datensatz verfügbar war, verwendet der in dieser Arbeit vorgeschlagene Ansatz Massen-RNA-seq-Daten. Infolgedessen verwendet das in dieser Studie beschriebene Modell eine schwächere Art der Überwachung, da es die interne Darstellung mithilfe einer Kombination aus einer Primärdiagnose und einer mit einem WSI verbundenen Massen-RNA-Sequenz lernt. Dies entspricht eher der aktuellen klinischen Praxis, bei der im Allgemeinen Massen-RNA-Sequenzen und nicht räumliche transkriptomische Daten erfasst werden. Darüber hinaus löst tRNAsformer das Problem, indem es ein WSI in seiner Gesamtheit behandelt, während die in Lit. erläuterte Methode. 7 trennt jede Kachel und schätzt den Genexpressionswert dafür. Daher ist die in Lit. beschriebene Methode. 7 ignoriert die Abhängigkeiten zwischen Kacheln. Im Vergleich zu ref. Wie aus 8 hervorgeht, verarbeitet die in diesem Manuskript vorgeschlagene Technik einen erheblich kleineren Satz von Proben mit einem größeren Sichtfeld. Insbesondere werden bei der vorgeschlagenen Technik Beutel mit 49 Instanzen von 224 × 224 × 3 abgetastet, während bei der anderen Technik8 mehrere Stichprobenoptionen mit mindestens 2500 Kacheln der Größe 32 × 32 × 3 pro Beutel eingesetzt wurden. Darüber hinaus lernt tRNAsformer die exklusive WSI-Darstellung durch Erlernen der Pixel-zu-Gen-Übersetzung. Andererseits verfügt keine der Methoden über ein unabhängiges Repräsentationslernparadigma5,7,8.

Zusammenfassend zeigten die Ergebnisse, dass tRNAsformer zuverlässige interne Darstellungen für umfangreiche Archive pathologischer Objektträger erlernen kann, die der Leistung der entwickelten hochmodernen Klassifizierungs- und Suchalgorithmen entsprechen oder diese übertreffen29,30. Darüber hinaus kann tRNAsformer Genexpressionen von H&E-Objektträgern mit vergleichbarer Leistung vorhersagen, mit einigen Verbesserungen im Vergleich zu anderen hochmodernen Methoden5. Wir haben gezeigt, dass tRNAsformer selbst bei RNA-Seq-Profilen, die aus Bulk-Zellen erhalten wurden, die größtenteils aus einem anderen Gewebeabschnitt isoliert wurden, eine gute Leistung bei der Vorhersage von Genexpressions-Scores erbrachte, die mit den wahren Scores in den Bulk-RNA-Seq-Profilen korrelierten, was möglicherweise darauf hindeutet dass die meisten der exprimierten Gene im Gewebeschnitt, der für die H&E-Färbung verwendet wird, auch im Gewebeschnitt exprimiert werden, der für die RNA-seq-Quantifizierung verwendet wird. In zukünftigen Forschungen kann tRNAsformer jedoch eingehend untersucht werden, indem seine Leistung mithilfe räumlicher Transkriptomdaten überprüft wird, bei denen sowohl das RNA-Seq-Profiling als auch die H&E-Färbung auf demselben Schnitt der Probe durchgeführt werden.

Die in dieser Studie verwendeten Daten wurden von TCGA (https://portal.gdc.cancer.gov/) bezogen. Es wurden nur Fälle berücksichtigt, die sowohl ein WSI- als auch ein RNAseq-Profil aufweisen. Wir haben H&E-gefärbte, formalinfixierte, in Paraffin eingebettete (FFPE) Diagnoseobjektträger ausgewählt. Die abgerufenen Fälle umfassten drei Subtypen: Klarzellkarzinom, ICD-O 8310/3 (ccRCC), chromophober Typ – Nierenzellkarzinom, ICD-O 8317/3 (crRCC) und papilläres Karzinom, ICD-O 8260/3 , (pRCC). Für transkriptomische Daten haben wir Fragmente pro Kilobase des Transkripts pro Million zugeordneter Lesevorgänge im oberen Quartil (FPKM-UQ) verwendet. Die detaillierten Informationen zu den Fällen sind in der Ergänzungstabelle 1 enthalten. Da der Mittelwert der FPKM-UQ-Daten für jedes Gen zwischen verschiedenen Projekten erheblich variieren kann, wurden sowohl tRNAsformer- als auch HE2RNA-Modelle ausgewertet, um die Genexpressionswerte von FPKM-UQ vorherzusagen Daten von nur einem Projekt, nämlich TCGA. Von TCGA wurden drei Nierendatensätze berücksichtigt: TCGA-KIRC, TCGA-KIRP und TCGA-KICH. Darüber hinaus haben wir Gene mit einer mittleren Expression von Null ausgeschlossen, um die Interpretierbarkeit der Ergebnisse zu verbessern. Die Daten wurden fallweise in Trainingssätze (%80), Validierungssätze (%10) und Testsätze (%10) aufgeteilt. Mit anderen Worten: Jeder Patient gehörte nur zu einem der Sets.

Die FPKM-UQ-Dateien enthielten 60.483 Ensembl-Gen-IDs. Wir schlossen Gene mit einem Median von Null über alle Nierenfälle hinweg aus und blieben bei 31.793 Genen. Andere Studien haben die gleiche Strategie übernommen, um die Interpretierbarkeit der Ergebnisse zu verbessern5. Wir haben eine → log10(1 + a)-Transformation verwendet, um die Genexpressionen umzuwandeln, da sich die Reihenfolge der Genexpressionswerte stark ändert und sich nur bei stark exprimierten Genen auf den mittleren quadratischen Fehler auswirken kann5.

Die Größe der digitalisierten Glasobjektträger kann 100.000 × 100.000 Pixel oder sogar größer sein. Daher ist es mit der derzeitigen Technologie nicht möglich, ein ganzes Dia auf einmal zu verarbeiten. Diese Bilder werden üblicherweise in kleinere, besser handhabbare Teile, sogenannte Kacheln, unterteilt. Darüber hinaus sind große WSI-Datensätze im Allgemeinen nur schwach gekennzeichnet, da Expertenanmerkungen auf Pixelebene kostspielig und arbeitsintensiv sind. Daher enthalten einige Kacheln möglicherweise keine Informationen, die für das mit dem WSI verknüpfte Diagnoseetikett relevant sind. Folglich könnte MIL für dieses Szenario geeignet sein. Anstatt eine Sammlung individuell beschrifteter Beispiele zu erhalten, erhält der Lernende einen Satz beschrifteter Beutel, die jeweils mehrere Instanzen in MIL umfassen. Bei der Herstellung von Instanzbeuteln besteht der erste Schritt darin, herauszufinden, wo sich die Gewebegrenzen befinden. Unter Verwendung des in Lit. beschriebenen Algorithmus. In 29 befand sich der Gewebebereich am Miniaturbild (1,25-fache Vergrößerung), während der Hintergrund und die Markierungspixel entfernt wurden. Kacheln mit einer Größe von 14 x 14 Pixeln wurden unter Verwendung der 1,25-fachen Gewebemaske verarbeitet, um diejenigen mit weniger als 50 % Gewebe zu verwerfen. Beachten Sie, dass Kacheln mit 14 × 14 Pixeln bei 1,25-facher Vergrößerung einer Fläche von 224 × 224 Pixeln bei 20-facher Vergrößerung entsprechen.

Der k-means-Algorithmus wird an der Position der zuvor ausgewählten Kacheln eingesetzt, um eine feste Anzahl von Kacheln aus jedem WSI abzutasten. Der Wert von k wurde für alle Experimente in dieser Studie auf 49 festgelegt. Anschließend werden die Cluster anhand der Größe der Clusterzentren räumlich sortiert. Der Vorteil räumlich gruppierter Kacheln ist zweifach; (1) Das Konzept der Ähnlichkeit trifft innerhalb eines engen Radius eher zu32,33, und (2) das Clustering von Koordinaten mit zwei Variablen ist rechnerisch kostengünstiger als hochdimensionale Merkmalsvektoren. Die Schritte des Clustering-Algorithmus sind in Abb. 4 dargestellt.

a Zeigt eine Miniaturansicht eines WSI, b zeigt die durch Segmentierung des WSI erhaltene Gewebemaske und c zeigt den geclusterten WSI unter Verwendung von k-Mittelwerten.

Der tRNAsformer besteht aus L-Standardtransformator-Encoderschichten34, gefolgt von zwei Köpfen, nämlich dem Klassifizierungs- und dem Genvorhersagekopf. Ergänzende Abbildung 1 zeigt die Architektur der vorgeschlagenen Methode. Der Transformer Encoder lernt eine Einbettung (auch als Klassentoken bezeichnet) für die Eingabe, indem er sie als Folge von Feature-Instanzen behandelt, die jeder WSI zugeordnet sind. Es lernt interne Einbettungen für jede Instanz und lernt gleichzeitig das Klassentoken, das die Tasche oder WSI darstellt.

Der Klassifizierungskopf, bei dem es sich um eine lineare Schicht handelt, erhält die WSI-Darstellung c. Als nächstes wird die WSI-Darstellung mithilfe einer linearen Ebene auf den WSI-Score \(\hat{y}\) projiziert. tRNAsformer nutzt dann den Kreuzentropieverlust zwischen dem vorhergesagten Score \(\hat{y}\) und dem wahren Label y des WSI, um die primäre Diagnose zu lernen. Die Verwendung des Transformer Encoders und des Klassifizierungskopfes ermöglicht das Erlernen der WSI-Darstellung während des Trainings des Modells.

Betrachtet man eine Tasche \({{{{\rm{X}}}}}}=[{{{{{{\bf{x}}}}}}}_{1},{{{{{{ \bf{x}}}}}}}_{2},\ldots ,{{{{{{\bf{x}}}}}}}_{k}]\), wobei \({{{ {{{\bf{x}}}}}}}_{i}\in {{\Bbb{R}}}^{d},i=1,\ldots ,k\) sind die eingebetteten Kacheln von DenseNet -121, ein L-Layer-Standardtransformator kann definiert werden als

wobei MSA, LN, MLP, L, E und Epos Multi-Head-Selbstaufmerksamkeit, Layernorm, Multi-Layer-Perceptron-Block (MLP), lineare Schicht, Kacheleinbettungsprojektion und Positionseinbettung sind (weitere Informationen siehe Ref. 34). ). Die Variablen E und Epos sind lernbar. Die Layernorm wendet die Normalisierung auf einen Minibatch von Eingaben an. In Layernorm werden die Statistiken unabhängig über Feature-Dimensionen für jede Instanz (z. B. Kachel) in einer Sequenz (z. B. einen Beutel mit Kacheln) berechnet. Der mehrschichtige Perzeptronblock besteht aus zwei linearen Schichten, gefolgt von einer Dropout-Schicht. Die erste lineare Schicht verfügt über eine GELU-Aktivierungsfunktion35. Die Einbettung wird in der ersten Ebene auf eine höhere Dimension projiziert und dann in der zweiten Ebene auf ihre ursprüngliche Größe abgebildet. Ergänzende Abbildung 5b zeigt die Struktur eines MLP-Blocks in einem Transformer Encoder.

Die verbleibenden internen Einbettungen werden an eine Dropout-Schicht weitergeleitet, gefolgt von einer 1D-Faltungsschicht für den Genvorhersagekopf. Der Genvorhersagekopf verwendet eine Dropout-Schicht und eine 1D-Faltungsschicht als Ausgabeschicht, ähnlich dem in Lit. eingeführten HE2RNA-Modell. 5. Allerdings wurden die ersten beiden Schichten, bei denen es sich um zwei 1D-Faltungsschichten handelte, die für die Merkmalsextraktion in HE2RNA verantwortlich waren, durch einen Transformer-Encoder ersetzt, um die Beziehung zwischen allen Instanzen zu erfassen. Da das Modell eine Vorhersage pro Gen und Instanz erzeugt, kann dieselbe Aggregationsstrategie wie in Lit. beschrieben verwendet werden. 5 wurde für die Berechnung der Genvorhersage für jedes WSI angepasst. Insbesondere Schmauch et al. hat bei jeder Iteration eine Zufallszahl n abgetastet und die Vorhersage jedes Gens berechnet, indem die Top-n-Vorhersagen nach Kacheln in einem WSI (Beutel) gemittelt wurden5. Sie schlugen vor, dass dieser Ansatz als Regularisierungstechnik fungiert und die Wahrscheinlichkeit einer Überanpassung verringert5. Da jeder Beutel 49 Kacheleinbettungen enthielt, wurde n zufällig aus {1,2,5,10,20,49} ausgewählt. Für ein zufällig ausgewähltes n während des Trainings kann das Ergebnis der Genvorhersage wie folgt geschrieben werden:

wobei \({{{{{\bf{z}}}}}}}_{L}^{1:{{{{{\rm{end}}}}}}}\in {{\mathbb {R}}}^{D\times k},{{{{{\bf{s}}}}}}\in {{\mathbb{R}}}^{D\times k}\), und \({{{{{\bf{S}}}}}}({{{{{\rm{n}}}}}})\in {{\mathbb{R}}}^{{d} _{g}}\) sind die internen Einbettungen mit Ausnahme des Klassentokens, der kachelweisen Genvorhersage bzw. der Genexpressionsvorhersage auf Folienebene. Während des Tests wird die endgültige Vorhersage S als Durchschnitt aller möglichen Werte für n as berechnet

Die mittlere quadratische Fehlerverlustfunktion wird verwendet, um Genvorhersagen zu lernen.

Schließlich wird der Gesamtverlust für tRNAsformer berechnet als:

wobei \(\theta ,\lambda ,\gamma ,B,{{{{{\bf{y}}}}}}}^{g}\) die Modellparameter, der Gewichtsregulierungskoeffizient und der Hyperparameter für die Skalierung sind Verluste, Anzahl der Proben in einer Charge und echte Massen-RNA-Sequenz im Zusammenhang mit den Objektträgern. Eine Zusammenfassung des vorgeschlagenen Ansatzes ist in Abb. 1 enthalten.

Zunächst werden TCGA-Fälle in 80-%-, 10-%- und 10-%-Teilmengen für die Trainings-, Validierungs- und Testsätze aufgeteilt. Jeder Fall war einem Patienten zugeordnet und könnte mehrere diagnostische WSIs oder RNA-seq-Dateien enthalten haben. Während des Trainingsprozesses wurde die Anzahl der Taschen als Hyperparameter zur Optimierung der Modellleistung berücksichtigt. Nach der Optimierung der Hyperparameter wurden 100 Beutel von jedem WSI beprobt. Infolgedessen umfasste das Trainingsset 63.400 Taschen (siehe Ergänzungstabelle 1).

Die interne Repräsentationsgröße des tRNAsformers wurde auf 384 eingestellt. Das MLP-Verhältnis und die Anzahl der Selbstaufmerksamkeitsköpfe betrugen jeweils vier. Der tRNAsformer wurde für 20 Epochen mit einem Minibatch der Größe 64 trainiert. Als Optimierer wurde AdamW mit einer anfänglichen Lernrate von 3 × 10−4 36 ausgewählt. Der Gewichtsregulierungskoeffizient wurde auf 0,01 eingestellt, um eine Überanpassung zu vermeiden. Zur Planung der Lernrate wurde die Reduce-on-Plateau-Methode gewählt. Daher wurde die Lernrate alle zwei Epochen um zehn reduziert, ohne dass sich der Validierungsverlust verbesserte. Der Skalierungskoeffizient γ wurde auf 0,5 festgelegt. Die Wahrscheinlichkeit der letzten Dropout-Schicht wurde auf 0,25 festgelegt. Die Werte für das Modell mit dem geringsten Validierungsverlust werden gemeldet. Alle Experimente werden mit einer einzelnen NVIDIA GeForce RTX 2080 SUPER-Grafikkarte durchgeführt. Die CPU des Desktops war Intel(R) Core(TM) i9-10900X.

Ein weiteres Modell wurde basierend auf der MLP-Architektur namens HE2RNA trainiert, die in Lit. beschrieben ist. 5. Das trainierte HE2RNA-Modell wurde nicht von den Autoren des HE2RNA-Papiers bereitgestellt. Aus diesem Grund haben wir das HE2RNA-Modell unter Verwendung desselben Datensatzes erstellt und trainiert, der auch für das Training von tRNAsformer verwendet wurde, sodass wir einen fairen Benchmark basierend auf der aktuellen Literatur erstellen können. Die vollständig verbundenen Schichten wurden aufgrund der Praktikabilität des MLP-Designs durch aufeinanderfolgende 1D-Faltungen mit Kernelgröße eins und Schritt eins ersetzt, um Daten zu verschieben5. Zwischen aufeinanderfolgenden Schichten wird eine Dropout-Schicht angewendet, und die Aktivierungsfunktion war ReLU. Das auf dem in Lit. vorgeschlagenen MLP-Design basierende Modell. 5 wird als HE2RNAbb bezeichnet (bb steht für Backbone), da es auf dem in diesem Artikel verwendeten TCGA-Trainingsset trainiert wurde. Das HE2RNA Rbb-Modell besteht aus drei 1D-Faltungsschichten. Die ersten beiden Schichten enthielten jeweils h Eingabe- und Ausgabekanäle, während die letzte Schicht genauso viele Ausgabekanäle wie Gene aufwies. Mit anderen Worten, h ist die Größe der internen Darstellung des Modells. Für HE2RNAbb1024 wurde h auf 1024 festgelegt. Das Modell wurde für 20 Epochen mit dem AdamW-Optimierer und einer anfänglichen Lernrate von 3 × 10−4 36 trainiert. Wenn für zwei Epochen keine Verbesserung des Validierungsverlusts beobachtet wurde, wurde die Lernrate um zehn reduziert. Die Minibatch-Größe wurde auf 64 festgelegt. Die Werte für das Modell mit dem geringsten Validierungsverlust werden bereitgestellt. Die Anzahl der Parameter jedes Modells ist zum Vergleich in der Ergänzungstabelle 2 aufgeführt. Die Wall-Clock-Zeit für eine einzelne Epoche für Training und Validierung wird ebenfalls in derselben Tabelle angegeben wie die Anzahl der Parameter.

Dies ist ein interner Datensatz, den wir zur Bewertung der internen Darstellung unseres Modells verwendet haben. Die chirurgischen Pathologieakten der Pathologieabteilung wurden auf aufeinanderfolgende Fälle von Nierenzellkarzinom untersucht, die als klarzelliges Karzinom (ccRCC), chromophobes Nierenzellkarzinom (crRCC) oder papilläres Nierenzellkarzinom (pRCC) klassifiziert wurden. Der Datensatz wurde am Ende der Suche erstellt und enthielt 142 Fälle von Nierenzellkarzinomen. Die WSIs von ccRCC, crRCC und pRCC betrugen 48, 44 bzw. 50. Jeder Patient hatte einen repräsentativen Krebsschnitt, der von einem zertifizierten Pathologen (Anil V. Parwani) untersucht wurde, bevor er mit einem Aperio XT Scanscope (Leica Biosystems, CA) in 20-facher Vergrößerung gescannt wurde. Ein zertifizierter Pathologe (AP) überprüfte die WSI-Bilder und validierte die Klassifizierungen ein zweites Mal, um die Bildqualität und die Richtigkeit der Diagnose zu gewährleisten.

Das Modell, das auf dem TCGA-Nierendatensatz trainiert wurde, wurde zum Einbetten des externen Datensatzes verwendet. Anschließend wurden die Klassifizierungs- und WSI-Suchstudien durchgeführt, um die Auswirkungen von Domänenänderungen auf die vorgeschlagene Pipeline zu untersuchen.

Weitere Informationen zum Forschungsdesign finden Sie in der mit diesem Artikel verlinkten Nature Portfolio Reporting Summary.

Das NCI Genomic Data Commons Portal (https://portal.gdc.cancer.gov) stellt alle digitalen TCGA-Folien der Öffentlichkeit zur Verfügung. Zur Reproduzierbarkeit sind die verarbeiteten Daten jedes Falles aus dem TCGA-Projekt unter https://doi.org/10.5281/zenodo.7613408 verfügbar. Die Daten umfassen für jeden Fall eine CSV-Datei, die alle 31.793 Genexpressions-Scores auflistet, die wir in unseren Experimenten berücksichtigt haben.

Unser Quellcode sowie die trainierten tRNAsformer-Modelle sind unter https://doi.org/10.5281/zenodo.7613349 verfügbar.

Hou, L. et al. Patchbasiertes Faltungs-Neuronales Netzwerk zur Bildklassifizierung des gesamten Objektträgergewebes. in Proceedings of the IEEE Conference on Computervision and Pattern Recognition 2424–2433 (2016).

Kalra, S. et al. Konsens zur Pan-Krebs-Diagnose durch Suche in archivierten histopathologischen Bildern mithilfe künstlicher Intelligenz. NPJ-Ziffer. Med. 3, 1–15 (2020).

Artikel Google Scholar

Wang, H. et al. Mitoseerkennung in Bildern der Brustkrebspathologie durch Kombination von handgefertigten und Faltungsfunktionen eines neuronalen Netzwerks. J. Med. Bildgebung 1, 034003 (2014).

Artikel Google Scholar

Bulten, W. et al. Automatisiertes Deep-Learning-System zur Gleason-Einstufung von Prostatakrebs mithilfe von Biopsien: eine diagnostische Studie. Lancet Oncol. 21, 233–241 (2020).

Artikel PubMed Google Scholar

Schmauch, B. et al. Ein Deep-Learning-Modell zur Vorhersage der rna-seq-Expression von Tumoren anhand ganzer Objektträgerbilder. Nat. Komm. 11, 1–15 (2020).

Artikel Google Scholar

Levy-Jurgenson, A., Tekpli, Wissenschaft. Rep. 10, 1–11 (2020).

Artikel Google Scholar

He, B. et al. Integration räumlicher Genexpression und Brusttumormorphologie durch Deep Learning. Nat. Biomed. Ing. 4, 827–834 (2020).

Artikel CAS PubMed Google Scholar

Tavolara, TE et al. Deep Learning sagt die Genexpression als Zwischendatenmodalität voraus, um Anfälligkeitsmuster bei mit Mycobacterium tuberculosis infizierten Diversity-Auszuchtmäusen zu identifizieren. EBioMedicine 67, 103388 (2021).

Artikel CAS PubMed PubMed Central Google Scholar

Coudray, N. et al. Klassifizierung und Mutationsvorhersage anhand histopathologischer Bilder von nicht-kleinzelligem Lungenkrebs mithilfe von Deep Learning. Nat. Med. 24, 1559–1567 (2018).

Artikel CAS PubMed PubMed Central Google Scholar

Schaumberg, AJ, Rubin, MA & Fuchs, TJ H&E-gefärbtes Deep-Learning-Bild des gesamten Objektträgers sagt den Spop-Mutationszustand bei Prostatakrebs voraus. Vorabdruck bei BioRxiv https://doi.org/10.1101/064279 (2017).

Segal, E., Friedman, N., Kaminski, N., Regev, A. & Koller, D. Von Signaturen zu Modellen: Krebs mithilfe von Microarrays verstehen. Nat. Genet. 37, S38–S45 (2005).

Artikel CAS PubMed Google Scholar

Kamps, R. et al. Sequenzierung der nächsten Generation in der Onkologie: genetische Diagnose, Risikovorhersage und Krebsklassifizierung. Int. J. Mol. Wissenschaft. 18, 308 (2017).

Artikel PubMed PubMed Central Google Scholar

Sung, H. et al. Globale Krebsstatistik 2020: Globocan-Schätzungen der Inzidenz und Mortalität weltweit für 36 Krebsarten in 185 Ländern. CA: Cancer J. Clin. 71, 209–249 (2021).

PubMed Google Scholar

Shuch, B. et al. Pathologische Varianten des Nierenzellkarzinoms verstehen: Aus der biologischen Komplexität therapeutische Möglichkeiten ableiten. EUR. Urol. 67, 85–97 (2015).

Artikel PubMed Google Scholar

Tabibu, S., Vinod, P. & Jawahar, C. Pan-Nierenzellkarzinom-Klassifizierung und Überlebensvorhersage aus histopathologischen Bildern unter Verwendung von Deep Learning. Wissenschaft. Rep. 9, 10509 (2019).

Artikel PubMed PubMed Central Google Scholar

Dietterich, TG, Lathrop, RH & Lozano-Pérez, T. Lösung des Mehrfachinstanzproblems mit achsenparallelen Rechtecken. Artif. Intel. 89, 31–71 (1997).

Artikel Google Scholar

Hubbard, T. et al. Das Ensemble-Genomdatenbankprojekt. Nukleinsäuren Res. 30, 38–41 (2002).

Artikel CAS PubMed PubMed Central Google Scholar

Bartha, Á. & Győrffy, B. Tnmplot. com: ein Web-Tool zum Vergleich der Genexpression in normalem, Tumor- und metastasiertem Gewebe. Int. J. Mol. Wissenschaft. 22, 2622 (2021).

Artikel CAS PubMed PubMed Central Google Scholar

Luo, M.-S., Huang, G.-J. & Liu, B.-X. Immuninfiltration beim Nasopharynxkarzinom basierend auf Genexpression. Medizin 98, e17311 (2019).

Artikel CAS PubMed PubMed Central Google Scholar

Hoffman, GE & Schadt, EE Varianzpartition: Interpretation von Variationstreibern in komplexen Genexpressionsstudien. BMC Bioinforma. 17, 1–13 (2016).

Artikel Google Scholar

Campbell-Staton, SC, Velotta, JP & Winchell, KM Auswahl der adaptiven und maladaptiven Genexpressionsplastizität während der thermischen Anpassung an städtische Wärmeinseln. Nat. Komm. 12, 1–14 (2021).

Artikel Google Scholar

Avsec, Ž. et al. Effektive Genexpressionsvorhersage aus der Sequenz durch Integration weitreichender Interaktionen. Nat. Methoden 18, 1196–1203 (2021).

Artikel CAS PubMed PubMed Central Google Scholar

Holm, S. Ein einfaches sequentiell ablehnendes Mehrfachtestverfahren. Scan. J. Stat. 6, 65–70 (1979).

Benjamini, Y. & Hochberg, Y. Kontrolle der Falscherkennungsrate: ein praktischer und leistungsstarker Ansatz für Mehrfachtests. JR-Stat. Soc.: Ser. B 57, 289–300 (1995).

Google Scholar

Spyromitros-Xioufis, E., Tsoumakas, G., Groves, W. & Vlahavas, I. Multi-Target-Regression durch Eingaberaumerweiterung: Behandlung von Zielen als Eingaben. Mach. Lernen. 104, 55–98 (2016).

Artikel Google Scholar

Stacke, K., Eilertsen, G., Unger, J. & Lundström, C. Ein genauerer Blick auf die Domänenverschiebung für Deep Learning in der Histopathologie. Vorabdruck unter https://arxiv.org/abs/1909.11575 (2019).

Asilian Bidgoli, A., Rahnamayan, S., Dehkharghanian, T., Grami, A. & Tizhoosh, H. Reduzierung der Verzerrung bei der Darstellung histopathologischer Bilder durch tiefe Merkmalsauswahl. Wissenschaft. Rep. 12, 1–12 (2022).

Artikel Google Scholar

Dehkharghanian, T. et al. Verzerrte Daten, verzerrte KI: Tiefe Netzwerke sagen den Aufnahmeort von TCGA-Bildern voraus. BMC Diagnostische Pathologie (2023).

Safarpoor, A., Shafiei, S., Gonzalez, R., Parwani, A. & Tizhoosh, H. Ganzseitige Bildklassifizierung und Suche bei Nierenzellkarzinomen mithilfe von Deep Learning. Forschungsplatz https://doi.org/10.21203/rs.3.rs-971708/v1 (2021).

Kalra, S. et al. Yottixel – eine Bildsuchmaschine für große Archive histopathologischer Bilder ganzer Objektträger. Med. Bild Anal. 65, 101757 (2020).

Artikel PubMed Google Scholar

Dehghani, M., Zamani, H., Severyn, A., Kamps, J. & Croft, WB Neuronale Ranking-Modelle mit schwacher Aufsicht. in Proceedings of the 40th International ACM SIGIR Conference on Research and Development in Information Retrieval 65–74 (2017).

Sikaroudi, M. et al. Einfluss von Überwachung und Quelldomäne auf das Repräsentationslernen: eine Fallstudie zur Histopathologie. im Jahr 2020 42. jährliche internationale Konferenz der IEEE Engineering in Medicine & Biology Society (EMBC) 1400–1403 (IEEE, 2020).

Gildenblat, J. & Klaiman, E. Selbstüberwachtes Ähnlichkeitslernen für die digitale Pathologie. Vorabdruck unter https://arxiv.org/abs/1905.08139 (2019).

Dosovitskiy, A. et al. Ein Bild sagt mehr als 16 × 16 Wörter: Transformatoren für die Bilderkennung im Maßstab. Vorabdruck unter https://arxiv.org/abs/2010.11929 (2020).

Hendrycks, D. & Gimpel, K. Gaußsche Fehlerlineareinheiten (Gelus). Vorabdruck unter https://arxiv.org/abs/1606.08415 (2016).

Loshchilov, I. & Hutter, F. Entkoppelte Regularisierung des Gewichtsabfalls. Vorabdruck unter https://arxiv.org/abs/1711.05101 (2017).

Referenzen herunterladen

Dieses Projekt wurde teilweise im Rahmen eines ORF-RE-Konsortiums von der Regierung von Ontario finanziert.

Rhazes Lab, Künstliche Intelligenz und Informatik, Mayo Clinic, Rochester, MN, USA

Areej Alsaafin & HR Tizhoosh

Kimia Lab, University of Waterloo, Waterloo, ON, Kanada

Areej Alsaafin, Amir Safarpoor, Milad Sikaroudi und HR Tizhoosh

Abteilung für Computerpathologie und KI, Mayo Clinic, Rochester, MN, USA

Jason D. Hipp

Sie können diesen Autor auch in PubMed Google Scholar suchen

AA hat zur Konzeption der Hauptideen beigetragen, die Arbeit neu strukturiert, die Daten erneut analysiert und das Manuskript überarbeitet. AS trug zu ersten Ideen bei und diskutierte sie, entwarf und führte die ersten Experimente durch, analysierte und interpretierte die Ergebnisse und verfasste den ersten Entwurf. MS trug zur Datenverarbeitung und -analyse bei. HRT konzipierte die ursprüngliche Idee, überwachte die gesamte Studie, analysierte die Daten/Ergebnisse und verfasste Teile der Arbeit. JDH trug zum Projektmanagement bei, überarbeitete das Papier und gab kritisches Feedback.

Korrespondenz mit HR Tizhoosh.

Die Autoren geben an, dass keine Interessenkonflikte bestehen.

Diese Studie wurde vom institutionellen Forschungsausschuss der Ohio State University genehmigt. Von allen in die Studie einbezogenen Einzelpatienten wurde eine schriftliche Einverständniserklärung eingeholt. Alle Methoden wurden in Übereinstimmung mit den relevanten Richtlinien und Vorschriften durchgeführt. Alle Daten wurden mithilfe eines ehrlichen Maklersystems anonymisiert.

Communications Biology dankt Nobuaki Yasuo und den anderen, anonymen Gutachtern für ihren Beitrag zum Peer-Review dieser Arbeit. Hauptredakteure: Eirini Marouli und Luke R. Grinham. Peer-Reviewer-Berichte sind verfügbar.

Anmerkung des Herausgebers Springer Nature bleibt hinsichtlich der Zuständigkeitsansprüche in veröffentlichten Karten und institutionellen Zugehörigkeiten neutral.

Open Access Dieser Artikel ist unter einer Creative Commons Attribution 4.0 International License lizenziert, die die Nutzung, Weitergabe, Anpassung, Verbreitung und Reproduktion in jedem Medium oder Format erlaubt, sofern Sie den/die ursprünglichen Autor(en) und die Quelle angemessen angeben. Geben Sie einen Link zur Creative Commons-Lizenz an und geben Sie an, ob Änderungen vorgenommen wurden. Die Bilder oder anderes Material Dritter in diesem Artikel sind in der Creative Commons-Lizenz des Artikels enthalten, sofern in der Quellenangabe für das Material nichts anderes angegeben ist. Wenn Material nicht in der Creative-Commons-Lizenz des Artikels enthalten ist und Ihre beabsichtigte Nutzung nicht durch gesetzliche Vorschriften zulässig ist oder über die zulässige Nutzung hinausgeht, müssen Sie die Genehmigung direkt vom Urheberrechtsinhaber einholen. Um eine Kopie dieser Lizenz anzuzeigen, besuchen Sie http://creativecommons.org/licenses/by/4.0/.

Nachdrucke und Genehmigungen

Alsaafin, A., Safarpoor, A., Sikaroudi, M. et al. Lernen, RNA-Sequenzausdrücke anhand ganzer Objektträgerbilder mit Anwendungen zur Suche und Klassifizierung vorherzusagen. Commun Biol 6, 304 (2023). https://doi.org/10.1038/s42003-023-04583-x

Zitat herunterladen

Eingegangen: 22. März 2022

Angenommen: 13. Februar 2023

Veröffentlicht: 22. März 2023

DOI: https://doi.org/10.1038/s42003-023-04583-x

Jeder, mit dem Sie den folgenden Link teilen, kann diesen Inhalt lesen:

Leider ist für diesen Artikel derzeit kein Link zum Teilen verfügbar.

Bereitgestellt von der Content-Sharing-Initiative Springer Nature SharedIt

Durch das Absenden eines Kommentars erklären Sie sich damit einverstanden, unsere Nutzungsbedingungen und Community-Richtlinien einzuhalten. Wenn Sie etwas als missbräuchlich empfinden oder etwas nicht unseren Bedingungen oder Richtlinien entspricht, kennzeichnen Sie es bitte als unangemessen.