Erlernen der Proteinsprache des Proteoms | ClearVitality Innovations Co., Ltd

Communications Biology Band 6, Artikelnummer: 73 (2023) Diesen Artikel zitieren

5883 Zugriffe

10 Altmetrisch

Details zu den Metriken

Protein-Protein-Interaktionen (PPIs) steuern zelluläre Pfade und Prozesse, indem sie die funktionelle Expression von Proteinen erheblich beeinflussen. Daher ist die genaue Identifizierung von Bindungsstellen für Protein-Protein-Interaktionen zu einem Schlüsselschritt bei der Funktionsanalyse von Proteinen geworden. Da die meisten Berechnungsmethoden jedoch auf biologischen Merkmalen basieren, stehen keine Proteinsprachenmodelle zur Verfügung, um Aminosäuresequenzen direkt in verteilte Vektordarstellungen zu kodieren, um ihre Eigenschaften für Protein-Protein-Bindungsereignisse zu modellieren. Darüber hinaus ist die Anzahl der experimentell nachgewiesenen Proteininteraktionsstellen viel geringer als die der Protein-Protein-Wechselwirkungen oder Proteinstellen in Proteinkomplexen, was zu unausgeglichenen Datensätzen führt, die Raum für Verbesserungen ihrer Leistung lassen. Um diese Probleme anzugehen, entwickeln wir eine auf einem Ensemble-Deep-Learning-Modell (EDLM) basierende Methode zur Standortidentifizierung der Protein-Protein-Interaktion (PPI) (EDLMPPI). Die Auswertungsergebnisse zeigen, dass EDLMPPI modernste Techniken übertrifft, darunter mehrere PPI-Standortvorhersagemodelle für drei weit verbreitete Benchmark-Datensätze, darunter Dset_448, Dset_72 und Dset_164, was zeigt, dass EDLMPPI diesen PPI-Standortvorhersagemodellen um fast 10 überlegen ist % in Bezug auf die durchschnittliche Präzision. Darüber hinaus liefern die biologischen und interpretierbaren Analysen neue Einblicke in die Identifizierung und Charakterisierung von Proteinbindungsstellen aus verschiedenen Perspektiven. Der EDLMPPI-Webserver ist unter http://www.edlmppi.top:5002/ verfügbar.

Protein-Protein-Wechselwirkungen (PPIs) spielen eine wesentliche Rolle in allen wichtigen zellulären Prozessen, die zur Aufklärung der Proteinfunktion, aber auch zur Interpretation des Großteils der Biologie der Zellen beitragen. Insbesondere Schlüsselproteine in diesen Proteininteraktionen können die Grundlage für die Entwicklung gezielter therapeutischer Medikamente für die damit verbundenen Krankheiten bilden und auch Aufschluss über die zugrunde liegenden molekularen Grundlagen von Krankheiten geben1. Zwar stehen zahlreiche Datenbanken wie BioLip2 und PDB3 für die Abfrage von Protein-Protein-Interaktionsstellen zur Verfügung, diese scheinen jedoch aufgrund der zunehmenden Anzahl von Proteinen, die dem Menschen mittlerweile bekannt sind, überwältigend zu sein4. Ebenso sind biologische Experimente zum Nachweis von Bindungsstellen, wie z. B. Zwei-Hybrid-Analysen und Affinitätssysteme, sehr zeitaufwändig und teuer5. Um diese Lücke zu schließen, wurden viele rechnerische Methoden entwickelt, um Proteininteraktionen und damit verbundene Stellen zu untersuchen. In den letzten Jahren wurden viele auf Deep Learning basierende Modelle zur Identifizierung von Proteininteraktionsstellen vorgeschlagen, die die leistungsstarken Funktionen zur Merkmalsextraktion von Deep Learning einbeziehen, was zu einem qualitativen Sprung in der Vorhersageleistung im Vergleich zum herkömmlichen maschinellen Lernen führte. Beispielsweise verwendeten Zeng et al.6 TextCNN als Merkmalsextraktor, um Merkmale mithilfe von Faltungskernen unterschiedlicher Größe zu lernen, was die Vorhersageleistung verbessern kann. Xie et al.7 verwendeten ein einfaches CNN, um lokale Merkmale zwischen Resten zu lernen. Yang et al.8 stellten ein tiefes neuronales Netzwerk mit lokaler Gewichtsverteilung vor, um Aminosäure-Interaktionsstellen vorherzusagen. Sun et al.9 entwickelten eine Deep-Learning-Architektur auf Basis restlicher neuronaler Netze zur Vorhersage interagierender Aminosäuren in Transmembranproteinen. Zhang et al.10 verwendeten ein vereinfachtes LSTM, um den PPI vorherzusagen, mit dem Ziel, die Kontextinformationen der Features zu lernen, indem sie die Fähigkeit des LSTM nutzten, den globalen Kontext zu erfassen. Li et al.11 integrierten lokale Kontextinformationen und weitreichende Abhängigkeiten durch die Einbindung von CNN und RNN, was die Leistung des Modells verbesserte. Leider sind die meisten dieser Berechnungsmethoden sehr instabil und schlecht verallgemeinerbar, insbesondere für diese stark unausgeglichenen Benchmark-Datensätze, was Raum für Verbesserungen bietet.

Andererseits wurde eine Vielzahl von Proteinsequenz-Kodierungsmethoden für die Modellierung von Proteinsequenzen in einer Merkmalsmatrix vorgeschlagen. Die One-Hot-Kodierung von Proteininteraktionsstellen ist eine sehr effiziente Methode, die in vielen rechnerischen Ansätzen verwendet wurde10,12. Allerdings können sie funktionelle Unterschiede zwischen Aminosäuren nicht genau wiedergeben. Die positionsspezifische Bewertungsmatrix (PSSM) wird häufig für Vorhersageaufgaben auf Sequenzebene und Restebene verwendet, um die Beziehung zwischen Sequenzen und Funktionen zu charakterisieren4,6,10,11,13, was aufgrund der Tatsache, dass PSSM erfordert eine Sequenzausrichtung großer Datenbanken. Kürzlich hat die Entwicklung von Wörterinbettungsmodellen in der Verarbeitung natürlicher Sprache die Möglichkeit eröffnet, sich mit der Proteinkodierung zu befassen. Einige Worteinbettungsmodelle wie Word2Vec14, Doc2Vec15, fastText16 und GloVe17 wurden im Bereich der Bioinformatik weit verbreitet; Beispielsweise kodierten Zeng et al.6 Aminosäuren mithilfe eines statischen Worteinbettungsmodells basierend auf ProtVec18, was die Genauigkeit der PPI-Vorhersage verbessert. Das von Yang et al.19 vorgeschlagene iCircRBP-DHN verbessert die Identifizierungsgenauigkeit von circRNA-RBP-Interaktionsstellen durch Doc2Vec15. Min et al.20 führten eine Vorhersage der Zugänglichkeit von Chromatin durch, indem sie GloVe17 als Einbettungsmethode für Gensequenzen verwendeten. Hamid21 verwendete Word2Vec22 zur Darstellung von Proteinsequenzen zur Differenzierung von Bakteriozinen. Leider erfassen solche statischen Wortvektoreinbettungen die Assoziation zwischen Sequenzen und Strukturen nicht gut und vernachlässigen die möglichen Verbindungen zwischen Sequenzkontexten. Um diese Einschränkungen zu beheben, haben dynamische Worteinbettungen, wie sie durch das BERT-Modell (Bidirektionale Encoder-Repräsentationen von Transformern) dargestellt werden, eine sehr gute Leistung in der semantischen Analyse gezeigt und sind in der Lage, den Sequenzkontext von Proteinsequenzen zu lernen, indem sie groß angelegte, unbeschriftete Korpora in a vorab trainieren bidirektional23,24,25.

In unserer Studie schlagen wir eine auf einem Ensemble-Deep-Learning-Modell (EDLMPPI) basierende Methode zur Identifizierung von Protein-Protein-Interaktionsstellen vor, wie in Abb. 1 dargestellt. Wir schlagen die Verwendung von ProtT5 basierend auf der Transformatorarchitektur als Aminosäure-Merkmalsextraktor vor, um das vollständig auszunutzen globale kontextuelle Assoziation jeder Aminosäure, und dann integrieren wir elf zusätzliche Merkmalsdeskriptoren, um die Merkmalsdarstellung weiter zu bereichern. In EDLMPPI besteht die Deep-Learning-Architektur aus BiLSTM26 und einem Kapselnetzwerk27, wobei BiLSTM Merkmale sowohl in Vorwärts- als auch in Rückwärtsrichtung von Proteinsequenzen umfassend lernen kann und das Kapselnetzwerk darüber hinaus Korrelationen zwischen Merkmalen entdecken kann. Um die Auswirkungen der unausgeglichenen Datensätze zu bewältigen, trainieren wir mehrere Deep-Learning-Modelle, um Ensemble-Deep-Learning zu bilden und dann Vorhersagen durchzuführen. Um die Wirksamkeit unseres vorgeschlagenen EDLMPPI zu untersuchen, haben wir Experimente zum Netzwerkmechanismus und zu Merkmalsextraktionsteilen durchgeführt. Alle Experimente basierten auf den im Abschnitt „Methoden“ beschriebenen Trainings- und Testsätzen. Der Validierungssatz wurde zufällig als 20 % des Trainingssatzes festgelegt, und wir verwendeten auch eine geschichtete Zufallsstichprobe, um den Validierungssatz zu unterteilen, um die Konsistenz der Verteilung der Trainings- und Validierungssätze sicherzustellen. Um die Wirksamkeit von EDLMPPI zu validieren, vergleichen wir es mit zehn verschiedenen Modellen für maschinelles Lernen und Deep-Learning-Modellen anhand der Benchmark-Datensätze. Darüber hinaus vergleichen wir EDLMPPI auch mit anderen PPI-Standortvorhersagemodellen und haben gezeigt, dass EDLMPPI mit großem Abstand vorne liegt, was die Effizienz der Merkmalsextraktion und Netzwerkarchitektur von EDLMPPI bestätigt. Um die biologische Bedeutung von EDLMPPI zu untersuchen, extrahieren wir die Strukturdomänen von Proteinsequenzen. Im Vergleich zu anderen Methoden zeigten die von EDLMPPI vorhergesagten Interaktionsstellen eine höhere Korrelation mit den nativen Stellen in der Strukturdomäne. Darüber hinaus haben wir eine interpretierbare Analyse durchgeführt, um den internen Prozess der Merkmalsdarstellung von EDLMPPI zu demonstrieren. Wir haben einen Webserver für die EDLMPPI-Vorhersage unter http://www.edlmppi.top:5002/ erstellt.

Einerseits kann dieses Design die Korrelation zwischen Merkmalen in beide Richtungen erfassen und die Kontextinformationen vollständig berücksichtigen. Andererseits kann die Kapsel wichtige Informationen so weit wie möglich behalten und gleichzeitig die Dimensionalität der Merkmale reduzieren, Informationslecks vermeiden und die Effizienz des Algorithmus verbessern.

In unserer Studie haben wir eine Mehrkanalstrategie übernommen, um kombinierte Merkmale mit MBF (Multi-Source Biological Features, einschließlich der Evolutionsinformationen, physikalischen Eigenschaften und physikochemischen Eigenschaften von Proteinresten) und ProtT5 als Eingaben für das Modell zu bilden. Anschließend wurden die beiden Vektorsätze vor der Softmax-Klassifizierungsschicht verkettet und normalisiert. In MBF wurde der Schiebefenstermechanismus verwendet, um die lokalen Kontextinformationen für jeden Rest zu kodieren, wodurch eine Überanpassung wirksam verhindert und die Verallgemeinerung des Modells verbessert werden kann. Darüber hinaus ist für eine Fenstergröße von n (n ist eine ungerade Zahl) die mittlere Aminosäure die vorherzusagende Zielaminosäure und der Gleitschritt beträgt 1. Daher haben wir zunächst ein Experiment durchgeführt, um das optimale Fenster zu finden Größe in MBF durch Bewertung der Leistung des MBF-Modells mit verschiedenen Fenstergrößen aus der Menge {5, 11, 15, 21, 25, 33}. Die experimentellen Ergebnisse verschiedener Fenstergrößen sind in Abb. 2a am Beispiel von Dset_448 zusammengefasst. Es ist klar, dass das Modell gemessen an mehreren Schlüsselmetriken, darunter AP, AUROC und MCC, bei einer Fenstergröße von 25 die beste Leistung erzielte. Allerdings nahm die Gesamtleistung des Algorithmus bei einer Fenstergröße von 31 ab, was auf größere Fenster hinweist sind nicht immer besser. Daher wählen wir in unserer Studie als Endgröße eine Fenstergröße von 25.

ein Radardiagramm mit Bewertungsindikatoren, die den verschiedenen Fenstergrößen entsprechen. b Zeigt den Leistungsvergleich von ProtT5, MBF und kombinierten Funktionen auf dem Klassifikator, wobei sich die „durchschnittlichen Bewertungsmetrikwerte“ auf den Durchschnitt der acht Bewertungsmetriken beziehen (einschließlich TPR, TNR, Pre, ACC, F1, MCC, AUROC, und AP) für die verschiedenen Merkmalsdeskriptoren in diesen drei Datensätzen. c Demonstration des Leistungsvergleichs zwischen der EDLMPPI-Architektur und 10 gängigen Modellen für maschinelles Lernen und Deep-Learning-Modellen: EDLMPPI ist besonders stark bei Schlüsselmetriken. d Leistungsvergleich zwischen verschiedenen Methoden zur Auflösung von Ungleichgewichtsdatensätzen, wobei sich die „durchschnittlichen Bewertungsmetrikwerte“ auf den Durchschnitt der acht Bewertungsmetriken (einschließlich TPR, TNR, Pre, ACC, F1, MCC, AUROC und AP) für die verschiedenen beziehen Algorithmen für diese drei Datensätze.

Um die Überlegenheit unseres vorgeschlagenen Feature-Deskriptors weiter zu untersuchen, verglichen wir außerdem die kombinierten Features in EDLMPPI mit einem einzelnen Feature-Deskriptor, einschließlich MBF bzw. ProtT5. Die experimentellen Ergebnisse sind in Tabelle 1 und Abb. 2b aufgeführt. Es ist zu beobachten, dass die Kombination der Merkmale von MBF und ProtT5 die einzelnen Merkmalsdeskriptoren in allen drei Datensätzen deutlich übertraf. Tatsächlich übertrafen die kombinierten Merkmale bei der Bewertungsmetrik AP, die häufig zur Auswertung unausgeglichener Daten verwendet wird, MBF in den drei Datensätzen und übertrafen ProtT5 um 1,8 %, 3 % bzw. 2,9 %, was zeigt, dass die kombinierten Merkmale die Daten bereicherten Proteinexpression und verbesserte die Leistung des Modells. Darüber hinaus zeigt sich beim Vergleich von Prot5 und MBF auch, dass die AP-Werte von Prot5 besser abschneiden als bei diesen drei Datensätzen und MBF um 10,7 %, 11,2 % bzw. 8,6 % für AUROC übertreffen, was die Wirksamkeit dynamischer Wörter verdeutlicht Einbettung in die Vorhersage der Protein-Protein-Bindungsstelle. Der Grund könnte darin liegen, dass ProtT5 den Unterschied zwischen Aminosäuren (Bindungsstellen und Nicht-Bindungsstellen) aus unseren markierten Trainingsdaten besser erfasste, während MBF Schwierigkeiten hatte, die Aminosäurespezifität anhand evolutionärer Informationen und anderer biologischer Funktionen zu unterscheiden.

In den letzten Jahren wurden auf der Transformer-Architektur basierende Sprachmodelle häufig bei Proteinvorhersageproblemen eingesetzt. Der auf Selbstaufmerksamkeit basierende Transformer kann die Zwei-mal-Zwei-Assoziation zwischen Resten direkt berechnen und die gegenseitige Abhängigkeit zwischen Aminosäuren an verschiedenen Positionen erfassen. Zusätzlich zu ProtT5 wurden mehrere alternative Protein-Pre-Training-Modelle vorgeschlagen, darunter ESM-1b28 und ProGen229, um Proteinsequenzen zu charakterisieren. ESM-1b verwendet eine RoBERTa-basierte Architektur mit der Uniref50 2018_03-Datenbank als unbeaufsichtigtem Trainingskorpus und nutzt gleichzeitig die Normalisierung der Voraktivierungsschicht, um Hyperparameter im Übersetzer zu optimieren. ProGen2 wurde auf 6,4 Milliarden Parameter skaliert und anhand verschiedener Sequenzdatensätze mit mehr als 1 Milliarde Proteinen aus Genom-, Metagenom- und Immunrepertoire-Datenbanken trainiert. Für einen fairen Vergleich haben wir die von ProtT5 gelernte Einbettungsdarstellung durch die von ESM-1b und ProGen2 gelernte Einbettungsdarstellung ersetzt. Die experimentellen Ergebnisse sind in Tabelle 2 zusammengefasst. Wie in dieser Tabelle dargestellt, beobachten wir, dass ProtT5 ESM-1b und ProGen2 in AP und AUROC überlegen ist, was zeigt, dass ProtT5 besser zur Charakterisierung der Aminosäuresequenzen für die Protein-Protein-Bindung geeignet ist Veranstaltungen.

Da die Anzahl der Reste in den Bindungsstellen nur ein Zehntel der Gesamtzahl beträgt, zwingen diese unausgeglichenen Daten das Modelltraining dazu, sich auf die Hauptklasse zu konzentrieren und die Nebenklasse zu ignorieren, was zu einer Überanpassung des Modells30,31,32 führt. Um dieses Problem anzugehen, haben wir vorgeschlagen, Ensemble-Deep-Learning einzusetzen, um die verzerrte Verteilung von Kategorien unausgeglichener Datensätze anzugehen. Um die Leistung des Ensemble-Modells zu untersuchen, verglichen wir es mit drei anderen unterschiedlichen unausgeglichenen Datenverarbeitungsalgorithmen, einschließlich kostensensitivem Modell33, zufälliger Überabtastung34 und zufälliger Unterabtastung34 unter diesen drei Datensätzen. Im Detail konzentriert sich das kostensensitive Modell33 auf die Stichproben von Kategorien, indem es die niedrigsten Gesamtkosten für Klassifizierungsfehler optimiert. Bei der Überstichprobe34 werden durch Zufallsstichproben neue Stichproben für die unterrepräsentierten Klassen generiert, während bei der Unterstichprobe34 redundante Stichproben zufällig aus der Hauptklassenstichprobe entfernt werden.

Die experimentellen Ergebnisse sind in Tabelle 3 und Abb. 2d zusammengefasst. Im Allgemeinen schnitt das Ensemble-Modell am besten ab und erzielte höhere MCC-, AUROC- und AP-Werte. In Bezug auf die AP-Werte der drei Datensätze übertraf der Ensemble-Lernalgorithmus die konkurrierenden Algorithmen mit 46,0 %, 33,0 % bzw. 41,3 %, was auf eine verbesserte Generalisierungsleistung mit der asymmetrischen Bagging-Methode hinweist. Darüber hinaus betrug die durchschnittliche Präzision der Oversampling-Methode für die drei Datensätze 43,9 %, 31,5 % bzw. 40,4 %, was niedriger war als die Ensemble-Lernmethode, da die Oversampling-Methode die Abhängigkeiten zwischen Features und zerstört schränkt die Fähigkeit des Modells ein, Korrelationen zwischen Merkmalen zu finden. Es ist erwähnenswert, dass die Under-Sampling-Methode als Untermodell des Ensemble-Deep-Learning-Modells betrachtet werden kann, das bei den AUROC- und AP-Scores in allen drei Datensätzen im Vergleich zur Ensemble-Learning-Methode um 1,1 % bis 3,9 % zurückbleibt.

Zusammenfassend können wir den Schluss ziehen, dass die auf asymmetrischem Bagging basierende Ensemble-Deep-Learning-Methode die Effizienz der Algorithmusausführung gewährleistet und ihre Identifizierungsleistung verbessert, indem sie die Auswirkungen der unausgeglichenen Datensätze vergleichsweise reduziert.

Um die Wirksamkeit von EDLMPPI zu untersuchen, haben wir es mit fünf Methoden des maschinellen Lernens verglichen, darunter drei Ensemble-Lernmethoden (XGBoost35, LightGBM36 und CatBoost37) und zwei weitere Methoden des maschinellen Lernens, SGDClassifier (Stochastic Gradient Descent) und MLPClassifier (Multi-Layer Perception). ). Abbildung 2c und Tabelle 4 zeigen die experimentellen Ergebnisse der verschiedenen Algorithmen für alle drei Datensätze. Aus den Ergebnissen sehen wir, dass unser vorgeschlagenes Modell in allen drei Datensätzen eine bessere Leistung als die fünf anderen Algorithmen für maschinelles Lernen aufwies. Insbesondere bei Dset_448 übertraf EDLMPPI die Methoden des maschinellen Lernens um 2,1–3,4 % im durchschnittlichen AUROC und um 3,0–6,2 % für den durchschnittlichen AP in den drei Datensätzen, was auf die große Verbesserung der Vorhersagefähigkeit von EDLMPPI hinweist. Da EDLMPPI und diese Algorithmen für maschinelles Lernen denselben Funktionsdeskriptor verwenden, stellen wir außerdem anhand der Ergebnisse fest, dass die umfassende Leistung der Deep-Learning-Methode stärker war als die des herkömmlichen maschinellen Lernens, was darauf hindeutet, dass die Deep-Learning-Methode das Potenzial ausschöpfen kann Die Verbindung zwischen Proteinsequenz und -struktur wird verbessert, wodurch die Vorhersage der Leistung von Proteinbindungsstellen verbessert wird, was die Wirksamkeit von EDLMPPI weiter beweist.

Um die Wirksamkeit und Ausgereiftheit der überarbeiteten Architektur von EDLMPPI zu validieren, haben wir sie mit anderen fünf Deep-Learning-Modellen verglichen, darunter TextCNN38, Single-Capsule27, BiLSTM39, BiGRU40 und Multi-Head Attention41, die dieselben Funktionsdeskriptoren verwenden. Die experimentellen Ergebnisse der verschiedenen Deep-Learning-Modelle sind in Abb. 2c und Tabelle 4 dargestellt. Dort sehen wir, dass EDLMPPI vergleichsweise besser abschneidet als die anderen Deep-Learning-Modelle, gemessen an der Bewertungsmetrik AP, und das zweitplatzierte Multi-Head-Modell übertrifft. Die Aufmerksamkeit der drei Datensätze stieg um 1,2 %, 2,2 % bzw. 1,2 %. Darüber hinaus war die intuitive Sicht auf die Leistung von TextCNN schwächer als bei mehreren anderen Deep-Learning-Modellen, was mit unserer Erwartung übereinstimmt, dass die CNN-Struktur nur die lokalen Merkmale extrahierte, was die Integrität der kontextbasierten Einbettung von Prot5 untergrub. Darüber hinaus schneiden LSTM und GRU auf Dset_448 und Dset_72 vergleichbar ab, aber LSTM schneidet auf Dset 164 besser ab als GRU, was der Grund für die Wahl von LSTM ist, um langfristige Abhängigkeiten im endgültigen Modell EDLMPPI zu lernen.

Um den Fortschritt von EDLMPPI weiter zu testen, haben wir es mit zehn aktuellen PPI-Vorhersagemethoden verglichen, darunter SPPIDER42, SPRINT43, PSIVER44, SPRINGS45, LORIS46, CRFPPI47, SSWRF48, DLPred49, SCRIBER13 und DELPHI11. Wir haben die Vorhersagewerte für jede Proteinsequenz im Testdatensatz über den Webserver oder die verfügbaren Quellcodes dieser Algorithmen erhalten. Wir haben TPR, TNR, Pre, ACC, F1, MCC, AUROC und AP als Bewertungskriterien und MCC, AUROC und AP als wichtige Determinanten für die Bewertung der Vorzüge der Modelle übernommen, die häufig zur Bewertung unausgeglichener Daten verwendet werden13. Die Vorhersageergebnisse sind in Tabelle 5 und Abb. 3a zusammengefasst.

a Demonstration der Ergebnisse von Vergleichen zwischen EDLMPPI und zehn anderen Wettbewerbsmethoden, wobei sich die „durchschnittlichen Bewertungsmetrikwerte“ auf den Durchschnitt der acht Bewertungsmetriken beziehen (einschließlich TPR, TNR, Pre, ACC, F1, MCC, AUROC und AP) für die verschiedenen Methoden dieser drei Datensätze. b Ein Vergleich der vorhergesagten PPIs von EDLMPPI, DELPHI und SCRIBER im Vergleich zu nativen PPIs. Bei der Berechnung des Anteils der PPIs in jeder Domäne weisen EDLMPPI und native PPIs die höchste Korrelation auf.

Wir sehen, dass EDLMPPI für die meisten Bewertungsmetriken besser ist als die anderen PPI-Vorhersagemethoden, mit AUROCs von 82,0 %, 78,8 % bzw. 75,5 % in den drei Datensätzen, deutlich höher als die DELPHI-Methode mit 73,7 %, 71,1 % und 68,5 % bzw. Darüber hinaus übertrifft EDLMPPI DELPHI bei der durchschnittlichen Präzision (AP) um 12,3 %, 9,3 % bzw. 8,1 % in den drei Datensätzen, was eine erhebliche Verbesserung mit sich bringt. Der Grund scheint darin zu liegen, dass EDLMPPI das Problem der Aminosäure-Fernabhängigkeit auf der Grundlage des selbstaufmerksamen Transformatormechanismus angehen kann, der die globalen Kontextmerkmale und semantischen Informationen vollständig erforscht, was darauf hinweist, dass unsere vorgeschlagene Deep-Learning-Architektur einen wichtigen Beitrag dazu leistet genaue Klassifizierung. Darüber hinaus haben wir traditionelle biologische Merkmale wie die Evolutionsinformationen und mehrere physikalisch-chemische Eigenschaften integriert, um mögliche Mängel von ProtT5 zu überbrücken und so die Identifizierungsleistung weiter zu verbessern. Insbesondere zeigte EDLMPPI beim Vergleich von Sequenzen voller Länge einen größeren Vorteil im Dset_448-Datensatz, was darauf hindeutet, dass unsere Methode zur Merkmalsextraktion möglicherweise besser und genauer bei der funktionellen Expression vollständiger Proteinsequenzen ist. Insgesamt war EDLMPPI den bestehenden Methoden deutlich voraus und kann als ergänzendes Werkzeug für die Annotation von Protein-Protein-Interaktionsstellen verwendet werden.

Proteindomänen stehen in engem Zusammenhang mit der Vervollständigung der physiologischen Funktionen der Proteine und dienen als strukturelle Grundlage für ihre zellulären Funktionen50. Um Einblicke in die mögliche Beziehung zwischen Proteinstrukturdomänen und Protein-Protein-Interaktionsstellen zu erhalten, führten wir ein Experiment durch, um zu überprüfen, ob EDLMPPI PPIs in der Proteindomäne genau vorhersagt. Wir haben 448 Proteinsequenzen im Dset_448-Datensatz von Pfam51 mit Anmerkungen versehen, um alle überlappenden Strukturdomänen zu entfernen, und schließlich 501 Strukturdomänen erhalten. Abbildung 3b zeigt die Entsprechung zwischen Strukturdomänen jeder Größe und der Anzahl der darin enthaltenen PPIs, während wir die Vorhersageergebnisse von EDLMPPI, DELPHI und SCRIBER13 vergleichen. Darüber hinaus haben wir eine Kontrollgruppe hinzugefügt, um die Rationalität des Experiments zu erhöhen: Ein Fragment mit der gleichen Größe wie die Proteindomäne wurde zufällig aus der Sequenz ausgewählt. Den Ergebnissen zufolge waren die Vorhersageergebnisse von EDLMPPI optimistischer als die der beiden anderen Methoden, wobei die Anzahl der von EDLMPPI vorhergesagten PPIs mit dem Wachstum der Strukturdomäne zunahm. Laut einer früheren Studie52 interagieren die Superfamilien der längenabweichungsabhängigen Domänen stark, sind in ihrer Funktion stärker gemischt und werden durch mehrere Proteine reguliert, was die Plausibilität von EDLMPPI bei der Vorhersage der Proteinfunktion unterstützt. Darüber hinaus haben wir den Anteil der vorhergesagten PPIs gezählt, die von EDLMPPI, DELPHI und SCRIBER für jede Strukturdomäne geschätzt wurden, und den Pearson-Korrelationskoeffizienten mit dem wahren Anteilsvektor berechnet. EDLMPPI zeigte mit einem Wert von 0,70 die höchste Korrelation mit den nativen Anmerkungen, während DELPHI, SCRIBER und die Kontrollgruppe jeweils 0,63, 0,57 und 0,21 erzielten.

Um weiter zu zeigen, dass EDLMPPI die Leistung von Bindungsstellen in Proteindomänen genau vorhersagen kann, haben wir drei Enzymproteine mit hoher katalytischer Aktivität ausgewählt, P19821 – DPO1_THEAQ, P9WHH9 – DLDH_MYCTU und P17109 – MEND_ECOLI, um den Leistungsunterschied zu demonstrieren, der durch verschiedene Methoden vorhergesagt wird. Da SCRIBER und DELPHI bei der Vorhersage von PPIs eine bessere Leistung erbrachten als andere Modelle zur Vorhersage von PPI-Standorten, haben wir die Vorhersageergebnisse von SCRIBER und DELPHI in diesen drei Sequenzarten zum Vergleich herangezogen. Die Ergebnisse sind in Tabelle 6 dargestellt. Mit einer Proteinstrukturdomäne Bei einer Größe von 337 in P19821 - DPO1_THEAQ beträgt die tatsächliche Anzahl der experimentell nachgewiesenen PPIs 31, und die Vorhersage von EDLMPPI lag bei 36, was im Vergleich zu SCRIBER und DELPHI näher an der wahren Zahl liegt. Diese Leistung ist bei P9WHH9 – DLDH_MYCTU und P17109 – MEND_ECOLI deutlicher zu erkennen, wo die Anzahl der von EDLMPPI vorhergesagten PPIs nur um 1–2 vom wahren Wert abweicht, was auf die Wirksamkeit von EDLMPPI bei der Vorhersage der Bindungsstellen von Proteinstrukturdomänen und auch bei der Validierung hinweist Unsere vorherige Schlussfolgerung, dass EDLMPPI mehr Bindungsstellen in den Strukturdomänen von Proteinen bereitstellen kann.

Um die Wirksamkeit der EDLMPPI-Architektur zu untersuchen, haben wir die Zwischenschichtausgaben des Modells in verschiedenen Phasen extrahiert und sie zur Clusterbildung auf einen zweidimensionalen Raum abgebildet, wie in Abb. 4a dargestellt. Wir sehen, dass die ursprüngliche Einbettung willkürlich verteilt war, während nach der BiLSTM-Schicht ein deutlicherer Clustering-Effekt zu erkennen ist. Die Kapselschicht bewahrte weiterhin die wichtigsten Klassifizierungsmerkmale und die Bindungs- und Nichtbindungsstellen erschienen als separate Cluster. Nach der Softmax-Funktion wurde schließlich eine genaue Identifizierung erreicht.

a Das t-SNE-Flussdiagramm zeigt den Clustering-Effekt der Ausgabe der verschiedenen Zwischenschichten der EDLMPPI-Architektur. b Die 20 Merkmale, die den größten Einfluss auf die Identifizierung von PPIs haben und zeigen, wie sie sich bei der Vorhersage von Nicht-Bindungsstellen bzw. Bindungsstellen auswirken. c Die schematischen Diagramme zeigen die Interaktion zwischen Feature 1024 und anderen Features bzw. die Interaktion zwischen Feature 569 und anderen Features. d Ein gestapeltes Diagramm, das die Auswirkung jedes Merkmals auf jede Stichprobe zeigt.

Darüber hinaus untersuchten wir den Beitrag verschiedener Merkmale zur Erkennung von Protein-Protein-Bindungsstellen und zur Interaktionsbeziehung. Abbildung 4b zeigt die 20 Merkmale, die den größten Einfluss auf die Identifizierung von PPIs haben, und zeigt, wie sie bei der Vorhersage der Nicht-Bindungsstellen bzw. Bindungsstellen wirken. Die rote Farbe stellt höhere Merkmalswerte dar, während die blaue Farbe niedrigere Merkmalswerte darstellt. Nehmen wir die Merkmale 1027 und 33 als Beispiele: Das höhere Merkmal 1027 neigt dazu, Proben als Bindungsstellen zu klassifizieren, während das höhere Merkmal 33 Proben eher als Nicht-Bindungsstellen klassifiziert. Im Vergleich zum Einfluss eines einzelnen Features auf das Modell war die Interaktion der Features wichtiger. Abbildung 4c zeigt, wie Feature 1027 und Feature 569 mit den anderen Features interagieren. Wir stellen fest, dass Merkmal 1027 keine signifikante Interaktion mit den anderen Merkmalen hatte, was mit unserer Einschätzung übereinstimmt, dass Merkmal 1027 die Lösungsmittelzugänglichkeit darstellt und als Vektor der Länge 1 codiert ist, ohne zu große Abhängigkeit von den anderen Merkmalen. Andererseits wurde eine starke Korrelation zwischen den Merkmalen 569 und 72 gezeigt, und die Auswirkung von Merkmal 72 auf die Klassifizierung wurde bei niedrigeren Werten von Merkmal 569 abgeschwächt. Dies ist auf die Tatsache zurückzuführen, dass ProtT5 globale Kontextabhängigkeiten und den Ausdruck von Merkmalen enthält basiert auf einer gemeinsamen Aktion mit anderen Funktionen, was die Wirksamkeit von ProtT5 weiter bestätigt. Abbildung 4d ist ein gestapeltes Diagramm, das die Auswirkung jedes Merkmals auf jede Probe zeigt. So können wir beobachten, welche Merkmale die Identifizierung einer Probe beeinflussen.

Um ein tieferes Verständnis der Funktionsweise von EDLMPPI zu erlangen, haben wir den internen Prozess der ProtT5-Einbettung auf Zuverlässigkeit untersucht. Zuerst haben wir eine vollständige Proteinsequenz ausgewählt und sie mit ProtT5 kodiert. Für jeden Aminosäure-Einbettungsvektor haben wir den Pearson-Korrelationskoeffizienten angewendet, um die Korrelation zwischen Resten zu beschreiben. Die Ergebnisse sind in Abb. 5a dargestellt, wo wir sehen, dass jede Aminosäure immer eine starke Korrelation mit der Aminosäure hatte, die näher bei ihr lag, aber mit zunehmender Entfernung konnte ProtT5 immer noch eine Assoziation zwischen Aminosäuren erfassen, was darauf hindeutet, dass ProtT5 im Gleichgewicht war die lokalen Einflüsse und die langfristige Abhängigkeit. Um den Prozess weiter voranzutreiben, haben wir Bertviz53 angewendet, um jeden Aufmerksamkeitskopf und jede Schicht in ProtT5 zu visualisieren. Die Ergebnisse sind in Abb. 5b, c dargestellt, wo die verschiedenen Farben die verschiedenen Aufmerksamkeitsköpfe darstellen und die Sättigung der Linien die Aufmerksamkeit darstellt Partituren. Abbildung 5b(a) zeigt die erste Aufmerksamkeitsschicht in allen Aufmerksamkeitsköpfen, die in etwa einer vollständigen Verbindung ähnelt, was bedeutet, dass alle Aufmerksamkeitsköpfe für jeden Rest versuchten, die Assoziation mit dem Ziel der anderen Reste zu finden. Das fungiert als Sequenzsplitter, der die Aufmerksamkeit aller Reste auf sich zieht, was darauf hinweist, dass für ProtT5 die Gesamtidentität einer Sequenz durch alle Aminosäuren zusammen bestimmt wird. Darüber hinaus zeigt Abb. 5b(d) deutlich den Fluss der Zielaminosäuren in den verschiedenen Aufmerksamkeitsköpfen und bestätigt damit unsere vorherige Aussage, dass eine höhere Aufmerksamkeit bei größerer Nähe beobachtet wird. Darüber hinaus visualisiert Abb. 5c die Entwicklung jedes Aufmerksamkeitskopfes in den verschiedenen Schichten. Mit zunehmender Tiefe der Schichten verlagerte sich das Aufmerksamkeitsmuster von der Konzentration auf die Assoziation zwischen verschiedenen Aminosäuren hin zur Übertragung der Expression der Aminosäuresequenzen. Zusammenfassend lässt sich sagen, dass ProtT5 den Zusammenhang zwischen der Struktur auf Proteinebene und ihrer Funktion von lokal bis global untersuchen kann und eine vernünftige Interpretation liefert, dass EDLMPPI die Bindungsstellen für Protein-Protein-Interaktionen effektiv vorhersagt.

eine Korrelationswärmekarte jedes Rückstands unter ProtT5-Einbettung. b Aufmerksamkeitsansicht mit verschiedenen Ebenen und unterschiedlichen Aufmerksamkeitsköpfen. c Aufmerksamkeitsflussansicht zwischen verschiedenen Ebenen, wobei jede Farbe eine andere Ebene darstellt.

Um Forschern die Nutzung zu erleichtern, unser Modell zu verbessern und den Fortschritt bei der Vorhersage von Proteinbindungsstellen zu beschleunigen, haben wir einen voll funktionsfähigen EDLMPPI-Online-Vorhersage-Webserver für PPI entwickelt, der unter http://www.edlmppi.top:5002/ verfügbar ist. Angesichts der begrenzten Rechenressourcen und der großen Rechenkapazität von ProtT5 leiten wir Benutzer geduldig an, wie sie die ProtT5-Umgebung in ihrer lokalen Umgebung einrichten, das Modell herunterladen und Funktionen in verschiedenen Szenarien extrahieren. Darüber hinaus fordert der Online-Vorhersageserver Benutzer dazu auf, die extrahierten ProtT5-Funktionen direkt auf den EDLMPPI-Server hochzuladen, sodass wir die Vorhersageergebnisse per E-Mail mit einer Interpretation der Ergebnisse zurücksenden können. Darüber hinaus haben wir Open-Source-Daten und -Code auf GitHub synchronisiert, auf die unter https://github.com/houzl3416/EDLMPPI.git zugegriffen werden kann.

Die ergänzende Abbildung 1 fasst die Hauptmodule zusammen und die ergänzende Abbildung 1a zeigt die Hauptschnittstelle, die drei Möglichkeiten zum Erhalten von ProtT5 umfasst: Extrahieren auf Ihr Gerät, Extrahieren auf Colab oder Herunterladen der von uns bereitgestellten Datei. Ergänzende Abbildung 1b zeigt das Vorhersagemodul: Sobald die ProtT5-Funktionen hochgeladen sind, kann der Server die Vorhersageergebnisse automatisch an die E-Mail-Adresse des Benutzers senden. Schließlich gibt es noch das in der ergänzenden Abbildung 1c dargestellte herunterladbare Modul, in dem Benutzer direkt auf die Links klicken können, um Datensätze und Modelle schnell herunterzuladen.

In dieser Studie schlagen wir eine Methode zur Vorhersage von Protein-Protein-Interaktionsstellen vor, die auf Ensemble-Deep-Learning-Modellen basiert und EDLMPPI heißt. EDLMPPI passt das dynamische Worteinbettungsmodell basierend auf der Transformatorarchitektur an die Untersuchung von Protein-Protein-Interaktionsstellen an und verwendet ProtT5 zur Erfassung der Kontext- und Positionsinformationen zwischen Resten, während elf biologische Merkmale aus mehreren Quellen integriert werden, um die Merkmalsdarstellung weiter zu bereichern. In der Zwischenzeit haben wir ein integriertes Deep-Learning-Modell mit mehreren Kanälen entwickelt, das sowohl die lokale Kontextabhängigkeit als auch die globale Kontextabhängigkeit von Proteinsequenzen erfasst und das Problem des Datenungleichgewichts effektiv löst.

Um die Wirksamkeit des EDLMPPI zu demonstrieren, haben wir es mit zehn verschiedenen traditionellen Modellen für maschinelles Lernen und Deep Learning anhand von drei weit verbreiteten Benchmark-Datensätzen verglichen. Darüber hinaus haben wir EDLMPPI mit anderen PPI-Website-Vorhersagemodellen verglichen und die Vorhersageleistung von EDLMPPI verbessert die Vorhersage gegenüber diesen Modellen. Darüber hinaus zeigt EDLMPPI bei der Vorhersage von PPIs in Proteinstrukturdomänen biologisch konsistentere Ergebnisse, was darauf hindeutet, dass EDLMPPI die Fähigkeit zu bestimmten biologischen Analysen besitzt und als Leitfaden für Biologen bei der Durchführung spezifischer Experimente an Proteinen verwendet werden kann. Unterdessen demonstriert die Interpretierbarkeitsanalyse vollständig die interne Vision des EDLMPPI-Modells, was die Rationalität des Modells weiter verbessert.

Darüber hinaus bietet die Veröffentlichung des EDLMPPI-Online-Vorhersage-Webservers detaillierte Anleitungen zum Modelltraining und zur Modellvorhersage und stellt so sicher, dass die Ergebnisse unserer Experimente wiederholbar und betriebsbereit sind. Der Code und die Daten sind auch Open-Source unter https://github.com/houzl3416/EDLMPPI.git.

Zusammenfassend lässt sich sagen, dass EDLMPPI ein sehr wettbewerbsfähiges Tool zur Vorhersage von Protein-Protein-Interaktionsstellen mit den Vorteilen hoher Effizienz und Genauigkeit ist und eine neue Alternative für die Identifizierung von Protein-Interaktionsstellen darstellt. Es liefert neue Ideen und Einblicke in die Aufgabe der Vorhersage von Protein-Protein-Interaktionsstellen und kann auch als wichtiger Assistent für Biologen bei der effektiven Umsetzung von PPI-Vorhersagen und nachgelagerten Analysearbeiten dienen. Die Veröffentlichung des Webservers erleichtert auch die Arbeit anderer Forscher erheblich, unser Modell zu verbessern und effektivere Vorhersageergebnisse zu erzielen. In Zukunft werden wir andere dynamische Worteinbettungsmodelle in unser vorgeschlagenes Modell integrieren und sie an andere relevante Proteinidentifizierungsprobleme anpassen.

Für Datensätze haben wir drei weit verbreitete Benchmark-Datensätze gesammelt: Dset_18654, Dset_7254 und Dset_16455. Dset_186 wurde aus der PDB-Datenbank3 erstellt und enthält 186 Proteinsequenzen mit einer Auflösung von <3,0 Å und einer Sequenzhomologie <25 %. Dieser Datensatz wurde in mehreren Schritten verfeinert, einschließlich der Entfernung von Ketten mit identischen UniprotKB/Swiss-Prot-Akzessionen, der Entfernung von Transmembranproteinen, der Entfernung dimerer Strukturen, der Entfernung von Proteinen mit Oberflächenzugänglichkeit und Grenzflächenpolarität, die in einem bestimmten Bereich liegen. und die Beseitigung von Ähnlichkeiten. Dset_72 und Dset_164 wurden auf die gleiche Weise wie Dset_186 konstruiert und bestehen aus 72 bzw. 186 Proteinsequenzen.

Darüber hinaus ist Dset_1291 ein Datensatz aus der BioLip-Datenbank, in dem eine Bindungsstelle definiert ist, wenn der Abstand zwischen einem Atom eines Rests und einem Atom eines bestimmten Proteinpartners 0,5 Å plus der Summe der Van-der-Waals-Radien der beiden Atome beträgt13. Zhang et al.13 eliminierten die fragmentierten Proteine und übertrugen dann die Annotation der gebundenen Reste auf dieselbe UniProt-Sequenz. Daher wurde die Ähnlichkeit zwischen den Sequenzen unter der Blast-Clust-Methode auf weniger als 25 % reduziert. Schließlich wurde Dset_843 (843 Sequenzen von Dset_1291) zum Trainieren unseres Modells verwendet, während die restlichen 448 Sequenzen (Dset_448) als unabhängiger Testsatz verwendet wurden.

Anhand dieser Datensätze haben wir die Trainings- und Testsätze erstellt. Da Dset_843 und Dset_448 vollständig aus Proteinsequenzen voller Länge bestehen, während Dset_71, Dset_186 und Dset_164 aus fragmentierten Sequenzen bestehen; Um die Generalisierbarkeit des Modells zu verbessern, haben wir Dset_843 und Dset_186 als Trainingsdatensätze ausgewählt, die zwei verschiedene Arten von Datensätzen repräsentieren. Anschließend wurden Dset_448, Dset_72 und Dset_164 als unabhängige Testsätze verwendet, um die Leistung der verschiedenen PPI-Standortvorhersagemodelle zu testen. Um die Ähnlichkeit zwischen den Trainings- und Testsätzen zu verringern, führten wir außerdem eine Konsistenzredundanzentfernung zwischen ihnen mithilfe des PSI-BlAST56-Verfahrens durch, um sicherzustellen, dass die Ähnlichkeit unter 25 % lag. Die Ergänzungstabelle 1 fasst die Anzahl der Proteinreste und den Anteil der Bindungsstellen in jedem Datensatz zusammen. Dabei ist leicht zu erkennen, dass die Verteilung der Datensätze relativ unausgewogen ist und positive Proben nur 10–18 % der Gesamtprobengröße ausmachen , was eine Herausforderung für die Generalisierbarkeit des Modells darstellt.

Um die strukturellen Eigenschaften von Protein-Protein-Interaktionsstellen vollständig zu untersuchen, werden mehrere Merkmale, einschließlich dynamischer globaler Kontextinformationen und biologischer Merkmale aus mehreren Quellen, wie folgt aus Proteinsequenzen extrahiert.

Aufgrund der hohen Kosten herkömmlicher biologischer Experimente und der geringen Leistungsfähigkeit einiger auf Deep Learning basierender Techniken führen wir das auf dynamischer Worteinbettung basierende ProtT524 ein, um die Merkmalsexpressionsinformationen von Proteinen darzustellen und die globalen kontextsensitiven Informationen zwischen den verschiedenen Sequenzen zu erhalten und Aminosäuren, was sich experimentell bereits als wirksame Methode erwiesen hat. Konkret wird ProtT5 zur Generierung globaler kontextueller Einbettungen eingesetzt. Tatsächlich lernt ProtT5 eine Positionskodierung für jeden Aufmerksamkeitskopf in der Transformatorarchitektur und teilt sie auf allen Ebenen. In ProtT5 ist das Trainingskorpus Uniref50, das 45 Millionen Proteinsequenzen enthält, die aus 15 Milliarden Aminosäuren bestehen. Ein solch umfangreiches Trainingsset garantiert, dass ProtT5 die strukturellen und funktionellen Verbindungen zwischen verschiedenen Arten oder Rassen von Proteinen erfasst.

ProtT5 ordnet zunächst jede Aminosäure mithilfe einer Einbettungsschicht einem Vektor fester Länge zu. Außerdem wird die Positionseinbettung in ProtT5 verwendet, um die relativen Positionsinformationen jeder Aminosäure in der entsprechenden Proteinsequenz zu kodieren, und die Segmenteinbettung wurde eingeführt um die verschiedenen Proteinsequenzen zu unterscheiden. Die Summe aus Token-Einbettung, Segmentierungs-Einbettung und Positionseinbettung sorgt nicht nur für eine nicht-kontextuelle Zuordnung von Aminosäuren zum zugrunde liegenden Raum, sondern erweitert auch die Aminosäureabhängigkeiten in jeder Proteinsequenz und die kontextuellen Assoziationen zwischen verschiedenen Proteinsequenzen, was möglich ist wie folgt definiert werden:

Dabei sind Wtok, Wseg und Wpos die entsprechenden zu trainierenden Parametermatrizen. Anschließend wird die dynamische Worteinbettung, die aus dem Multi-Head-Selbstaufmerksamkeitsmechanismus in der Transformatorarchitektur gelernt wurde, verwendet, um die relevanten Aminosäuren in der Proteinsequenz zu korrelieren, was durch die folgende Formel berechnet werden kann:

wobei Q(Abfrage), K(Schlüssel), V(Wert) durch m lineare Transformationen erhalten werden, die zum Speichern aller Worteinbettungen verwendet werden. Zi stellt die Aufmerksamkeit jedes Aufmerksamkeitskopfes dar, die durch die lineare Transformation einer Menge von Q, K, V berechnet wird.

Tatsächlich besteht der Aufmerksamkeitsstapel von ProtT5 aus 24 Schichten, jede Schicht enthält 32 Aufmerksamkeitsköpfe und die Größe der verborgenen Schicht beträgt 1024. Dieser gestapelte Modus ermöglicht es jeder Schicht, mit der Ausgabe der vorherigen Schicht zu arbeiten. Durch eine solche wiederholte Kombination von Worteinbettungen kann ProtT5 eine sehr reichhaltige Darstellung bilden, wenn es die tiefste Schicht des Modells erreicht23. Daher extrahieren wir in unserer Studie die Einbettung der letzten Schicht des Aufmerksamkeitsstapels in unsere Merkmalsdarstellung.

Um die Vorhersageleistung zu verbessern, haben wir außerdem auf die Evolutionsinformationen, physikalischen Eigenschaften und physikalisch-chemischen Eigenschaften von Proteinresten zugegriffen, um den Merkmalsausdruck zu bereichern.

(1) Positionsspezifische Bewertungsmatrix (PSSM): PSSM bietet eine flexible Möglichkeit, die Spezifität von Restwechselwirkungen darzustellen, die die evolutionäre Erhaltung der Restpositionen beschreibt. Es kann wie folgt beschrieben werden:

wobei pa und pb die Wahrscheinlichkeit der Beobachtung der Aminosäuren a bzw. b darstellen und M(a, b) der Wahrscheinlichkeitswert einer Mutation ist. Wir haben Uniref90 als Vergleichsdatenbank ausgewählt, die Anzahl der Iterationen auf drei festgelegt und den Schwellenwert durch PSI-BLAST auf 0,001 festgelegt.

(2) Physikalische Eigenschaften: Zu den physikalischen Eigenschaften gehören der Graphenindex, die Polarisationsrate, das normalisierte Van-der-Waals-Volumen, die Hydrophobie, der isoelektrische Punkt, die Spiralwahrscheinlichkeit und die Blattwahrscheinlichkeit. Die gleichen Berechnungen werden unter Verwendung der in Lit. angegebenen Werte durchgeführt. 57, um für jede Aminosäure einen 7-dimensionalen Vektor zu erhalten.

(3) Physikochemische Eigenschaften: Um die Unterschiede und Verbindungen zwischen verschiedenen Resten genau auszudrücken, führen wir die physikalisch-chemischen Eigenschaften von Aminosäuren ein. Die physikalisch-chemischen Eigenschaften eines Rückstands werden durch drei Werte beschrieben: die Anzahl der Atome, die Anzahl der elektrostatischen Ladungen und die Anzahl potenzieller Wasserstoffbrückenbindungen. Diese Werte beziehen sich nur auf die Art der Aminosäure und enthalten keine Strukturinformationen aus dem Aminosäurerest.

Um die entscheidenden Informationen in den hybriden Merkmalsschemata effizienter zu erfassen, haben wir das Ensemble Deep Memory Capsule Network (EDMCN) entwickelt, um die Feature-Lernleistung bei der Identifizierung von Protein-Protein-Interaktionsstellen zu maximieren, wie in Abb. 1 dargestellt. Deep Memory Capsule-Netzwerke erweitern sich die Parallelität traditioneller Speichernetzwerke, indem sie mit unterschiedlichen Ausgabegrößen verknüpft werden, um die Korrelation zwischen Aminosäuren auf unterschiedlichen Tiefenskalen zu erfassen. Darüber hinaus kann die Kapselstruktur die intrinsischen Verbindungen zwischen Merkmalen weiter untersuchen und Standortinformationen zwischen Proben speichern. Um die Verallgemeinerung und Stabilität des Modells zu fördern, haben wir außerdem einen asymmetrischen Bagging-Algorithmus eingeführt, um das hohe Ungleichgewicht zwischen den Proben zu beheben.

Herkömmliche Speichernetzwerke wie LSTM39, GRU40 usw. haben gute Ergebnisse bei der Organisation des Kontexts von Features für die Vorhersage erzielt. Allerdings sind diese Modelle parametersensitiv, was die Stabilität der Vorhersage stark beeinträchtigt. Um dieses Problem anzugehen, haben wir ein Deep-Memory-Netzwerk entwickelt, um die Generalisierungsleistung des Modells zu verbessern. Die zentrale Idee von Deep-Memory-Netzwerken besteht darin, mehrere Speichernetzwerke mit unterschiedlichen Ausgabeskalen zu verbinden, um die Korrelation zwischen Residuen auf mehrskalige Weise zu erfassen. Formal steuert es hauptsächlich den Proteininformationsfluss durch drei Tore (Eingabetor(i), Vergessenstor(f) und Ausgangstor(o)), einschließlich des Zeitpunkts, an dem die Informationen gespeichert, aktualisiert und genutzt werden müssen. Das Vergessenstor funktioniert, indem es ein Langzeitgedächtnis Mt−1 akzeptiert und entscheidet, welche Teile beibehalten oder verworfen werden sollen. In einem Zeitschritt t berechnet das Vergiss-Gate zunächst den Vergessensfaktor ft aus dem vorherigen verborgenen Zustand ht−1 und der aktuellen Eingabeinformation mt:

wobei σ die logistische Sigmoidfunktion ist. Das Eingangsgatter steuert hauptsächlich, welche Eingangsströme mt durch die Speicherzelle fließen können, indem es zunächst ein Steuersignal erzeugt, um die Zuflussrate rt zu steuern:

Als nächstes generiert das Eingabegatter Kandidatenspeicherzellen \(\widetilde{{M}_{t}}\) und berechnet die Speicherinformationen, die schließlich das Eingabegatter passieren, basierend auf dem zuvor gelösten rt:

Schließlich filtert das Ausgangsgatter mt, indem es das Steuersignal gt erzeugt, um den Ausgang Ot zu erhalten:

Deep-Memory-Netzwerke erfassen effektiv globale Kontextabhängigkeiten zwischen Features, neigen jedoch dazu, die starken Korrelationen zwischen lokalen Features zu schwächen und topologische Informationen über Feature-Typen zu verlieren. Um dieses Problem zu lösen, führen wir das Kapselnetzwerk27 ein. Intuitiv enthält das Kapselnetzwerk einen Faltungsnetzwerkteil sowie Neuronen, sogenannte Kapseln, die über die Wahrnehmung von Merkmalen entscheiden, was sich nicht nur in der Wichtigkeit der Merkmale widerspiegelt, sondern auch in den verschiedenen Zuständen der Merkmale, einschließlich ihrer Standortinformationen. Auf diese Weise kann das Kapselnetzwerk die potenziellen Assoziationen zwischen Merkmalen für unsere stark kontextabhängigen Merkmalsbeschreibungsmethoden effektiv erfassen.

Die Struktur der Kapselneuronen in einem Kapselnetzwerk ist in Abb. 1 dargestellt. In einem Kapselnetzwerk sind die Kapselneuronen auf ähnliche Weise wie bei einer vollständigen Verbindung verbunden, und zwar für die aktuelle Kapselschicht c1, c2, …, ci, the Die Positionsbeziehung zwischen den lokalen und globalen Merkmalen wird durch die Posentransformation (Translation, Rotation, Deflation) gelernt:

wobei Wij die Gewichtsmatrix ist. Dann multiplizieren wir jeden transformierten Vektor mit einem Kopplungskoeffizienten oij, geben ihn an die nächste Kapselschicht weiter und summieren alle von der j-ten Kapsel der nächsten Schicht empfangenen Neuronensignale:

und der oij kann wie folgt berechnet werden:

Dabei ist bij die logarithmische A-priori-Wahrscheinlichkeit dafür, ob zwei Kapseln verbunden sind. Ähnlich wie bei Sigmoid wird eine nichtlineare Aktivierungsfunktion namens Squash27 verwendet, um Vektoren auf [0, 1] abzubilden, und die Kapselausgabe vj dieser Schicht kann wie folgt berechnet werden:

Um die Stabilität und Generalisierungsleistung unseres vorgeschlagenen Modells weiter zu verbessern, wird eine Ensemble-Lernmethode basierend auf dem asymmetrischen Bagging-Algorithmus58 angewendet, um mit der verzerrten Verteilung von Kategorien in unausgeglichenen Datensätzen umzugehen. Bagging ist eine der vorherrschenden Ensemble-Lernmethoden59, die die Vorhersageergebnisse mehrerer verschiedener Klassifikatoren integrieren und dann das Abstimmungsprinzip nutzen kann, um die Klasse der Stichproben in der Entscheidungsphase zu bestimmen, mit dem Ziel, die Varianz zu reduzieren und die Generalisierungsleistung des Modells zu fördern . Tatsächlich wird das Prinzip der Varianzreduktion durch Absacken durch die folgende Gleichung dargestellt:

Dabei stellt X eine unabhängige Stichprobe dar, Var(X) ist die Varianz und E(X) stellt den Mittelwert der Stichprobe σ2 ist, kann die Varianz des Ensemblemodells aus den Gleichungen abgeleitet werden. (16) und (17) als σ2/n. Beim Absacken wird eine Stichprobe mit Put-Back-Stichprobe erhoben, so dass zwischen den Datensätzen doppelte Stichproben vorhanden sind, wodurch die Unabhängigkeitsannahme in Gleichung (1) verletzt wird. (18). In diesem Fall lässt sich die Varianz des Ensemblemodells basierend auf dem Korrelationskoeffizienten rho zwischen den einzelnen Modellen wie folgt ausdrücken:

Dabei nimmt die Varianz des Ensemblemodells weiter ab, wenn die Anzahl der Klassifikatoren zunimmt oder die Korrelation zwischen einzelnen Modellen abnimmt. Motiviert durch die obigen Beobachtungen haben wir vorgeschlagen, den asymmetrischen Bagging-Algorithmus zu verwenden, um dieses Ziel zu erreichen. Für den Datensatz S behalten wir in jeder Iteration alle Proben von Proteinbindungsstellen als Sp bei und trennen eine Teilmenge \({S}_{n}^{{\prime} }\) mit derselben Skala wie Sp ab die Proben Sn von nicht bindenden Stellen. Dieser Schritt wird für die ersatzlose Stichprobe wiederholt, bis der Trainingsprozess alle Stichproben abdeckt und schließlich mehrere Klassifikatoren erhalten werden können. Anschließend summieren wir die von diesen mehreren Klassifikatoren erhaltenen Softmax-Werte für jede Probe, um die endgültige Identifizierungsentscheidung zu treffen. Auf dieser Grundlage kann asymmetrisches Bagging ausreichend für eine ausgewogene Klassenverteilung der Eingabedaten für jedes Modell sorgen und die Korrelation zwischen einzelnen Modellen so gering wie möglich halten. Es ist erwähnenswert, dass die Ensemblemodelle zwar die Rechenkomplexität erhöhen können, die Machbarkeit der Parallelität beim asymmetrischen Bagging jedoch die Laufzeit bei ausreichenden Rechenressourcen effektiv verkürzen kann.

Um die Wirksamkeit unseres vorgeschlagenen EDLMPPI zu demonstrieren, vergleichen wir es mit mehreren traditionellen Methoden des maschinellen Lernens und Deep-Learning-Methoden. Im folgenden Abschnitt stellen wir die Details der Parametereinstellungen dieser Algorithmen vor.

Für EDLMPPI verwenden wir die Tanh-Funktion als Aktivierungsfunktion und übernehmen den Glorot-Initialisierer mit einer gleichmäßigen Verteilung, um die Gewichte für den BiLSTM-Teil zu initialisieren. Dann legen wir für die Anzahl der Neuronen in der verborgenen Schicht einen Satz Kandidatenwerte fest [32, 64, 128, 256]. Für das Kapselnetzwerk sind die wichtigsten Hyperparameter die Anzahl der neuronalen Kapseln und die Dimensionalität jedes neuronalen Vektors, für die wir eine Gruppe von Kandidatenwerten festlegen [32, 64, 128, 256] und [3, 5, 7, 10]. , jeweils. Um die besten Hyperparameter zu erhalten, optimieren wir die drei oben genannten Sätze von Kandidatenwerten mithilfe der Rastersuchmethode unter Tensorflow 2.5.0 und Keras 2.4.3. Die Epochen werden auf 100 eingestellt und der Frühstoppmechanismus wird angewendet, um eine Überanpassung des vorgeschlagenen Algorithmus zu verhindern.

Um einen fairen Vergleich mit den anderen Deep-Learning-Algorithmen durchzuführen, einschließlich TextCNN38, Single-Capsule27, BiLSTM39, BiGRU40 und MultiHead Attention41, verwendeten die Hyperparameter-Optimierungsmethoden dieselben Prinzipien wie EDLMPPI; Wir haben auch die gleichen Regeln der Hyperparameter-Optimierungsmethode wie für EDLMPPI übernommen und ein Rastersuchverfahren verwendet, um sinnvolle Hyperparameter auszuwählen. Für TextCNN waren die Testeinstellungen für verschiedene Kombinationen von Faltungskernen unterschiedlicher Größe {{1, 3, 5, 7}, {7, 9, 11, 13}, {4, 5, 6, 7}, {7, 8, 9, 10}}, wobei die Anzahl der Filter für jede Kombination aus 16, 32, 64 bzw. 128 ausgewählt wird. Die Anzahl der verborgenen Schichtzellen von BiLSTM und BiGRU wird aus {32, 64, 128} ausgewählt. Im Kapselnetzwerk sind die Kandidatenwerte für die Anzahl neuronaler Kapseln und die Dimensionalität jedes neuronalen Vektors {32, 64, 128, 256} bzw. {3, 5, 7, 10}. Schließlich wählt das Multi-Head-Aufmerksamkeitsnetzwerk die Anzahl der Aufmerksamkeitsköpfe aus {4, 8, 16, 32} aus.

Die Methoden des maschinellen Lernens umfassen drei Ensemble-Lernmethoden (XGBoost35, LightGBM36 und CatBoost37), SGDClassifier (Stochastic Gradient Descent) und MLPClassifier (Multi-Layer Perceptron), die sich im Abhängigkeitspaket scikit-learn60 in der Python-Umgebung befinden. XGBoost verwendet eine ebeneweise Entscheidungsbaumkonstruktionsstrategie, LightGBM verwendet eine blattweise Konstruktionsstrategie und CatBoost wendet eine symmetrische Baumstruktur mit vollständigen binären Entscheidungsbäumen an. Der SGDClassifier ist ein stochastisches Gradientenabstiegs-Lernmodell mit einer regulierten linearen Methode. Der Verlustgradient wird jeweils für jede Probe geschätzt und das Modell wird dabei nach einem Zeitplan mit abnehmender Intensität aktualisiert. MLP ist ein vorwärtsstrukturiertes künstliches neuronales Netzwerk, das komplexe Probleme schnell lösen kann. Das Rastersuchverfahren wird auch durchgeführt, um die optimalen Hyperparameter für diese fünf Klassifikatoren zu finden. Die Kandidatenparameter und die optimalen Parameterkombinationen sind in der Ergänzungstabelle 2 zusammengefasst.

Um die Leistung verschiedener Berechnungsmethoden zu bewerten, verwendeten wir Sensitivität (TPR), Spezifität (TNR), Präzision (Pre), Genauigkeit (ACC), F1-Score (F1), den Matthews-Korrelationskoeffizienten (MCC) und die Fläche unter dem Empfängerbetriebskennlinie (AUROC) und durchschnittliche Präzision (AP) als Messkriterien, die wie folgt formuliert werden können:

wobei echte Positive (TP) und falsch Positive (FP) die Anzahl der korrekt vorhergesagten Bindungsstellen bzw. falsch vorhergesagten Bindungsstellen darstellen. Echt-Negative (TN) und Falsch-Negative (FN) stellen die Anzahl der korrekt vorhergesagten nicht-bindenden Stellen bzw. der falsch vorhergesagten nicht-bindenden Stellen dar. TPR beschreibt den Anteil korrekt vorhergesagter Bindungsstellen in allen positiven Proben, TNR gibt den Anteil korrekt vorhergesagter Nicht-Bindungsstellen in allen negativen Proben an und Pre stellt die Wahrscheinlichkeit einer korrekten Vorhersage in allen Proben mit vorhergesagten Bindungsstellen dar.

Da ACC bei unausgeglichenen Daten die Stärken des Modells nicht genau erfassen kann, haben wir ACC als zusätzliche Metrik für die Bewertung übernommen. Darüber hinaus werden zwei weitere Metriken, AUROC und AP, in Bezug auf die vorhergesagte Wahrscheinlichkeit jeder Aminosäure berechnet, um die unausgeglichenen Daten zu messen. AUROC wird nicht durch Stichprobenungleichgewichte beeinflusst und kann die Modellleistung in unausgeglichenen Daten genau messen61. AP ist ein gewichteter Durchschnitt der Genauigkeit jedes Schwellenwerts im Datensatz, wobei die Änderung des Rückrufs das Gewicht ist, das wie folgt definiert werden kann:

wobei Rn und Pn der Rückruf und die Präzision am n-ten Schwellenwert sind.

Die statistischen Analysen der Daten wurden mit dem Python-Softwarepaket durchgeführt. Wir haben den asymmetrischen Bagging-Algorithmus verwendet, um uns auf das Ungleichgewicht der Daten zu konzentrieren und dessen Auswirkungen auf die experimentellen Ergebnisse zu reduzieren. Die Reproduzierbarkeit der Experimente wurde sichergestellt, indem für jede Bedingung mindestens drei unabhängige Wiederholungen durchgeführt wurden. Replikate wurden von verschiedenen Forschern durchgeführt und die Daten wurden kombiniert und mithilfe geeigneter statistischer Tests analysiert. Insgesamt waren unsere Experimente auf eine hohe Reproduzierbarkeit ausgelegt. Alle Materialien und Verfahren wurden im Abschnitt „Methoden“ klar beschrieben und die Daten wurden sorgfältig gesammelt und unter Verwendung standardmäßiger statistischer Methoden analysiert. Wir glauben, dass diese Maßnahmen die Zuverlässigkeit und Reproduzierbarkeit unserer Ergebnisse erhöht haben.

Weitere Informationen zum Forschungsdesign finden Sie in der mit diesem Artikel verlinkten Nature Portfolio Reporting Summary.

Wir haben vier weit verbreitete Benchmark-Datensätze gesammelt: Dset_186, Dset_72, Dset_164 und Dset_1291. Dset_186, Dset_72 und Dset_164 wurden aus der PDB-Datenbank erstellt und enthalten 422 Proteinsequenzen mit einer Auflösung von <3,0 Å und einer Sequenzhomologie <25 %. Dset_1291 ist ein Datensatz aus der BioLip-Datenbank, in dem eine Bindungsstelle definiert ist, wenn der Abstand zwischen einem Atom eines Rests und einem Atom eines bestimmten Proteinpartners 0,5 Å plus der Summe der Van-der-Waals-Radien der beiden Atome beträgt. Alle Datensätze stehen zum Download unter http://www.edlmppi.top:5002/ oder https://github.com/houzl3416/EDLMPPI.git zur Verfügung. Außerdem können die numerischen Quelldaten für Grafiken und Diagramme unter https://doi.org/10.6084/m9.figshare.21778913.v1 heruntergeladen werden.

Der gesamte Code ist unter https://github.com/houzl3416/EDLMPPI.git verfügbar.

Titeca, K., Lemmens, I., Tavernier, J. & Eyckerman, S. Entdeckung zellulärer Protein-Protein-Wechselwirkungen: technologische Strategien und Möglichkeiten. Massenspektrometer. Rev. 38, 79–111 (2019).

Artikel CAS Google Scholar

Yang, J., Roy, A. & Zhang, Y. BioLiP: eine halbmanuell kuratierte Datenbank für biologisch relevante Ligand-Protein-Wechselwirkungen. Nukleinsäuren Res. 41, D1096–D1103 (2012).

Artikel Google Scholar

Berman, HM et al. Die Proteindatenbank. Nukleinsäuren Res. 28, 235–242 (2000).

Artikel CAS Google Scholar

Zhang, J. & Kurgan, L. Übersicht und vergleichende Bewertung sequenzbasierter Prädiktoren für Proteinbindungsreste. Knapp. Bioinforma. 19, 821–837 (2018).

Artikel Google Scholar

Drewes, G. & Bouwmeester, T. Globale Ansätze für Protein-Protein-Wechselwirkungen. Curr. Meinung. Zellbiol. 15, 199–205 (2003).

Artikel CAS Google Scholar

Zeng, M. et al. Vorhersage der Protein-Protein-Interaktionsstelle durch Kombination lokaler und globaler Merkmale mit tiefen neuronalen Netzen. Bioinformatik 36, 1114–1120 (2020).

CAS Google Scholar

Xie, Z., Deng, X. & Shu, K. Vorhersage von Protein-Protein-Interaktionsstellen mithilfe eines Faltungs-Neuronalen Netzwerks und verbesserter Datensätze. Int. J. Mol. Wissenschaft. 21, 467 (2020).

Artikel CAS Google Scholar

Yang, L., Han, Y., Zhang, H., Li, W. & Dai, Y. Vorhersage von Protein-Protein-Wechselwirkungen mit lokalem Gewichtsverteilungsmechanismus beim Deep Learning. BioMed Res. Int. 2020, 1–11 (2020).

CAS Google Scholar

Sun, J. & Frishman, D. Verbesserte sequenzbasierte Vorhersage von Interaktionsstellen in α-helikalen Transmembranproteinen durch Deep Learning. Berechnen. Struktur. Biotechnologie. J. 19, 1512–1530 (2021).

Artikel CAS Google Scholar

Zhang, B., Li, J., Quan, L., Chen, Y. & Lü, Q. Sequenzbasierte Vorhersage von Protein-Protein-Interaktionsstellen durch ein vereinfachtes Netzwerk des Langzeit-Kurzzeitgedächtnisses. Neurocomputing 357, 86–100 (2019).

Artikel Google Scholar

Li, Y., Golding, GB & Ilie, L. Delphi: Genaues Deep-Ensemble-Modell zur Vorhersage von Proteininteraktionsstellen. Bioinformatik 37, 896–904 (2021).

Artikel CAS Google Scholar

Zeng, M. et al. Vorhersage der Protein-Protein-Interaktionsstelle durch Kombination lokaler und globaler Merkmale mit tiefen neuronalen Netzen. Bioinformatik 36, 1114–1120 (2020).

CAS Google Scholar

Zhang, J. & Kurgan, L. Scriber: Genaue und partnertypspezifische Vorhersage proteinbindender Reste aus Proteinsequenzen. Bioinformatik 35, i343–i353 (2019).

Artikel CAS Google Scholar

Mikolov, T., Chen, K., Corrado, G. & Dean, J. Effiziente Schätzung von Wortdarstellungen im Vektorraum. Vorabdruck unter https://arxiv.org/abs/1301.3781 (2013).

Le, Q. & Mikolov, T. Verteilte Darstellungen von Sätzen und Dokumenten. in International Conference on Machine Learning 1188–1196 (PMLR, 2014).

Joulin, A., Grave, E., Bojanowski, P. & Mikolov, T. Trickkiste für effiziente Textklassifizierung. Vorabdruck unter https://archives.org/abs/1607.01759 (2016).

Pennington, J., Socher, R. & Manning, CD Glove: Globale Vektoren für die Wortdarstellung. in Proceedings of the 2014 Conference on Empirical Methods in Natural Language Processing (EMNLP) 1532–1543 (2014).

Asgari, E. & Mofrad, MR Kontinuierliche verteilte Darstellung biologischer Sequenzen für tiefe Proteomik und Genomik. PLoS ONE 10, e0141287 (2015).

Artikel Google Scholar

Yang, Y., Hou, Z., Ma, Z., Li, X. & Wong, K.-C. iCircRBP-DHN: Identifizierung von circRNA-RBP-Interaktionsstellen mithilfe eines tiefen hierarchischen Netzwerks. Knapp. Bioinforma. 22, bbaa274 (2021).

Artikel Google Scholar

Min, Bioinformatik 33, i92–i101 (2017).

Artikel CAS Google Scholar

Hamid, M.-N. & Friedberg, I. Identifizierung antimikrobieller Peptide mithilfe der Worteinbettung mit tiefen rekurrenten neuronalen Netzen. Bioinformatik 35, 2009–2016 (2019).

Artikel CAS Google Scholar

Mikolov, T., Sutskever, I., Kai, C., Corrado, G. & Dean, J. Verteilte Darstellungen von Wörtern und Phrasen und ihre Kompositionalität. in Fortschritte in neuronalen Informationsverarbeitungssystemen (2013).

Devlin, J., Chang, M.-W., Lee, K. & Toutanova, K. Bert: Vortraining tiefer bidirektionaler Transformatoren für das Sprachverständnis. Vorabdruck unter https://arxiv.org/abs/1810.04805 (2018).

Elnaggar, A. et al. Prottrans: Auf dem Weg zum Knacken des Codes der Sprache des Lebens durch selbstüberwachtes Deep Learning und Hochleistungsrechnen. in IEEE-Transaktionen zu Musteranalyse und maschineller Intelligenz (2021).

Heinzinger, M. et al. Modellierung von Aspekten der Sprache des Lebens durch Transfer-Learning-Proteinsequenzen. BMC Bioinforma. 20, 1–17 (2019).

Artikel Google Scholar

Schuster, M. & Paliwal, KK Bidirektionale rekurrente neuronale Netze. IEEE Trans. Signalprozess. 45, 2673–2681 (1997).

Artikel Google Scholar

Sabour, S., Frost, N. & Hinton, GE Dynamisches Routing zwischen Kapseln. in Advances in Neural Information Processing Systems 30 (2017).

Rives, A. et al. Biologische Strukturen und Funktionen entstehen durch die Skalierung des unbeaufsichtigten Lernens auf 250 Millionen Proteinsequenzen. Proz. Natl Acad. Wissenschaft. USA 118, e2016239118 (2021).

Artikel CAS Google Scholar

Nijkamp, E., Ruffolo, J., Weinstein, EN, Naik, N. & Madani, A. Progen2: Erforschung der Grenzen von Proteinsprachmodellen. Vorabdruck unter https://arxiv.org/abs/2206.13517 (2022).

Wang, B. et al. Ungleichgewichtsdatenverarbeitungsstrategie für die Vorhersage von Proteininteraktionsstellen. IEEE/ACM-Trans. Berechnen. Biol. Bioinforma. 18, 985–994 (2019).

Artikel Google Scholar

Yu, C.-Y., Chou, L.-C. & Chang, DT-H. Vorhersage von Protein-Protein-Wechselwirkungen in unausgeglichenen Daten mithilfe der Primärstruktur von Proteinen. BMC Bioinforma. 11, 1–10 (2010).

Artikel CAS Google Scholar

Hu, L., Wang, X., Huang, Y.-A., Hu, P. & You, Z.-H. Eine Umfrage zu Computermodellen zur Vorhersage von Protein-Protein-Wechselwirkungen. Knapp. Bioinforma. 22, bbab036 (2021).

Artikel Google Scholar

Zhang, Z.-L., Luo, X.-G., García, S. & Herrera, F. Kostensensitive neuronale Backpropagation-Netze mit Binarisierungstechniken zur Bewältigung von Mehrklassenproblemen und nicht kompetenten Klassifikatoren. Appl. Soft Comput. 56, 357–367 (2017).

Artikel Google Scholar

Lemaître, G., Nogueira, F. & Aridas, CK Imbalanced-learn: eine Python-Toolbox, um den Fluch unausgeglichener Datensätze beim maschinellen Lernen zu bekämpfen. J. Mach. Lernen. Res. 18, 1–5 (2017).

Google Scholar

Chen, T. & Guestrin, C. Xgboost: Ein skalierbares Baum-Boosting-System. in Proceedings of the 22nd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining 785–794 (2016).

Ke, G. et al. Lightgbm: ein hocheffizienter Entscheidungsbaum zur Gradientenverstärkung. Adv. Neuronale Inf. Verfahren. Syst. 30, 3146–3154 (2017).

Google Scholar

Dorogush, AV, Ershov, V. & Gulin, A. Catboost: Gradientenverstärkung mit Unterstützung kategorialer Merkmale. Vorabdruck unter https://arxiv.org/abs/1810.11363 (2018).

Zhang, Y. & Wallace, B. Eine Sensitivitätsanalyse (und ein Leitfaden für Praktiker) von Faltungs-Neuronalen Netzen zur Satzklassifizierung. Vorabdruck unter https://arxiv.org/abs/1510.03820 (2015).

Hochreiter, S. & Schmidhuber, J. Langes Kurzzeitgedächtnis. Neuronale Berechnung. 9, 1735–1780 (1997).

Artikel CAS Google Scholar

Dey, R. & Salem, FM Gate-Varianten von GRU-Neuronalen Netzen (Gated Recurrent Unit). im Jahr 2017 IEEE 60. International Midwest Symposium on Circuits and Systems (MWSCAS) 1597–1600 (IEEE, 2017).

Vaswani, A. et al. Aufmerksamkeit ist alles, was Sie brauchen. in Advances in Neural Information Processing Systems 5998–6008 (2017).

Porollo, A. & Meller, J. Vorhersagebasierte Fingerabdrücke von Protein-Protein-Wechselwirkungen. Proteine: Struktur, Funktion, Bioinforma. 66, 630–645 (2007).

Artikel CAS Google Scholar

Taherzadeh, G., Yang, Y., Zhang, T., Liew, AW-C. & Zhou, Y. Sequenzbasierte Vorhersage von Protein-Peptid-Bindungsstellen mithilfe einer Support-Vektor-Maschine. J. Computat. Chem. 37, 1223–1229 (2016).

Artikel CAS Google Scholar

Murakami, Y. & Mizuguchi, K. Anwendung des naiven Bayes-Klassifikators mit Kerndichteschätzung zur Vorhersage von Protein-Protein-Interaktionsstellen. Bioinformatik 26, 1841–1848 (2010).

Artikel CAS Google Scholar

Singh, G., Dhole, K., Pai, PP & Mondal, S. Springs: Vorhersage von Protein-Protein-Interaktionsstellen mithilfe künstlicher neuronaler Netze. Technik. Rep., PeerJ PrePrints (2014).

Dhole, K., Singh, G., Pai, PP & Mondal, S. Sequenzbasierte Vorhersage von Protein-Protein-Interaktionsstellen mit L1-Logreg-Klassifikator. J. Theor. Biol. 348, 47–54 (2014).

Artikel CAS Google Scholar

Wei, Z.-S., Yang, J.-Y., Shen, H.-B. & Yu, D.-J. Ein Kaskaden-Random-Forests-Algorithmus zur Vorhersage von Protein-Protein-Interaktionsstellen. IEEE Trans. Nanobiosci. 14, 746–760 (2015).

Artikel Google Scholar

Wei, Z.-S., Han, K., Yang, J.-Y., Shen, H.-B. & Yu, D.-J. Vorhersage von Protein-Protein-Interaktionsstellen durch Kombination von SVM und stichprobengewichteten Zufallswäldern. Neurocomputing 193, 201–212 (2016).

Artikel Google Scholar

Wang, Y., Zhang, H., Zhong, H. & Xue, Z. Methoden und Online-Ressourcen zur Identifizierung von Proteindomänen. Berechnen. Struktur. Biotechnologie. J. 19, 1145 (2021).

Artikel Google Scholar

Mistry, J. et al. Pfam: Die Proteinfamilien-Datenbank im Jahr 2021. Nucleic Acids Res. 49, D412–D419 (2021).

Artikel CAS Google Scholar

Sandhya, S. et al. Längenvariationen zwischen Proteindomänen-Superfamilien und Konsequenzen für Struktur und Funktion. PLoS ONE 4, e4981 (2009).

Artikel Google Scholar

Vig, J. Eine mehrskalige Visualisierung der Aufmerksamkeit im Transformatormodell. Vorabdruck unter https://arxiv.org/abs/1906.05714 (2019).

Murakami, Y. & Mizuguchi, K. Anwendung des naiven Bayes-Klassifikators mit Kerndichteschätzung zur Vorhersage von Protein-Protein-Interaktionsstellen. Bioinformatik 26, 1841–1848 (2010).

Artikel CAS Google Scholar

Dhole, K., Singh, G., Pai, PP & Mondal, S. Sequenzbasierte Vorhersage von Protein-Protein-Interaktionsstellen mit L1-Logreg-Klassifikator. J. Theor. Biol. 348, 47–54 (2014).

Artikel CAS Google Scholar

Altschul, SF et al. Gapped BLAST und PSI-BLAST: eine neue Generation von Suchprogrammen für Proteindatenbanken. Nukleinsäuren Res. 25, 3389–3402 (1997).

Artikel CAS Google Scholar

Zhang, B., Li, J., Quan, L., Chen, Y. & Qiang, L. Sequenzbasierte Vorhersage von Protein-Protein-Interaktionsstellen durch ein vereinfachtes Langzeit-Kurzzeitgedächtnisnetzwerk. Neurocomputing 357, 86–100 (2019).

Artikel Google Scholar

Tao, D., Tang, X., Li, IEEE Trans. Muster Anal. Mach. Intel. 28, 1088–1099 (2006).

Artikel Google Scholar

Breiman, L. Bagging-Prädiktoren. Mach. Lernen. 24, 123–140 (1996).

Artikel Google Scholar

Pedregosa, F. et al. Scikit-learn: Maschinelles Lernen in Python. J. Mach. Lernen. Res. 12, 2825–2830 (2011).

Google Scholar

Spackman, KA Signalerkennungstheorie: Wertvolle Werkzeuge zur Bewertung des induktiven Lernens (Morgan Kaufmann Publishers Inc., 1989).

Referenzen herunterladen

Die in diesem Artikel beschriebene Arbeit wurde im Wesentlichen von der National Natural Science Foundation of China unter den Zuschussnummern 62076109 und 61972174 unterstützt und von der Natural Science Foundation der Provinz Jilin unter der Zuschussnummer 20190103006JH finanziert. Die in diesem Artikel beschriebene Arbeit wurde im Wesentlichen durch einen Zuschuss des Research Grants Council der Sonderverwaltungsregion Hongkong [CityU 11200218], einen Zuschuss des Health and Medical Research Fund, des Food and Health Bureau und der Regierung von Hongkong unterstützt Sonderverwaltungsregion Kong [07181426] und die Finanzierung durch das Hong Kong Institute for Data Science (HKIDS) an der City University of Hong Kong. Die in diesem Artikel beschriebene Arbeit wurde teilweise durch zwei Zuschüsse der City University of Hong Kong (CityU 11202219, CityU 11203520) unterstützt. Diese Forschung wurde im Wesentlichen durch das Forschungsprojekt (Grant Nr. 32000464) gefördert, das von der National Natural Science Foundation of China unterstützt wurde, und wurde maßgeblich vom Shenzhen Research Institute der City University of Hong Kong unterstützt.

Diese Autoren haben gleichermaßen beigetragen: Zilong Hou, Yuning Yang.

Schule für Künstliche Intelligenz, Universität Jilin, Jilin, China

Zilong Hou & Xiangtao Li

Informationswissenschaft und Technologie, Northeast Normal University, Jilin, China

Yuning Yang & Zhiqiang Ma

Fakultät für Informatik, City University of Hong Kong, Sonderverwaltungszone Hongkong, China

Ka-chun Wong

Sie können diesen Autor auch in PubMed Google Scholar suchen

ZLH, YNY, YSW und XTL haben die Forschung entworfen. ZLH und YNY entwickelten Computercodes. KCW und ZQM führten die Simulationen durch. ZLH, YNY, YSW und XTL analysierten die Daten. ZLH, YNY und XTL haben den Artikel geschrieben.

Korrespondenz mit Xiangtao Li.

Die Autoren geben an, dass keine Interessenkonflikte bestehen.

Communications Biology dankt den anonymen Gutachtern für ihren Beitrag zum Peer-Review dieser Arbeit. Hauptredakteure: Yuedong Yang und Gene Chong.

Anmerkung des Herausgebers Springer Nature bleibt hinsichtlich der Zuständigkeitsansprüche in veröffentlichten Karten und institutionellen Zugehörigkeiten neutral.

Open Access Dieser Artikel ist unter einer Creative Commons Attribution 4.0 International License lizenziert, die die Nutzung, Weitergabe, Anpassung, Verbreitung und Reproduktion in jedem Medium oder Format erlaubt, sofern Sie den/die ursprünglichen Autor(en) und die Quelle angemessen angeben. Geben Sie einen Link zur Creative Commons-Lizenz an und geben Sie an, ob Änderungen vorgenommen wurden. Die Bilder oder anderes Material Dritter in diesem Artikel sind in der Creative Commons-Lizenz des Artikels enthalten, sofern in der Quellenangabe für das Material nichts anderes angegeben ist. Wenn Material nicht in der Creative-Commons-Lizenz des Artikels enthalten ist und Ihre beabsichtigte Nutzung nicht durch gesetzliche Vorschriften zulässig ist oder über die zulässige Nutzung hinausgeht, müssen Sie die Genehmigung direkt vom Urheberrechtsinhaber einholen. Um eine Kopie dieser Lizenz anzuzeigen, besuchen Sie http://creativecommons.org/licenses/by/4.0/.

Nachdrucke und Genehmigungen

Hou, Z., Yang, Y., Ma, Z. et al. Erlernen der Proteinsprache proteomweiter Protein-Protein-Bindungsstellen durch erklärbares Ensemble-Deep-Learning. Commun Biol 6, 73 (2023). https://doi.org/10.1038/s42003-023-04462-5

Zitat herunterladen

Eingegangen: 20. Juni 2022

Angenommen: 11. Januar 2023

Veröffentlicht: 19. Januar 2023

DOI: https://doi.org/10.1038/s42003-023-04462-5

Jeder, mit dem Sie den folgenden Link teilen, kann diesen Inhalt lesen:

Leider ist für diesen Artikel derzeit kein Link zum Teilen verfügbar.

Bereitgestellt von der Content-Sharing-Initiative Springer Nature SharedIt

Durch das Absenden eines Kommentars erklären Sie sich damit einverstanden, unsere Nutzungsbedingungen und Community-Richtlinien einzuhalten. Wenn Sie etwas als missbräuchlich empfinden oder etwas nicht unseren Bedingungen oder Richtlinien entspricht, kennzeichnen Sie es bitte als unangemessen.