banner
Nachrichtenzentrum
Artikuliert und kompetent in ihrem Fachwissen.

SVSBI: Sequenz

Dec 08, 2023

Communications Biology Band 6, Artikelnummer: 536 (2023) Diesen Artikel zitieren

549 Zugriffe

6 Altmetrisch

Details zu den Metriken

Virtuelles Screening (VS) ist eine entscheidende Technik zum Verständnis biomolekularer Wechselwirkungen, insbesondere bei der Entwicklung und Entdeckung von Arzneimitteln. Die Genauigkeit aktueller VS-Modelle hängt jedoch stark von dreidimensionalen (3D) Strukturen ab, die durch molekulares Andocken gewonnen werden, was aufgrund der geringen Genauigkeit oft unzuverlässig ist. Um dieses Problem anzugehen, führen wir ein sequenzbasiertes virtuelles Screening (SVS) als eine weitere Generation von VS-Modellen ein, die fortschrittliche NLP-Algorithmen (Natural Language Processing) und optimierte Deep-K-Einbettungsstrategien nutzen, um biomolekulare Interaktionen zu kodieren, ohne auf 3D-Strukturbasis angewiesen zu sein Docking. Wir zeigen, dass SVS bei vier Regressionsdatensätzen, die Protein-Ligand-Bindung, Protein-Protein, Protein-Nukleinsäure-Bindung und Ligandenhemmung von Protein-Protein-Wechselwirkungen umfassen, sowie bei fünf Klassifizierungsdatensätzen für Protein-Protein-Wechselwirkungen die Leistung auf dem neuesten Stand der Technik übertrifft in fünf biologischen Arten. SVS hat das Potenzial, aktuelle Praktiken in der Arzneimittelforschung und Proteintechnik zu verändern.

Biomoleküle sind die Bausteine ​​des Lebens und können aufgrund ihrer Größe, Struktur, physikalisch-chemischen Eigenschaften und/oder biologischen Funktionen in verschiedene Kategorien eingeteilt werden, darunter Kohlenhydrate, Lipide, Nukleinsäuren und Proteine. Darüber hinaus geht die Realisierung biomolekularer Funktionen häufig mit direkten physikalischen/chemischen Wechselwirkungen mit anderen biologischen Molekülen, kleinen Liganden, Ionen und/oder Cofaktoren ein1. Diese Wechselwirkungen hängen aufgrund ihrer Flexibilität und Allosterie in hohem Maße von den dreidimensionalen (3D) Strukturen und der Dynamik von Molekülen sowie von biomolekularen Konformationsänderungen ab. Das Verständnis biomolekularer Wechselwirkungen ist der heilige Gral der biologischen Wissenschaft.

Das letzte Jahrzehnt war Zeuge eines rasanten Fortschritts in der Computerbiologie, der durch die Errungenschaft der künstlichen Intelligenz (KI) und die zunehmende Computerleistung vorangetrieben wurde. Mit fortschrittlichen Techniken zur Datenerfassung, -verarbeitung, -analyse und -darstellung kann die moderne Computerbiologie biologische Prozesse in außergewöhnlichen Maßstäben und mehreren Dimensionen untersuchen. Es hat bei verschiedenen biologischen Aufgaben große Erfolge erzielt2,3,4. Die Fähigkeit, biomolekulare Wechselwirkungen mithilfe fortschrittlicher KI-Ansätze zu verstehen, ist für eine Vielzahl von Forschungsbereichen von weitreichender Bedeutung, darunter Arzneimittelentwicklung3, Virusprävention5, gerichtete Evolution4 usw. Die genaue und zuverlässige Vorhersage biomolekularer Wechselwirkungen ist jedoch immer noch eine Herausforderung Herausforderung.

Aufgrund der inhärent hohen Korrelation zwischen Strukturinformationen und molekularen Funktionen erreichten die strukturbasierten Ansätze eine hohe Genauigkeit und Zuverlässigkeit bei der Modellierung und dem Lernen biomolekularer Wechselwirkungen6,7,8,9,10,11. Daher stützen sich aktuelle Analysen und Vorhersagen biomolekularer Wechselwirkungen stark auf die hochwertigen 3D-Strukturen interaktiver biomolekularer Komplexe. Leider ist die experimentelle Bestimmung von 3D-Strukturen sowohl zeitaufwändig als auch teuer, was dazu führt, dass experimentelle Strukturen, insbesondere die Strukturen interaktiver biomolekularer Komplexe, knapp sind. Um diese Schwierigkeit zu überwinden, wurde molekulares Docking auf der Grundlage von Such- und Bewertungsalgorithmen entwickelt, um 3D-Strukturen der interaktiven Komplexe, wie etwa Antikörper-Antigen-Komplexe und Protein-Ligand-Komplexe, zu erzeugen. Molekulares Docking ist weithin in das virtuelle Screening (VS) biomolekularer Wechselwirkungen integriert und bietet eine alternative Möglichkeit zum Aufbau der 3D-Strukturen interaktiver biomolekularer Komplexe. Es ist ein entscheidender Schritt bei der computergestützten Arzneimittelforschung (Computer Aided Drug Discovery, CADD). Allerdings ist das derzeitige molekulare Andocken fehleranfällig, was zu ungenauen 3D-Strukturen führt und zu einem unzuverlässigen virtuellen Screening führt12. Trotz des Durchbruchs bei der Vorhersage der (nicht interaktiven einzelnen) Proteinfaltung durch Alphafold22 bleibt die Strukturvorhersage interaktiver biomolekularer Komplexe eine große Herausforderung. Es besteht ein dringender Bedarf, innovative Strategien für das virtuelle Screening biomolekularer Wechselwirkungen zu entwickeln.

Alternativ können sequenzbasierte Ansätze effiziente, robuste und leicht zugängliche tiefe Einbettungen biomolekularer Wechselwirkungen ermöglichen, ohne das Andocken von 3D-Strukturen hervorzurufen. Sequenzbasierte Ansätze sind weitaus umfassender anwendbar als strukturbasierte, da die Genbank über 240.000.000 Sequenzen verfügt, im Vergleich zu nur 200.000 3D-Proteinstrukturen in der Proteindatenbank (PDB), was sequenzbasierten Ansätzen eine weitaus größere Anwendbarkeit verleiht. Es gibt drei Haupttypen sequenzbasierter Ansätze: (1) zusammensetzungsbasierte Methoden wie Aminosäurezusammensetzung (AAC)13, Nukleinsäurezusammensetzung (NAC)14 und Pseudo-AAC (PseAAC)15; (2) autokorrelationsbasierte Methoden wie Autokovarianz16; und (3) evolutionsbasierte Methoden wie die Positionsspezifische Frequenzmatrix (PSFM) und die Positionsspezifische Bewertungsmatrizen (PSSM)15. Unterdessen war der Einsatz von NLP-Modellen zur Analyse der verborgenen Informationen in molekularen Sequenzen, einschließlich Proteinmodellen, in den letzten Jahrzehnten erfolgreich17,18,19.

Kompositionsbasierte Methoden konstruieren Einbettungen basierend auf der Verteilung einzelner Reste oder Teilzeichenfolgen. Autokorrelationsbasierte Methoden basieren auf der statistischen Messung der physikalisch-chemischen Eigenschaften jedes Rests, wie Hydrophobie, Hydrophilie, Seitenkettenmasse, Polarität, lösungsmittelzugängliche Oberfläche usw. Evolutionsbasierte Methoden extrahieren die Evolutionsinformationen aus großen Datenbanken durch Auswertung das Vorkommen jedes Rests oder die Anzahl der Mutationen dieses Rests zu einem anderen Typ. Diese Methoden übertreffen in der Regel zusammensetzungs- und autokorrelationsbasierte Methoden, da sie eine große Anzahl molekularer Sequenzen effizient nutzen, die durch Milliarden von Jahren natürlicher Evolution ausgewählt wurden. Methoden, die auf der Verarbeitung natürlicher Sprache (Natural Language Processing, NLP) basieren, werden häufig zum Einbetten von Molekülen eingesetzt. Unter ihnen sind Autoencoder (AE), Long Short-Term Memory (LSTM) und Transformer am beliebtesten. Ein LSTM-Modell, UniRep, ermöglicht sequenzbasiertes rationales Protein-Engineering20. Ein hauseigener Autoencoder wurde mit 104 Millionen Sequenzen trainiert21. Evolutionary Scale Modeling (ESM) ist ein groß angelegter Transformer, der auf 250 Millionen Proteinsequenzen trainiert wurde und bei vielen Aufgaben, einschließlich Strukturvorhersagen, Spitzenleistungen erbrachte22. Für DNA im Genom hat das vorab trainierte bidirektionale Encoder-Repräsentationsmodell DNABERT Erfolge bei nicht-kodierenden DNA-Aufgaben erzielt, wie etwa der Vorhersage von Promotoren, Spleißen und Transkriptionsfaktor-Bindungsstellen23. Darüber hinaus wurde ein hauseigener kleiner molekularer Transformer mit über 700 Millionen Sequenzdaten trainiert24. Keine dieser Methoden wurde jedoch für biomolekulare Wechselwirkungen entwickelt.

In dieser Arbeit haben wir ein sequenzbasiertes visuelles Screening (SVS) biomolekularer Wechselwirkungen vorgeschlagen, das eine Vielzahl biologischer Wechselwirkungen mit Genauigkeit auf Strukturebene vorhersagen kann, ohne 3D-Strukturen aufzurufen. Das Modul zur Verarbeitung biologischer Sprache in SVS besteht aus mehreren NLP-Modellen und extrahiert gleichzeitig Evolutions- und Kontextinformationen aus verschiedenen Biomolekülen, um Sequenzdarstellungen für interaktive Moleküle wie Proteine, Nukleinsäuren und/oder kleine Moleküle zu rekonstruieren. SVS weist eine starke Generalisierbarkeit auf verschiedene Arten von Aufgaben für biomolekulare Eigenschaften und Wechselwirkungen auf. Insbesondere bietet SVS die optimale K-Einbettungsstrategie zur Untersuchung der Wechselwirkungen zwischen mehreren (Bio-)Molekülen mit vernachlässigbarem Rechenaufwand. Die intramolekularen Muster und intermolekularen Mechanismen können von unserem SVS effizient erfasst werden, ohne das teure und zeitaufwändige 3D-strukturbasierte Docking durchzuführen. Wir haben die Spitzenleistung von SVS bei neun Vorhersageaufgaben gezeigt, darunter vier Bindungsaffinitätsbewertungsfunktionen (d. h. Protein-Ligand, Protein-Protein, Protein-Nukleinsäure und Ligandenhemmung von Protein-Protein-Wechselwirkungen) und fünf Klassifizierungsdatensätze für Protein-Protein-Wechselwirkungen (PPIs). Umfangreiche Validierungen zeigen, dass SVS eine allgemeine, genaue, robuste und effiziente Methode für das virtuelle Screening biomolekularer Wechselwirkungen ist.

Unser SVS ist ein sequenzbasiertes Framework, das Deep-Learning-Vorhersagen biomolekularer Wechselwirkungen bietet (Abb. 1). Zunächst identifiziert das Modul „Biomolekulare Interaktion“ Arten interaktiver biomolekularer Partner und behandelt das Problem im entsprechenden Ablauf. Anschließend werden die zugehörigen Sequenzen gesammelt und im biomolekularen Sequenzmodul kuratiert. Darüber hinaus generiert das biomolekulare Sprachverarbeitungsmodul die NLP-Einbettungen einzelner interaktiver Moleküle aus ihren Sequenzdaten. Darüber hinaus entwickelt das K-Einbettungsmodul interaktive K-Einbettungen aus einzelnen NLP-Einbettungen weiter, um deren interaktive Informationen abzuleiten. Schließlich bietet das nachgeschaltete Algorithmusmodul für maschinelles Lernen modernste Regressions- und Klassifizierungsvorhersagen verschiedener biomolekularer Interaktionen.

Ein SVS ist für eine Vielzahl biomolekularer Interaktionen konzipiert, an denen Proteine, DNA, RNA, Liganden und deren beliebige Kombinationen beteiligt sind. b Molekülsequenzen werden aus Proteinen, Nukleinsäuren und kleinen molekularen Liganden extrahiert, die an biomolekularen Interaktionskomplexen beteiligt sind. c Das Modul zur biomolekularen Sprachverarbeitung präsentiert die NLP-Einbettungen biomolekularer Komplexe aus Sequenzinformationen. d Das K-Einbettungsmodul generiert die optimale Darstellung biomolekularer Wechselwirkungen aus den Einbettungen niedrigerer Ordnung. Jedes Quadrat im Panel repräsentiert eine Art von 3-Einbettungsstrategien. Unterschiedliche Muster repräsentieren unterschiedliche 1-Einbettungen (dh eine NLP-Einbettung) oder eine Einbettung niedrigerer Ordnung; Verschiedene Farben stellen unterschiedliche Integrationsfunktionen dar, die angeben, wie die K-Einbettung aufgebaut ist. e Überwachte Algorithmen für maschinelles Lernen lernen aus dem optimalen K-Einbettungsmodell biomolekularer Wechselwirkungen. Grundsätzlich gibt es keine Einschränkungen bei der Auswahl der Algorithmen. Konkret verwenden wir in dieser Arbeit GBDT und ANN. f Algorithmen des maschinellen Lernens werden auf verschiedene Klassifizierungs- und Regressionsaufgaben angewendet, darunter Membranproteinklassifizierungen, Identifizierung therapeutischer Peptide, Identifizierung von Protein-Protein-Wechselwirkungen, Vorhersage der Bindungsaffinität von Protein-Protein-, Protein-Ligand-, Protein-Nukleinsäure-Wechselwirkungen und Hemmung von Proteinen –Protein-Interaktion.

Im Modul zur Verarbeitung biologischer Sprache werden NLP-Einbettungen für Proteine, Nukleinsäuren und kleine Moleküle anhand ihrer Sequenzdaten generiert (Abb. 1b). Wir verwenden verschiedene Arten von NLP-Modellen, darunter das Protein-LSTM-Modell (UniRep)20, den Protein-Transformer (ESM)22, den DNA-Transformer (DNABERT)23, den Small Molecular Transformer24 und den Small Molecular Autoencoder21. Wir konzentrieren uns insbesondere auf Transformer-Modelle aufgrund ihrer hochmodernen Leistung mit der Berücksichtigung von Sequenzabhängigkeiten über einen Aufmerksamkeitsmechanismus25,26,27. Anreichernde Informationen wie Evolutionsinformationen, 3D-Struktur und biochemische Eigenschaften22,24 können von Transformers abgeleitet werden.

Das K-Einbettungsmodul (K-Einbettungsstrategien) verwendet mehrere Einbettungen von interaktiven molekularen Komponenten als Eingaben und integriert sie in ein optimales tiefes K-Einbettungsmodell, um biomolekulare Eigenschaften und intermolekulare Wechselwirkungen zu entschlüsseln (Abb. 1d). Die traditionellen 3D-strukturbasierten virtuellen Screening-Modelle erfordern ein molekulares Docking-Verfahren, um die 3D-Molekülstrukturen der interaktiven Komplexe zu erzeugen, was ineffizient und unzuverlässig ist28. Die Genauigkeit und Wirksamkeit einer strukturbasierten Docking-Methode werden gemeinsam durch mehrere Teilprozesse bestimmt, darunter die Bestimmung der molekularen Struktur1, die Suche nach starren und flexiblen Andockräumen1 und die Konstruktion von Bewertungsfunktionen29. Aktuelle Studien haben in jedem dieser Teilprozesse Erfolge erzielt. Allerdings können sich kleinere Fehler in diesen Teilprozessen anhäufen und zu einem unzuverlässigen strukturbasierten Andocken führen. Alternativ können die K-Einbettungsstrategien in unserem SVS-Framework die Verteilungsinformationen interaktiver molekularer Einbettungen in die optimale K-Einbettung umwandeln und wesentliche Merkmale biomolekularer Wechselwirkungen extrahieren, was die Modellierbarkeit von Algorithmen für maschinelles Lernen beim Lernen verborgener nichtlinearer molekularer interaktiver Informationen verbessert .

Das Modul für maschinelles Lernen übernimmt die K-Einbettungsstrategien aus dem K-Einbettungsmodul für Vorhersagen molekularer Eigenschaften. Zu den nachgeschalteten Algorithmen für maschinelles Lernen gehören ein künstliches neuronales Netzwerk (ANN) und ein Gradient-Boost-Entscheidungsbaum (GBDT) für Vorhersageaufgaben. Die Hyperparameter beider Modelle werden systematisch über Bayes'sche Optimierung oder Rastersuche optimiert, um unterschiedliche Größen von Datensätzen und tiefe K-Einbettungen sowie unterschiedliche Aufgaben (Algorithmen für maschinelles Lernen und Bayes'sche Optimierung für die Optimierung von ANN-Hyperparametern) zu berücksichtigen. Für jede Aufgabe wird die optimale K-Einbettungsstrategie mit den oben genannten Optimierungshyperparametern ausgewählt, die den besten Vorhersagewert hinsichtlich der Genauigkeit für die Klassifizierung oder des Pearson-Korrelationskoeffizienten für die Regression erzielen.

Quantitativ spiegelt sich die Bindungsaffinität, definiert als die Stärke molekularer Wechselwirkungen, in den physikalisch-chemischen Begriffen Dissoziationskonstante (Kd), Inhibitorkonstanten (Ki), halbmaximale Hemmkonzentration (IC50) oder entsprechende freie Gibbs-Energie30 wider. Genaue Vorhersagen molekularer Bindungsaffinitäten sind nicht nur ein wichtiger Schritt bei der Modellierung biologischer Systeme, sondern auch ein grundlegendes Thema für verschiedene praktische Anwendungen, einschließlich der Arzneimittelentwicklung8,10,31, der molekularen Technik und der Mutageneseanalyse4.

Die Bewertung von Protein-Ligand-Bindungskomplexen ist das ultimative Ziel des virtuellen Screenings in der Arzneimittelentwicklung. Typischerweise werden Millionen von Arzneimittelkandidaten auf ein bestimmtes Wirkstoffziel untersucht. Die Genauigkeit und Effizienz des virtuellen Screenings sind für die Arzneimittelentwicklung von entscheidender Bedeutung8,32. Derzeit sind ungenaues strukturbasiertes 3D-Docking und das damit verbundene unzuverlässige virtuelle Screening die Haupthindernisse bei der rationalen Entwicklung und Entdeckung von Arzneimitteln.

In dieser Studie haben wir SVS angewendet, um die Protein-Ligand-Bindungsaffinität anhand des PDBbind 2016-Datensatzes vorherzusagen33, einem beliebten Benchmark-Datensatz, der von Hunderten von Forschungsteams zur Validierung ihrer Protein-Ligand-Bindungsbewertungsfunktionen verwendet wird7,8,9,33,33,34 ,35,36,37,38. Es enthält die Trainingsdaten von 3772 Protein-Ligand-Komplexen aus dem verfeinerten PDBbind 2016-Satz und die Testdaten von 285 Komplexen aus dem Kernsatz. Die Verfügbarkeit komplexer 3D-Strukturen in der PDBbind-Datenbank begünstigt strukturbasierte Bewertungsfunktionen, wie beispielsweise auf algebraischer Topologie basierende Modelle für maschinelles Lernen wie TopBP10, PerSpect-ML31 und AA-score32.

Die beste Leistung von 2D-Fingerprint-basierten Methoden, die durch den Protein-Ligand-Extended-Connectivity-(PLEC)-Fingerprint35 erreicht wurde, betrug Rp = 0,817. Tatsächlich wurden 3D-Strukturinformationen in PLEC genutzt, was die Bedeutung von 3D-Strukturen für bestehende Bewertungsfunktionen für die Protein-Ligand-Bindung unterstreicht. Wir wählen diesen Datensatz aus, um zu untersuchen, ob das vorgeschlagene SVS ohne Rückgriff auf Strukturinformationen das gleiche Maß an Genauigkeit wie strukturbasierte Bewertungsfunktionen erreichen kann.

Wie in Abb. 2b gezeigt, liefert unser SVS-Modell die genaue Vorhersage der Bindungsaffinität mit Rp = 0,832 und RMSE 1,696 kcal mol−1 (Abb. 2b). Bei strukturbasierten Methoden kann Rp > 0,7 normalerweise erreicht werden, wenn experimentelle Strukturen von Protein-Ligand-Komplexen verwendet werden, während niedrigere Rp < 0,65 erreicht werden, wenn molekulares Docking wie ASP@ GOLD und Autodock zur Erzeugung der Strukturen von verwendet wird Protein-Ligand-Komplexe33. Die strukturbasierte TopBP-Methode, die algebraische Topologie verwendet, um die Strukturkomplexität von 3D-Protein-Ligand-Komplexen zu vereinfachen, erzielte mit einem Rp/RMSE von 0,861/1,65 kcal mol−110 die beste Leistung in der Literatur. Ohne fortgeschrittene mathematikgesteuerte strukturbasierte Methoden übertrifft SVS andere strukturbasierte Methoden, z. B. AK-score7 (Rp: 0,827), NNScore+RDKit38 (Rp: 0,826) (Abb. 2b). Diese Errungenschaft ist von enormer Bedeutung, da die Qualität und Zuverlässigkeit des aktuellen virtuellen Screenings dramatisch auf das Niveau röntgenkristallstrukturbasierter Ansätze verbessert werden kann, ohne auf experimentelle 3D-Strukturen angewiesen zu sein. Unser Ergebnis hat eine weitreichende Implikation: Ein zuverlässiges virtuelles Screening kann an jedem Wirkstoffziel durchgeführt werden, ohne auf die 3D-Strukturen von Wirkstoff-Protein-Komplexen angewiesen zu sein.

a Ein Vergleich skalierter vorhergesagter Bindungsaffinitäten und experimenteller Ergebnisse für die Bindungsaffinitätsvorhersagen von Protein-Ligand- (PL), Protein-Nukleinsäure- (PN), Protein-Protein- (PP) und der Hemmung von PPI-Datensätzen (iPPI). Jeder Datensatz wird zur klaren Visualisierung auf eine bestimmte Region mit gleichem Bereich skaliert. b Vergleich des Pearson-Korrelationskoeffizienten (Rp) unseres SVS-Modells und des anderer strukturbasierter Ansätze zur Vorhersage der Protein-Ligand-Bindungsaffinität des PDBbind-2016-Kernsatzes33. Ergebnisse in den Farben Rot, Blau und Grün werden erzielt, wenn keine Struktur (d. h. Sequenz), experimentelle Strukturen bzw. durch Andocken erzeugte Strukturen von Protein-Ligand-Komplexen verwendet werden. Unser SVS übertrifft die modernsten Modelle wie AK-score7, NNScore+RDKit38 und viele andere9,33,34,35,36,37. c Vergleich verschiedener NLP-Modelle für die Pearson-Korrelationskoeffizienten Rp der Protein-Ligand-Bindungsvorhersage. d Die relativen Wichtigkeitsverteilungen verschiedener NLP-Modelle, wie in c gezeigt. Jede Zeile besteht aus 512+1280/1900 farbigen vertikalen Linien und jede stellt die Wichtigkeit eines Merkmals dar, das von den NLP-Modellen generiert wird. Die schwarze gestrichelte Linie ist die Trennlinie für Merkmale, die zu verschiedenen Molekültypen gehören. Der Prozentsatz links oder rechts der schwarzen gestrichelten Linie ist der Anteil der Summe der Wichtigkeit von Merkmalen für denselben Molekültyp.

Die Leistung verschiedener Kombinationen von Protein- und Ligandeneinbettungen wird weiter untersucht (Abb. 2c). Wir verwendeten ESM Transformer22 und das UniRep LSTM20-Modell für die Proteineinbettung sowie ein Transformer24- und ein Autoencoder21-Modell für die Ligandeneinbettung. Unsere Analyse zeigt, dass der kleine molekulare Transformator den Autoencoder übertrifft. Darüber hinaus erzielt Transformer bei der Proteineinbettung eine bessere Leistung als das LSTM-Modell. Eine weitere Merkmalsanalyse liefert die Merkmalswichtigkeitsanalyse von GBDT (Abb. 2d). Beide kleinen molekularen Einbettungen haben die Dimension 512. Für die Proteineinbettungen beträgt die Transformer-Dimension 1280 und die LSTM 1900. Erstens haben kleine molekulare Merkmale wichtigere Merkmale. Die durchschnittliche Bedeutung kleiner molekularer Merkmale beträgt 0,082 (41,9/512), 0,074, 0,082 und 0,088 für vier Fälle von oben nach unten (Abb. 2d). Im Gegensatz dazu beträgt die durchschnittliche Bedeutung von Proteinmerkmalen für vier Fälle 0,045, 0,049, 0,031 und 0,028. Darüber hinaus bietet der kleine molekulare Transformator wichtigere Funktionen als der Autoencoder. Für die Proteineinbettungen verfügt der Transformer über wichtigere Funktionen als der LSTM. Daher erzielt die Kombination aus Ligand-Transformer und Protein-ESM-Transformer die beste Vorhersage, wie in Abb. 2c dargestellt.

Unter Protein-Protein-Bindungsaffinität versteht man die Stärke der attraktiven Wechselwirkung zwischen zwei Proteinen, beispielsweise einem Antikörper-Antigen-Komplex, wenn sie aneinander binden. Es handelt sich um eine wichtige Messgröße zur Beurteilung der Stabilität und Spezifität von Protein-Protein-Wechselwirkungen (PPIs), die für viele biologische Prozesse von entscheidender Bedeutung sind.

Das Verständnis der Protein-Protein-Bindungsaffinität ist für viele Anwendungen wichtig, einschließlich der Arzneimittelentwicklung, des Antikörperdesigns, des Protein-Engineerings und der Molekularbiologie. Wenn man beispielsweise weiß, wie die Antikörper-Antigen-Bindungsaffinität durch die Form des Antikörpers, die Ladung und Hydratation des Antikörpers sowie das Vorhandensein spezifischer Bindungsstellen oder -reste auf dem Antikörper beeinflusst wird, kann man Antikörper mit spezifischen Bindungseigenschaften zur Neutralisierung konstruieren Viren39,40.

Die Protein-Protein-Bindungsaffinität kann durch die freie Gibbs-Energie quantifiziert werden. Zur Bestimmung der Protein-Protein-Bindungsaffinitäten werden Oberflächenplasmonenresonanz (SPR), isotherme Titrationskalorimetrie (ITC), Enzymimmunoassay (ELISA) und Western Blot verwendet. In unserer Arbeit erstellen wir ein SVS-Modell, um Protein-Protein-Bindungsaffinitäten anhand von Proteinsequenzen vorherzusagen. Wir sammeln und kuratieren einen Satz von 1795 PPI-Komplexen (Datensätzen) in der PDBbind-Datenbank41. Dieser Datensatz wird verwendet, um die Vielseitigkeit von SVS zu zeigen. Sequenzen dieser PPI-Komplexe werden mit dem Transformer extrahiert und eingebettet. Die PPIs werden in unserer Studie durch den Stapel ihrer Transformer-Einbettungen dargestellt. Unser SVS-Modell erreichte durch 10-fache Kreuzvalidierung den Rp von 0,743 und den RMSE von 1,219 kcal mol−1, und der Vergleich des vorhergesagten Werts mit der Grundwahrheit ist in Abb. 2a dargestellt. Unser Ergebnis zeigt, dass SVS ein robuster Ansatz zur Vorhersage der Bindungsaffinität von PPIs ist.

Eine weitere Klasse biomolekularer Wechselwirkungen ist die Protein-Nukleinsäure-Bindung, die eine wichtige Rolle in der Struktur und Funktion von Zellen spielt, einschließlich der Katalyse chemischer Reaktionen, des Transports von Molekülen, der Signaltransduktion, Transkription und Translation. Es ist auch an der Regulierung der Genexpression und der Aufrechterhaltung der Chromosomenstruktur und -funktion beteiligt. Eine Fehlregulation der Protein-Nukleinsäure-Bindung kann zu verschiedenen Krankheiten und Störungen wie Krebs, genetischen Störungen und Autoimmunerkrankungen führen. Das Verständnis der Faktoren wie Wasserstoffbrückenbindung, Dipol, Elektrostatik, Van-der-Waals-Wechselwirkung, Hydrophobie usw., die die Protein-Nukleinsäure-Bindungsaffinitäten beeinflussen, kann zur Entwicklung neuer therapeutischer Moleküle genutzt werden.

In dieser Arbeit wenden wir SVS an, um die Protein-Nukleinsäure-Bindungsaffinität zu analysieren und vorherzusagen. Aufgrund des Fehlens vorhandener Benchmark-Datensätze extrahieren wir einen Datensatz aus der PDBbind-Datenbank41. Insgesamt wurden 186 Protein-Nukleinsäure-Komplexe gesammelt (Datensätze). Dieser Datensatz wurde ausgewählt, um zu zeigen, dass sich das SVS gut für die Vorhersage biomolekularer Wechselwirkungen zwischen Nukleinsäuren eignet. Für dieses Problem verwendet unser SVS einen Transformer (ESM) zum Einbetten von Proteinsequenzen und einen weiteren Transformer (DNABERT) zum Einbetten von Nukleinsäuresequenzen. Unser Modell zeigt eine gute Leistung mit einem durchschnittlichen Rp/RMSE von 0,669/1,45 kcal mol−1 in einer 10-fachen Kreuzvalidierung. Unsere Ergebnisse sind in Abb. 2a dargestellt. Angesichts der Tatsache, dass der Datensatz sehr klein ist, ist unsere SVS-Vorhersage sehr gut.

Nachdem wir SVS für Protein-Ligand-, Protein-Protein- und Protein-Nukleinsäure-Bindungsvorhersagen demonstriert haben, betrachten wir weiterhin ein Problem, an dem mehrere molekulare Komponenten beteiligt sind. An der Hemmung der Protein-Protein-Interaktionsvorhersage (iPPI) durch kleine Moleküle sind mindestens drei Moleküle beteiligt.

Protein-Protein-Wechselwirkungen sind für lebende Organismen von wesentlicher Bedeutung. Eine Funktionsstörung der PPI kann zu verschiedenen Krankheiten führen, darunter Immunschwäche, Autoimmunerkrankung, Allergien, Drogenabhängigkeit und Krebs42. Daher ist die Hemmung von PPIs (iPPIs) für die Entwicklung und Entdeckung von Arzneimitteln von großem Interesse. Aktuelle Studien haben ein erhebliches biomedizinisches Potenzial für iPPIs mit Liganden gezeigt43.

Allerdings stellt iPPI mit Liganden in einer Vielzahl von Untersuchungsphasen, einschließlich der Zielvalidierung, dem Liganden-Screening und der Leitstrukturoptimierung, eine Herausforderung dar44. Herkömmliche Berechnungsmethoden für iPPI-Vorhersagen weisen verschiedene Einschränkungen auf. Beispielsweise müssen strukturbasierte Ansätze die Komplexität des Ligandenandockens überwinden, die durch die großen und dynamischen Schnittstellen von PPIs selbst bei stabilen und zuverlässigen experimentellen komplexen Strukturen verursacht wird. Kürzlich haben Rodrigues et al.42 ein interaktionsspezifisches Modell namens pdCSM-PPI entwickelt, das graphbasierte Darstellungen von Ligandenstrukturen im Rahmen eines ligandenbasierten virtuellen Screenings nutzt. Ein wichtiges Merkmal ihres Ansatzes ist, dass ihre Modelle ligandenbasiert und zielspezifisch sind: Die Eingabe jedes Modells ist eine Reihe von Liganden, die auf einen bestimmten PPI abzielen. Anstatt den verborgenen Mechanismus von iPPI zu erforschen, basieren ihre Modelle auf einem Vergleich von Liganden, indem sie davon ausgehen, dass Liganden mit ähnlichen Strukturen ein ähnliches Verhalten, also das Prinzip ähnlicher Eigenschaften, zeigen. Ihr Ansatz vermeidet die Schwierigkeiten fehlender iPPI-Strukturen und molekularer Mechanismen, indem er zielspezifische Vorhersagen verwendet, bei denen ein maschinelles Lernmodell für Liganden erstellt wird, die auf dasselbe PPI-System abzielen. Daher kann es nicht für das Screening neuer Ziele verwendet werden. Im Gegensatz dazu kann SVS diese Schwierigkeit durch die Sequenzeinbettung von PPI-Zielen vermeiden. Dadurch kann SVS direkt zur Erforschung der Hemmung neuer PPIs eingesetzt werden, ohne dass Ziele in vorhandenen iPPI-Datensätzen abgeglichen werden müssen.

In dieser Arbeit analysierten wir PPIs und Liganden mithilfe verschiedener K-Einbettungsstrategien, um die halbmaximale Inhibitorkonzentration (IC50) der Ligandenhemmung von PPI vorherzusagen. Für jeden iPPI-Komplex werden ein kleiner molekularer Transformer und ein Protein-Transformer verwendet, um eine Ligandensequenz und zwei Proteinsequenzen in unser SVS einzubetten. Wir haben unser Modell anhand des von Rodrigues et al.42 betrachteten Datensatzes getestet. Unser Modell zeigt in der 10-fachen Kreuzvalidierung einen Rp von 0,766 und einen RMSE von 0,761 mol/L, während Rp und RMSE des früheren pdCSM-PPI-Modells 0,74 bzw. 0,95 mol/L betragen. SVS zeigt sowohl bei Rp als auch bei RMSE eine bessere Leistung, was die Überlegenheit der SVS-Methode verdeutlicht. Der Vergleich der Vorhersageergebnisse mit dem Ground-Truth-Wert unseres Modells ist in Abb. 2a zu finden.

Wir erforschen K-Embedding-Strategien anhand verschiedener NLP-Deep-Embeddings. Wir untersuchen in dieser Studie drei Integrationsfunktionen, nämlich Stack, Prod und Diff, um K-Einbettungsstrategien zu generieren, wobei die Einbettung höherer Ordnung aus Einbettungen niedrigerer Ordnung aufgebaut wird. Stack verkettet zwei biomolekulare Sprachverarbeitungseinbettungen von zwei Proteinen in einem PPI-Komplex in einem einzigen Einbettungsvektor. Diese Methode bewahrt die vollständigen Informationen, die vom biomolekularen Sprachverarbeitungsmodul bereitgestellt werden, der Nachteil ist jedoch ihre hohe Dimensionalität. Da zwei Proteine ​​in einem PPI-Komplex von zwei Vektoren identischer Länge kodiert werden, kann die 2-Einbettung über die komponentenweisen Operationen zwischen diesen beiden Vektoren erfolgen. Wir haben auch das komponentenweise Produkt (Prod) und den absoluten Wert der Differenz (Diff) getestet. Diese komponentenweisen 2-Einbettungsansätze führen zu niedrigerdimensionalen 2-Einbettungen für das nachgelagerte Modul für maschinelles Lernen. Die spezifischen Formeln, die diesen drei Strategien entsprechen, werden in den Gleichungen beschrieben. (2), (3) bzw. (4).

Hier wählen wir 14 Arten tiefer Einbettungen höherer Ordnung aus, die die Homogenität oder Heterogenität von NLP-Modellen vollständig berücksichtigen, die in Abb. 3a mit ihrer Vorhersageleistung dargestellt sind. Es ist erwähnenswert, dass es sich bei diesem iPPI-Datensatz um einen ligandenzentralen Datensatz handelt, der aus mehreren Liganden besteht, die auf denselben PPI abzielen. Daher wird die 1-Einbettung für die Verarbeitung von Ligandensequenzinformationen die wichtigste Rolle spielen. Unsere Experimente zeigen, dass die Verwendung von Transformer-basierten Modellen mit den Stack-Schemata eine Leistung auf dem neuesten Stand der Technik bietet.

a Darstellung der Leistungen (Rp) verschiedener K-Einbettungsstrategien. b Die Feature-Wichtigkeitsanalyse von Ligand, Protein1 und Protein2 in iPPI-Vorhersagen unter Verwendung der besten K-Einbettungsstrategie (dh dem Stapel aus drei Transformern). c Der Anteil der Ligandenmerkmale in den Top-Features von SVS für iPPI unter Verwendung der besten K-Einbettungsstrategie (dh dem Stapel aus drei Transformern). Die x-Achse gibt die Menge der zu berücksichtigenden Top-Features an und die y-Achse stellt den Anteil der Liganden-Features in den Top-Features dar.

Wir analysieren weiter die Merkmalsbedeutung unserer besten GBDT-Schemata für Merkmale, die Liganden und Proteine ​​kodieren. Interessanterweise sind die Merkmale von Liganden wesentlich wichtiger als die von Proteinen (Abb. 3b). Konkret ist die Bedeutung für Ligandenmerkmale mit 84,2 % deutlich höher, während die Summe der Wichtigkeit für zwei Proteine ​​nur 15,8 % beträgt. Andererseits enthalten Top-Merkmale einen hohen Anteil an Ligandenmerkmalen. Beispielsweise stammen 96,4 % der Top-512-Merkmale von Ligandenmerkmalen (Abb. 3c). Ein möglicher Grund für ein solches Ungleichgewicht der Merkmale könnte sein, dass in diesem Datensatz, der 1694 Liganden, aber nur 31 PPIs enthält, nur wenige PPI-Systeme enthalten sind. Obwohl Proteinmerkmale weniger wichtig sind, sind sie für das Erlernen von iPPI ohne passende Ziele notwendig. Wie in Abb. 3a dargestellt, zeigen unsere Modelle ohne PPI-Informationen (Nicht-Kodierung von PPIs) oder mit nur trivialen Klassifizierungsinformationen von PPI (One-Hot-Pair-Kodierung von PPIs) einen erheblichen Rückgang der Vorhersagegenauigkeit. Die einzige Ausnahme ist Diff des PPI-Ziels. Ein Grund dafür ist, dass viele Proteine ​​in diesem PPI-Ziel zur gleichen Proteinfamilie gehören. Daher würde die hohe Ähnlichkeit dieser Proteine ​​in der Sequenz nur sehr begrenzte Informationen für Diff-Schemata liefern. Im Allgemeinen sind die Proteinmerkmale notwendige Komponenten zum Erlernen zielunübertroffener iPPIs.

Protein-Protein-Interaktionen (PPIs) regulieren viele biologische Prozesse, einschließlich Signaltransduktion, Immunantwort und Zellorganisation46. Allerdings hängen die Selektivität und Stärke von PPIs von der Spezies und der zellulären Umgebung ab. Die Identifizierung und Untersuchung von PPIs kann Forschern helfen, den molekularen Mechanismus von Proteinfunktionen und die Art und Weise, wie Proteine ​​innerhalb einer Zelle oder eines Organismus miteinander interagieren, zu verstehen.

Wir nutzten die SVS-Methode zur Identifizierung von PPIs, wobei unser Modell Proteinpaare in einem bestimmten Datensatz gemäß den Standardprotokollen für Training und Testaufteilung in der Literatur klassifizierte14,47. Positive Proben wurden als interagierende Proteinpaare definiert, die durch intermolekulare Kräfte in direktem physischen Kontakt stehen, während negative Proben durch zufällige Auswahl von Proteinpaaren in verschiedenen subzellulären Kompartimenten erzeugt wurden14,47. Für den Benchmark werden fünf PPI-Datensätze mit verschiedenen Arten verwendet, darunter Homo sapiens (HS), Mus musculus (MM), Saccharomyces cerevisiae (SC), Drosophila melanogaster (DM) und Helicobacter pylori (HP). Hier untersuchen wir drei K-Einbettungsstrategien: Stack, Prod und Diff.

Da die Leistung von Regressionsmodellen kompliziert ist, analysieren wir zunächst die Leistung interaktiver Funktionen ohne nachgeschaltete Regressionsmodelle. Insbesondere haben wir das RS-Diagramm verwendet, um den Merkmalsrestwert (R) im Vergleich zum Ähnlichkeitswert (S) zu visualisieren48. Der R-Score und der S-Score einer gegebenen Stichprobe werden berechnet, indem die Abstände ihrer Merkmale mit denen von Inter-Class-Stichproben und Intra-Class-Stichproben berücksichtigt werden, formuliert als Gleichungen. (10) bzw. (11). Sowohl der R-Score als auch der S-Score reichen von 0 bis 1. Eine Probe mit einem höheren R-Score zeigt an, dass sie weit von Proben in anderen Klassen entfernt ist, und ein höherer S-Score zeigt an, dass sie nahe an anderen Proben derselben Klasse liegt Klasse. Es wird erwartet, dass eine effektive Featurisierungsmethode sowohl hohe R-Scores als auch S-Scores aufweist, obwohl ein klarer Kompromiss zwischen R- und S-Scores besteht (Abb. 4b). Bemerkenswerterweise kann ein solcher Kompromiss auch durch den RS-Index quantifiziert werden (Gl. (14)). Die RS-Analyse zeigt, dass sich Stack-Features mit Ausnahme des H. pylori-Datensatzes (in einem ähnlichen Bereich) oben rechts in Prod- und Diff-Einbettungen befinden, obwohl sie sich in allen Datensätzen weitgehend überlappen. Darüber hinaus haben Stack und Diff aus Sicht des RS-Index Vorteile in zwei Datensätzen und Prod Vorteile in einem Datensatz.

a–e Vergleiche unseres Vorhersagemodells (SVS) mit einigen früheren PPI-Identifikationsmodellen. Der Vergleich jedes Datensatzes wird unabhängig in einem Unterdiagramm mit dem Namen des Datensatzes oben angezeigt. Für jedes Unterdiagramm stellt die x-Achse die Genauigkeitswerte im Bereich von 0,75 bis 1 dar; Auf der Y-Achse ist der Name jedes Modells aufgeführt. Unser SVS übertrifft die hochmodernen Modelle wie SVM-NVDT14, RF-NVDT14, PCVMZM58, TAGPPI47 usw. f Vergleich verschiedener K-Einbettungsstrategien, gemessen durch RS-Analyse von Merkmalen. Zum Vergleich werden drei K-Einbettungsstrategien ausgewählt: Prod, Diff und Stack. Dieses Diagramm besteht vertikal aus fünf ähnlichen Abschnitten. Jeder Abschnitt stellt einen Datensatz mit dem Namen auf der linken Seite dar. Darüber hinaus besteht jeder Abschnitt aus zwei Teilen. Der linke Teil enthält zwei Unterdiagramme, die das RS-Diagramm positiver oder negativer Merkmale zeigen, die durch verschiedene Strategien generiert wurden. Der rechte Teil zeigt den RS-Index (RSI) verschiedener Strategien. g Die Vergleichsgenauigkeit von Vorhersagemodellen verschiedener K-Einbettungsstrategien.

Darüber hinaus verglichen wir verschiedene K-Einbettungsstrategien durch Kopplung mit identischen Regressionsmodellen unter Verwendung einer fünffachen Kreuzvalidierung (Abb. 4b). Konsistent zeigte die Stack-Strategie bei allen getesteten Datensätzen die höchste Genauigkeitsbewertung als andere in der Leistung ihres Downstream-Modells (Abb. 4c). Insgesamt bietet Stack eine optimale K-Einbettungsstrategie.

Insgesamt zeigten unsere Modelle mit dem besten Stapel biomolekularer Sprachverarbeitungseinbettungen Genauigkeitswerte von bis zu 99,93 %, 99,28 %, 99,64 %, 99,22 % und 98,69 % für die Datensätze Helicobacter pylori, Mus musculus, Saccharomyces cerevisiae, Helicobacter pylori und Drosophila melanogaster (Abb. 4a und Ergänzungstabelle 1). Im Vergleich dazu liefert die hochmoderne Methode SVM-NVDT14 für diese Datensätze jeweils 98,56 %, 94,83 %, 99,20 %, 95,41 % und 94,94 %. SVM-NVDT basierte auf natürlichen Vektoren sowie Dinukleotid- und Triplett-Nukleotidinformationen. Außerdem zeigt die Ergänzende Anmerkung 2 zusätzliche Ergebnisse unserer SVS-Modelle, einschließlich der AUC-Kurven, die in der ergänzenden Abbildung 1 dargestellt sind. Unsere Modelle übertreffen alle vorherigen Modelle um ein Vielfaches, was die Überlegenheit unserer Methode gegenüber früheren Identifizierungsmethoden zeigt PPIs.

In dieser Studie verwenden wir Darstellungen traditioneller molekularer Sprachmodelle als Ausgangspunkt, um K-Einbettungen höherer Ordnung induktiv zu definieren, die eine systematische Strategie zur Darstellung biologischer Wechselwirkungen mit einer beliebigen Anzahl von Molekülen bieten. Durch die Generierung verschiedener K-Einbettungen können wir die Sequenzdarstellungen von NLP-Modellen, die für ein einzelnes Molekül generiert wurden, effektiv und einfach erfassen. Diese K-Einbettungen ermöglichen eine umfassende Betrachtung der potenziellen Heterogenität interaktiver Biomoleküle und verbessern die Darstellbarkeit einzelner Moleküle. Darüber hinaus ermöglicht das Design von K-Embedding SVS, nachgelagerte Machine-/Deep-Learning-Algorithmen zu optimieren. Um den Nutzen von K-Einbettungen zu demonstrieren, entwerfen wir zwei Algorithmen für maschinelles Lernen, die Ergebnisse auf dem neuesten Stand der Technik erzielen.

Bei der Vorhersage biomolekularer Wechselwirkungen sind strukturbasierte Ansätze beliebt und äußerst genau, wenn topologische Darstellungen hochwertiger 3D-Strukturen verwendet werden10. Ihre Leistung hängt jedoch von der Verfügbarkeit zuverlässiger hochauflösender experimenteller Strukturen ab. Strukturelles Andocken ist ein notwendiges Protokoll für strukturbasierte Ansätze, wenn für den interaktiven Komplex keine experimentelle Struktur verfügbar ist. Darüber hinaus liegt die Stärke strukturbasierter Methoden in ihrer Fähigkeit, die geometrischen Informationen der interaktiven Komplexe genau zu erfassen. Daher wird die Ungleichheit zwischen angedockten Strukturen und experimentellen Strukturen auch von strukturbasierten Modellen übernommen. Allerdings haben keine Studien gezeigt, dass aktuelle molekulare Docking-Modelle diese Ungleichheit innerhalb akzeptabler Toleranzen kontrollieren können. Im Gegensatz dazu bietet unsere SVS-Methode einen alternativen Ansatz für die Untersuchung interaktiver Molekülkomplexe ausschließlich unter Verwendung von Sequenzdaten. Es bettet implizit Strukturinformationen, Flexibilität, Strukturentwicklung und Diversität in den latenten Raum ein, der durch K-Einbettungsstrategien für nachgelagerte Modelle optimiert wird. Es ist erwähnenswert, dass SVS die gleiche Genauigkeit erreicht wie der beste strukturbasierte Ansatz, wie in Abb. 2 dargestellt.

Ligandenbasierte virtuelle Screening-Modelle dienen auch als ein weiterer effektiver Ansatz, der strukturbasiertes Andocken zur Bewertung der biomolekularen Interaktion mit Liganden vermeiden kann49. Die derzeitige Verwendung ligandenbasierter Modelle ist jedoch recht begrenzt, da diese Modelle im Prinzip nur auf zielspezifische Datensätze angewendet werden können und nicht für das Screening neuer Ziele verwendet werden können. Wir haben gezeigt, dass SVS durch die Kombination von tiefen Einbettungen von Zielen und Liganden über K-Einbettungsstrategien zu robusten zielunspezifischen Vorhersagen mit strukturbasierter Genauigkeit führt.

Das Modul zur Verarbeitung biologischer Sprache und das K-Einbettungsmodul sind zwei Hauptkomponenten in SVS-Modellen. Herkömmlicherweise basiert die Modellleistung sowohl auf Featurisierungsmodulen als auch auf Algorithmen für maschinelles Lernen. Um ausschließlich die Qualität der Featurisierungsmodule zu analysieren, führen wir eine Residuenähnlichkeitsanalyse (RS) unter Verwendung von RS-Plot und RS-Index48 für Klassifizierungsaufgaben durch (Abb. 4b). Die RS-Analyse beschreibt die Qualität von Merkmalen in Bezug auf Ähnlichkeitswerte und Residuenwerte sowie die Abweichung zwischen verschiedenen Klassen.

Wir analysieren das SVS-Verhalten in verschiedenen Datensätzen weiter im Hinblick auf Größen und Modellierbarkeit (Abb. 5a). Die grundlegenden Informationen zu Korrespondenzdatensätzen finden Sie in der Ergänzungstabelle 3. Drei Metriken werden verwendet: Modellierbarkeitsindex, Vorhersage und Indexgrößenindex. Der Modellierbarkeitsindex und der Größenindex werden auf der Grundlage der Trainingsdaten jedes Datensatzes berechnet, während der Vorhersageindex auf der Grundlage unserer Vorhersageergebnisse für die Testdaten berechnet wird. Beachten Sie, dass, wenn unser Modell mittels Kreuzvalidierung getestet wird, der gesamte Datensatz für jeden der fünf Indizes berechnet wird. Der Vorhersageindex wird basierend auf den Aufgabentypen ausgewählt: Wir haben den Genauigkeitswert für Klassifizierungsaufgaben und Rp für Regressionsaufgaben ausgewählt. Der Modellierbarkeitsindex, der die Machbarkeit unseres Ansatzes für die Trainingsdaten jedes Datensatzes darstellt, wird durch Berechnung des klassengewichteten Verhältnisses (Klassifizierung) oder der Aktivitätsklippe (Regression) zwischen den nächsten Nachbarn der Stichproben bewertet (Gl. (15). ) und (16)). Frühere Studien50,51 haben gezeigt, dass 0,65 der Schwellenwert für die Trennung modellierbarer und nicht modellierbarer Datensätze ist. Unser Modell überschreitet diesen Schwellenwert in allen Datensätzen. Insbesondere die Modellierbarkeitsindizes übersteigen 0,8, was die Robustheit, Stabilität und Machbarkeit unseres SVS bestätigt. Unsere Methode ist mit einer Vielzahl von Datensatzgrößen kompatibel, wie der Magnitudenindex zeigt, der die entsprechende Datensatzgröße im Verhältnis zur maximalen Größe der 9 untersuchten Datensätze widerspiegelt (die maximale Datengröße beträgt 11.188). Unsere Analyse zeigt, dass es keine wesentliche Korrelation zwischen dem Magnitudenindex und dem Modellierbarkeitsindex oder dem Vorhersageindex gibt, mit Ausnahme des PN-Datensatzes. Dieser Datensatz weist im Vergleich zu anderen Datensätzen derselben Aufgabe (z. B. PL-, PP-, iPPI-Datensätze) den gleichen Grad des Modellierbarkeitsindex auf, jedoch mit niedrigeren Graden des Vorhersageindex. Wir glauben, dass dies daran liegt, dass der Größenindex zu klein ist, und dieser Datensatz wird durch Kreuzvalidierung getestet. Daher führen die zufällig ausgewählten Daten zu einer Lücke im Merkmalsraum, was es für unser Modell schwierig macht, diesen Datensatz anzupassen. Zusammenfassend lässt sich sagen, dass SVS umfassend für biomolekulare Vorhersagen eingesetzt werden kann und robust gegenüber Schwankungen der Datengröße ist. Darüber hinaus weist SVS eine starke Anpassungsfähigkeit an Moleküle mit unterschiedlichen Sequenzzusammensetzungen auf. Da an jedem unserer vorherigen numerischen Experimente Proteine ​​beteiligt waren, zeigen wir die Längenverteilung der Proteinsequenzen in jedem Datensatz (Abb. 5b) sowie die Verteilung der Häufigkeit des Auftretens von Aminosäuren in den Sequenzen (Abb. 5c). Im Durchschnitt sind die Sequenzlängen von PL, PP und PN kürzer als die von Saccharomyces cerevisiae (SC), Drosophila melanogaster (DM), Helicobacter pylori (HP), Homo sapiens (HS) und Mus musculus (MM). Dies liegt daran, dass Proben in den vorherigen Datensätzen auch mit experimentell ermittelten Strukturen versehen sind. Die Verfügbarkeit und Zuverlässigkeit großer Proteinstrukturen unterliegt sowohl experimentellen Techniken als auch praktischen Überlegungen, was zu einer unvermeidlichen systematischen Verzerrung strukturbasierter Ansätze führt. Andererseits zeigen unsere SVS-Modelle hervorragende Leistungen bei Aufgaben mit verschiedenen Sequenzlängenverteilungen. Darüber hinaus unterstützt die Vielfalt der Verteilung der Aminosäureauftrittsraten die Anpassungsfähigkeit unseres Modells zur Bewältigung verschiedener biologischer Aufgaben, unabhängig davon, ob die beteiligte Sequenzzusammensetzung eine gewisse Spezifität aufweist. Zusammenfassend lässt sich sagen, dass unsere SVS-Modelle robust gegenüber Sequenzlängenvariationen und anpassungsfähig an biomolekulare Variabilität sind, was das Potenzial unserer SVS-Methode als universellen Ansatz zur Untersuchung biologischer Wechselwirkungen verdeutlicht.

ein Modellierbarkeitsindex, ein Vorhersageindex und ein Größenindex für neun Datensätze. Die linke Y-Achse stellt Modellierbarkeits- und Vorhersageindizes dar, während die rechte Y-Achse den Größenindex darstellt. Neun Datensätze, die in unserer Arbeit verwendet werden, sind vier Bindungsaffinitätsregressionsaufgaben (d. h. PL, PP, PN, iPPI) und fünf Protein-Protein-Interaktionsklassifizierungsaufgaben, nämlich SC (Saccharomyces cerevisiae), DM (Drosophila melanogaster), HP (Helicobacter pylori). ), HS (Homo sapiens) und MM (Mus musculus). b Die Verteilung der Sequenzlänge für 9 Datensätze. c Die normalisierte Häufigkeitsverteilung der Aminosäuren. Diese Unterfigur verfügt horizontal über neun Kanäle, die den neun in a, b beschriebenen Datensätzen entsprechen. Jeder Kanal zeigt die Verteilung der Auftrittsraten von 20 Arten von Aminosäuren in Sequenzen des Datensatzes.

Der Erfolg des SVS ist auf die Verwendung leistungsstarker NLP-Modelle wie LSTM, Autoencoder und insbesondere Transformers zurückzuführen, die mit Hunderten Millionen Molekülen trainiert wurden. Diese Modelle extrahieren die Konstitutionsregeln von Molekülen und Biomolekülen, ohne auf molekulare Eigenschaftsbezeichnungen zurückzugreifen. Das vorgeschlagene SVS wird leistungsfähiger, wenn fortschrittlichere NLP-Modelle verfügbar werden.

Um die vorgeschlagene SVS-Methode zu präsentieren, wählen wir neun repräsentative biomolekulare Interaktionsdatensätze aus, darunter vier Regressionsdatensätze für Protein-Ligand-Bindung, Protein-Protein-Bindung, Nukleinsäurebindung und Ligandenhemmung von Protein-Protein-Wechselwirkungen sowie fünf Klassifizierungsdatensätze für Protein-Protein Wechselwirkungen in fünf biologischen Arten. SVS kann auf das groß angelegte virtuelle Screening mehrerer Ziele und mehrerer molekularer Komponenten ohne jegliche Strukturinformationen angewendet werden.

In jüngster Zeit besteht eine wachsende Besorgnis über mögliche Datenlecks in Modellen des maschinellen Lernens, bei denen das Modell möglicherweise zu stark auf Sequenzähnlichkeit angewiesen ist, um Vorhersagen zu treffen52. Dieses Problem untergräbt die Fähigkeit des Modells, das zugrunde liegende Muster der Wechselwirkungen zwischen Biomolekülen zu lernen. Unser Ansatz, SVS, vermeidet jedoch Datenlecks durch die Verwendung von NLP-basierten K-Einbettungen. Durch die Extraktion einer breiten Palette verborgener Informationen aus Sequenzen, einschließlich Struktur-, Kontext-, biochemischer und evolutionärer Informationen, ist unser SVS-Modell weniger abhängig von Sequenzähnlichkeit. Aktuelle Studien belegen auch die Wirksamkeit NLP-basierter Methoden bei der Vorhersage einzelner oder mehrerer Mutationen von Proteininteraktionen, die molekulare Interaktionen vollständig verändern oder aufgeben können4,53, was die geringe Abhängigkeit von SVS von der Sequenzähnlichkeit weiter bestätigt.

In dieser Studie verwendeten wir PDBbind-2016-Datensätze41 zur Vorhersage der Protein-Ligand-Bindungsaffinität. Der für die Protein-Protein-Bindungsaffinität verwendete Datensatz wurde aus der PDBbind-Datenbank41 erstellt. Die ursprüngliche PDBbind-Version 2020 enthält Bindungsaffinitätsdaten von 2852 Protein-Protein-Komplexen. Wir haben 1795 Proben mit nur zwei unterschiedlichen Unterkettensequenzen ausgewählt, wie in der Ergänzungstabelle 5 gezeigt. Darüber hinaus erstellen wir auch den Protein-Nukleinsäure-Bindungsaffinitätsdatensatz aus PDBbind Version 2020. Im Gegensatz zu Proteinen und Liganden müssen Nukleinsäuren jedoch umgewandelt werden zu k-meren (in unseren Modellen ist k gleich 3), bevor sie in das von uns verwendete Transformer-Modell eingespeist werden. Somit führt ein unkonventioneller Buchstabe (z. B. X, Y) in einer Sequenz zu k unbekannten k-meren. Darüber hinaus sind Nukleinsäuren, die an Proteine ​​binden, im Allgemeinen nur kurz. Daher können unkonventionelle Buchstaben in ihrer Reihenfolge den Kontext von k-mer-Darstellungen vollständig zerstören. Beispielsweise wird eine Nukleinsäuresequenz „ACXTG“ in drei 3-mere umgewandelt: „ACX“, „CXT“ und „XTG“. Beachten Sie, dass diese drei 3-mere alle ein „X“ enthalten, sodass das biomolekulare Sprachverarbeitungsmodell sie als unbekannte Token behandelt und keine nützlichen Sequenzinformationen lesen kann. Um die Wirksamkeit der Sequenzinformationen zu gewährleisten, wenden wir ein strengeres Ausschlusskriterium an: 1) schließen wir diejenigen Protein-Nukleinsäure-Komplexe aus, deren Sequenznummern nicht gleich zwei sind; 2) Protein-Nukleinsäure-Komplexe mit unklarer Markierung ausschließen; 3) jene Protein-Nukleinsäure-Komplexe ausschließen, deren Nukleinsäuresequenzen abnormale Buchstaben haben (normale sind A, C, T, G); 4) Schließen Sie die Protein-Nukleinsäure-Komplexe aus, deren Nukleinsäuresequenzlänge weniger als 6 beträgt. Der resultierende Datensatz enthält 186 Protein-Nukleinsäure-Komplexe, wie in der Ergänzungstabelle 4 gezeigt. Zusätzlich werden für diese beiden Datensätze die Markierungen von der Dissoziationskonstante transformiert (Kd), Inhibitorkonstante (Ki) und halbmaximale Hemmkonzentration (IC50) zur freien Gibbs-Energie basierend auf der Ergänzungsgleichung. 8.

Der ursprüngliche Datensatz des iPPI-Datensatzes konzentriert sich auf Liganden, daher ist die Verfügbarkeit von PPI-Zielen unklar und auf Familienebene werden nur 31 Ziele bereitgestellt, während 1694 Liganden verfügbar sind. Für jede Proteinfamilie haben wir ein Protein ausgewählt, das die gesamte Familie repräsentiert (z. B. wählten wir P10415/Q07812 für BCL2/BAK; O60885/P62805 für Bromodomäne/Histon und O75475/P12497 für ledgf/in). Spezifischere Entsprechungen finden Sie in der Ergänzungstabelle 6.

Die Identifizierung der Protein-Protein-Interaktion umfasst fünf Benchmark-Datensätze, nämlich 2434 Proteinpaare von Homo sapiens, 694 Proteinpaare von Mus musculus, 11.188 Proteinpaare von Saccharomyces cerevisiae, 2140 Proteinpaare von Drosophila melanogaster und 2916 Proteinpaare von Helicobacter pylori14. Jeder Datensatz besteht aus einer gleichen Anzahl interagierender Paare und nicht interagierender Paare. Die interagierenden Proteinpaare, die als positive Proben dienen, wurden aus der öffentlichen Datenbank interagierender Proteine ​​(DIPs)54 gesammelt. Proben mit weniger als 50 Aminosäuren und mehr als 40 % paarweiser Sequenzidentität zueinander wurden ausgeschlossen, um Fragmente und Sequenzähnlichkeit zu reduzieren. Negative Proben jedes Datensatzes wurden durch zufällige Auswahl von Proteinpaaren in verschiedenen subzellulären Kompartimenten generiert. Proteine ​​aus verschiedenen subzellulären Kompartimenten interagieren normalerweise nicht miteinander, und tatsächlich gewährleistet diese Konstruktion eine hohe Sicherheit bei der Identifizierung negativer Proben14.

Alle zusätzlichen Informationen zu den in dieser Studie verwendeten Datensätzen finden Sie in der Ergänzenden Anmerkung 4.

Für einen gegebenen Molekülkomplex mit m Molekülen bezeichne Sm = {s1, s2, … , sm}(m ≥ 2) die Menge der entsprechenden Sequenzen. Die Menge der zugehörigen NLP-1-Einbettungen ist \(\{{\tau }_{{u}_{1}}^{(1)}({s}_{1}),{\tau }_{{ u}_{2}}^{(1)}({s}_{2}),\ldots ,{\tau }_{{u}_{m}}^{(1)}({s} _{M})\}\). Hier ist der Index (ui) die Einbettungsdimension, z. B. 512 für die latente Raumdimension des kleinen molekularen Transformators24. Unser Ziel ist es, ein optimales m-Einbettungsmodell (\({\tau }_{z}^{(m)}({S}_{m})\)) aus \(\{{\tau }_ {{u}_{1}}^{(1)}({s}_{1}),{\tau }_{{u}_{2}}^{(1)}({s}_ {2}),\ldots ,{\tau }_{{u}_{m}}^{(1)}({s}_{m})\}\), für den Komplex.

Im Allgemeinen wird eine Q-Einbettung auf niedrigeren Formen wie folgt definiert:

wobei r + t = q und \({S}_{r}=\{{s}_{{i}_{1}},{s}_{{i}_{2}},\ldots ,{s}_{{i}_{r}}\},{S}_{t}=\{{s}_{{j}_{1}},{s}_{{j}_ {2}},\ldots ,{s}_{{j}_{t}}\},\,{{{{{{{\rm{and}}}}}}}}\,{S} _{q}=\{{s}_{{k}_{1}},{s}_{{k}_{2}},\ldots ,{s}_{{k}_{q} }\}\) sind drei Teilmengen von Folgen. Hier ist H die integrierende Funktion. In dieser Studie haben wir Stack, Prod und Diff basierend auf der Homogenität oder Heterogenität von Strategien niedrigerer Formen als unsere Wahlmöglichkeiten für H verwendet.

Konkret kann der Stack wie folgt definiert werden:

wobei ⊕ die direkte Summe ist.

Wenn die Strategien der unteren Form außerdem homogen sind (d. h. u = v, s = t), können wir Prod und Diff wie folgt definieren:

wobei μ und σ der Mittelwert und die Standardabweichung sind, und

wobei × und − das elementweise Produkt bzw. die Subtraktion ist.

In dieser Arbeit erfolgt die Optimierung über die individuelle NLP-Einbettung (\({\tau }_{{u}_{j}}^{(1)}({s}_{j})\)), wie z Transformer, Autoencoder und LSTM sowie alle integrierenden Funktionen (H), also Stack, Prod und Diff.

Wir verwenden zwei Sätze maschineller Lernalgorithmen. Der erste Satz sind die künstlichen neuronalen Netze (KNN), ein Deep-Learning-Algorithmus, der von der komplizierten Funktionalität des menschlichen Gehirns inspiriert ist. Für jede Aufgabe verwenden wir die Bayes'sche Optimierung55, um die beste Kombination von Hyperparametern zu suchen, einschließlich Netzwerkgröße, L2-Strafparameter, Lernrate, Stapelgröße und maximale Iteration. Das zweite Modell ist der Gradient Boost Decision Tree (GBDT), eine der beliebtesten Ensemble-Methoden. GBDT bietet die Vorteile der Robustheit gegenüber Überanpassung, der Unempfindlichkeit gegenüber Hyperparametern, der Leistungseffizienz und der Interpretierbarkeit. GBDT wurde hauptsächlich zur Implementierung von Regressionsaufgaben verwendet. Die Hyperparameter, einschließlich „n_estimators, max_ Depth, min_sample_split, subsample, max_features“, werden basierend auf der Datengröße und den Einbettungsdimensionen jeder Aufgabe ausgewählt. In der Ergänzenden Anmerkung 3 werden die in unserer Studie verwendeten Optimierungsstrategien vorgestellt. Die detaillierten Einstellungen der Hyperparameter sind in der Ergänzungstabelle 2 dargestellt.

Die Bayes'sche Optimierung ist ein beliebter Ansatz zur sequentiellen Optimierung von Hyperparametern von Algorithmen für maschinelles Lernen. Die Bayes'sche Optimierung besteht darin, eine Black-Box-Funktion f(x) in einem Raum \({{{{{{{\mathcal{S}}}}}}}}\ zu maximieren:

Bei der Hyperparameteroptimierung kann \({{{{{{{\mathcal{S}}}}}}}}\) als Suchraum von Hyperparametern betrachtet werden, x* ist die Menge optimaler Hyperparameter und f( x) ist eine Bewertungsmetrik für die Leistung maschinellen Lernens.

Bei gegebenen t Datenpunkten {{{{\mathcal{S}}}}}}}}\) durch Anpassen von (Xt, Yt)56. An jedem neuen Punkt x wird f(x) durch eine Gaußsche Posterior-Verteilung modelliert: \(p(f(x)| {X}_{t},{Y}_{t}) \sim {{{{{ {{\mathcal{N}}}}}}}}({\mu }_{t}(x),{\sigma }_{t}^{2}(x))\), wobei μt(x ) ist der Mittelwert und σ ist die Standardabweichung von f(x), vorhergesagt durch die Gaußsche Prozessregression:

Hier ist k die Kernelfunktion, K(x, Xt) ist ein Zeilenvektor von Kernelauswertungen zwischen x und den Elementen von Xt mit \({[K(x,{X}_{t})]}_{i} =k(x,{x}_{i})\), und K(Xt, Xt) ist die Kernmatrix mit \({[K({X}_{t},{X}_{t}) ]}_{ij}=k({x}_{i},{x}_{j})\). ϵn ist der Rauschterm, der aus der Regression gelernt wird.

Bei der Bayes'schen Optimierung werden sowohl der vorhergesagte Mittelwert als auch die Standardabweichung für die Entscheidungsfindung für den nächsten auszuwertenden Datenpunkt verwendet. Man kann entweder den Punkt auswählen, um die Mittelwerte von f(x) für eine gierige Suche zu maximieren, oder den Punkt mit der größten Standardabweichung auswählen, um neue Erkenntnisse zu gewinnen und die Genauigkeit des Gaußschen Prozesses in der f(x)-Landschaft zu verbessern. Die gierige Suche kann f(x) in wenigen Iterationen weitgehend maximieren und die Untersuchung unsicherer Punkte kann für langfristige Iterationen von Vorteil sein. Um einen solchen Kompromiss zwischen Ausbeutung und Erkundung auszugleichen, muss eine Erfassungsfunktion α(x) ausgewählt werden. Die Entscheidung für den nächsten Bewertungspunkt xn wird so getroffen, dass sie die Erfassungsfunktion maximiert

In dieser Studie haben wir die Erfassung der oberen Konfidenzgrenze (UCB) verwendet, die den Kompromiss bewältigen kann und eine schnelle Konvergenzrate57 für die Black-Box-Optimierung aufweist.

Zusätzlich zu den in der Ergänzenden Anmerkung 1 eingeführten Bewertungsmetriken (von der Ergänzenden Gleichung 1 bis zur Ergänzenden Gleichung 7) werden im Folgenden RS-Scores, RS-Index und Modellierbarkeitsindex beschrieben.

Das Residuenähnlichkeitsdiagramm (RS) ist eine neue Art der Visualisierungs- und Analysemethode, die auf eine beliebige Anzahl von Klassen angewendet werden kann, die von Hozumi et al.48 vorgeschlagen wurden. Ein RS-Diagramm wertet jede Stichprobe gegebener Daten anhand von zwei Komponenten aus, den Residuen- und Ähnlichkeitswerten. Für gegebenen Datensatz \({\{({x}_{m},{y}_{m})| {x}_{m}\in {R}^{N},{y}_{m} \in {Z}_{L}\}}_{m = 1}^{M}\) sind der Residuenwert und der Ähnlichkeitswert einer Stichprobe (xm, ym) wie folgt definiert:

wobei l = ym, Cl = {xm∣ym = l} und \({d}_{\max }=\mathop{\max }\nolimits_{{x}_{i},{x}_{j }\in {C}_{l}}| | {x}_{i}-{x}_{j}| |\). Beachten Sie, dass 0 ≤ Rm ≤ 1 und 0 ≤ Sm ≤ 1. Wenn eine Stichprobe weit von anderen Klassen entfernt ist, weist sie einen größeren Restwert auf; Wenn eine Stichprobe gut geclustert ist, weist sie einen höheren Ähnlichkeitswert auf.

Der Klassenrestindex (CRI) und der Klassenähnlichkeitsindex (CSI) für die l-te Klasse können definiert werden als \({{{\mbox{CRI}}}}_{l}=\frac{1}{| { C}_{l}| }{\sum }_{m}{R}_{m}\) und \({{{\mbox{CSI}}}}_{l}=\frac{1}{ | {C}_{l}| }{\sum }_{m}{S}_{m}\). Dann können der klassenunabhängige Residuenindex (RI) und der Ähnlichkeitsindex (SI) definiert werden:

Anschließend können die RS-Indizes definiert werden, die eine klassenunabhängige Bewertung der Abweichung R- und S-Scores48 ermöglichen:

Beachten Sie, dass der RSI zwischen 0 und 1 liegt und ein niedriger RSI auf eine große Abweichung zwischen dem R-Score und dem S-Score hinweist.

Der Modellierbarkeitsindex wird unabhängig für Klassifizierungsaufgaben und Regressionsaufgaben definiert, nämlich MODIcl bzw. MODIreg, wie folgt definiert50,51:

Dabei ist L die Anzahl der Klassen, Ni die Anzahl der Stichproben in der i-ten Klasse, deren nächster Nachbar ebenfalls zur i-ten Klasse gehört, Mi die Anzahl der Stichproben in der i-ten Klasse und M die Gesamtzahl Anzahl der Stichproben, \({C}_{i}^{1}\) ist der 1-nächste Nachbar der i-ten Stichprobe, Ki ist die Anzahl der Stichproben in \({C}_{i}^{1 }\) außer der i-ten Stichprobe, und yi stellt die normalisierte Bezeichnung der i-ten Stichproben dar.

Wir haben die Standardabweichung aller unserer Kreuzvalidierungsergebnisse in der Ergänzungstabelle 1 markiert. Zur Reproduzierbarkeit sind die Wiederholungen unserer Experimente in der Ergänzungstabelle 3 dargestellt.

Weitere Informationen zum Forschungsdesign finden Sie in der mit diesem Artikel verlinkten Nature Portfolio Reporting Summary.

Alle Datensätze sind unter https://weilab.math.msu.edu/DataLibrary/2D/ verfügbar. Die Supplementary Data 1 stellen .xlsx-Dateien zur Reproduktion der Abbildungen bereit. 2, 3, 4 und 5.

Die Quellcodes sind unter https://github.com/WeilabMSU/SVS verfügbar.

Bryant, P., Pozzati, G. & Elofsson, A. Verbesserte Vorhersage von Protein-Protein-Wechselwirkungen mit AlphaFold2. Nat. Komm. 13, 1–11 (2022).

Google Scholar

Jumper, J. et al. Hochpräzise Vorhersage der Proteinstruktur mit AlphaFold. Natur 596, 583–589 (2021).

Artikel CAS PubMed PubMed Central Google Scholar

Otović, E., Njirjak, M., Kalafatovic, D. & Mauša, G. Sequentielles Eigenschaftendarstellungsschema für die wiederkehrende neuronale Netzwerk-basierte Vorhersage therapeutischer Peptide. J. Chem. Inf. Modell. 62, 2961–2972 (2022).

Qiu, Y., Hu, J. & Wei, G.-W. Durch Clusterlernen unterstützte gerichtete Evolution. Nat. Berechnen. Wissenschaft. 1, 809–818 (2021).

Artikel PubMed PubMed Central Google Scholar

Planas, D. et al. Erheblicher Austritt von SARS-CoV-2-Omikronen zur Antikörperneutralisierung. Natur 602, 671–675 (2022).

Artikel CAS PubMed Google Scholar

Zhang, QC, Petrey, D., Garzón, JI, Deng, L. & Honig, B. PrePPI: eine strukturinformierte Datenbank von Protein-Protein-Wechselwirkungen. Nukleinsäuren Res. 41, D828–D833 (2012).

Artikel PubMed PubMed Central Google Scholar

Kwon, Y., Shin, W.-H., Ko, J. & Lee, J. Ak-Score: Genaue Vorhersage der Protein-Ligand-Bindungsaffinität unter Verwendung eines Ensembles von 3D-Faltungs-Neuronalen Netzen. Int. J. Mol. Wissenschaft. 21, 8424 (2020).

Artikel CAS PubMed PubMed Central Google Scholar

Ballester, PJ & Mitchell, JB Ein maschineller Lernansatz zur Vorhersage der Protein-Ligand-Bindungsaffinität mit Anwendungen auf molekulares Docking. Bioinformatik 26, 1169–1175 (2010).

Artikel CAS PubMed Google Scholar

Zheng, L., Fan, J. & Mu, Y. Onionnet: ein auf intermolekularem Kontakt basierendes mehrschichtiges neuronales Faltungsnetzwerk zur Vorhersage der Protein-Ligand-Bindungsaffinität. ACS Omega 4, 15956–15965 (2019).

Artikel CAS PubMed PubMed Central Google Scholar

Cang, Z., Mu, L. & Wei, G.-W. Darstellbarkeit der algebraischen Topologie für Biomoleküle in der auf maschinellem Lernen basierenden Bewertung und im virtuellen Screening. PLoS Comput. Biol. 14, e1005929 (2018).

Artikel PubMed PubMed Central Google Scholar

Nguyen, DD, Cang, Z. & Wei, G.-W. Eine Übersicht über mathematische Darstellungen biomolekularer Daten. Physik. Chem. Chem. Physik. 22, 4343–4367 (2020).

Artikel CAS PubMed PubMed Central Google Scholar

Prieto-Martínez, FD, Arciniega, M. & Medina-Franco, JL Molekulares Docking: aktuelle Fortschritte und Herausforderungen. TIP Fachzeitschrift für chemisch-biologische Wissenschaften https://doi.org/10.22201/fesz.23958723e.2018.0.143 (2018).

Zhou, X.-X., Wang, Y.-B., Pan, Y.-J. & Li, W.-F. Unterschiede in der Aminosäurezusammensetzung und den Kopplungsmustern zwischen mesophilen und thermophilen Proteinen. Aminosäuren 34, 25–33 (2008).

Artikel CAS PubMed Google Scholar

Zhao, N., Zhuo, M., Tian, ​​K. & Gong, X. Protein-Protein-Wechselwirkungen und Nicht-Wechselwirkungsvorhersagen unter Verwendung natürlicher Gensequenzvektoren. Komm. Biol. 5, 1–11 (2022).

Artikel CAS Google Scholar

Chou, K.-C. Pseudoaminosäurezusammensetzung und ihre Anwendungen in der Bioinformatik, Proteomik und Systembiologie. Curr. Proteomics 6, 262–274 (2009).

Artikel CAS Google Scholar

Zeng, Y.-h et al. Verwendung der erweiterten Chou-Pseudoaminosäurezusammensetzung zur Vorhersage der Protein-Submitochondrien-Positionen basierend auf dem Auto-Kovarianz-Ansatz. J. Theor. Biol. 259, 366–372 (2009).

Artikel CAS PubMed Google Scholar

Friedman, C., Kra, P., Yu, H., Krauthammer, M. & Rzhetsky, A. Genies: ein System zur Verarbeitung natürlicher Sprache zur Extraktion molekularer Pfade aus Zeitschriftenartikeln. Bioinformatik 17 (Suppl. 1), S74–S82 (2001).

Ono, T., Hishigaki, H., Tanigami, A. & Takagi, T. Automatisierte Extraktion von Informationen über Protein-Protein-Wechselwirkungen aus der biologischen Literatur. Bioinformatik 17, 155–161 (2001).

Artikel CAS PubMed Google Scholar

Wang, Y. et al. Ein hocheffizientes biologisches Sprachmodell zur Vorhersage von Protein-Protein-Wechselwirkungen. Zellen 8, 122 (2019).

Artikel CAS PubMed PubMed Central Google Scholar

Alley, EC, Khimulya, G., Biswas, S., AlQuraishi, M. & Church, GM Einheitliches rationales Protein-Engineering mit sequenzbasiertem Deep-Representation-Learning. Nat. Methoden 16, 1315–1322 (2019).

Artikel CAS PubMed PubMed Central Google Scholar

Feng, H. et al. Maschinelle Lernanalyse der Kokainsucht, basierend auf DAT-, SERT- und NET-basierten Interaktomnetzwerken. J. Chem. Theorieberechnung. 18, 2703–2719 (2022).

Artikel CAS PubMed Google Scholar

Rives, A. et al. Biologische Strukturen und Funktionen entstehen durch die Skalierung des unbeaufsichtigten Lernens auf 250 Millionen Proteinsequenzen. Proz. Natl Acad. Wissenschaft. USA 118, e2016239118 (2021).

Ji, Y., Zhou, Z., Liu, H. & Davuluri, RV DNAbert: vorab trainierte bidirektionale Encoderdarstellungen aus dem Transformers-Modell für DNA-Sprache im Genom. Bioinformatik 37, 2112–2120 (2021).

Artikel CAS PubMed Google Scholar

Chen, D., Zheng, J., Wei, G.-W. & Pan, F. Extrahieren prädiktiver Darstellungen aus Hunderten Millionen Molekülen. J. Phys. Chem. Lette. 12, 10793–10801 (2021).

Artikel CAS PubMed PubMed Central Google Scholar

Vaswani, A. et al. Aufmerksamkeit ist alles, was Sie brauchen. Adv. neuronale Inf. Verfahren. syst. 30, (2017).

Devlin, J., Chang, M.-W., Lee, K. & Toutanova, K. Bert: Vortraining tiefer bidirektionaler Transformatoren für das Sprachverständnis. Vorabdruck bei arXiv https://arxiv.org/abs/1810.04805 (2018).

Chen, D. et al. Algebraische graphgestützte bidirektionale Transformatoren zur Vorhersage molekularer Eigenschaften. Nat. Komm. 12, 1–9 (2021).

Google Scholar

Ramírez, D. & Caballero, J. Ist es zuverlässig, gängige molekulare Docking-Methoden zum Vergleich der Bindungsaffinitäten von Enantiomerenpaaren für ihr Proteinziel zu verwenden? Int. J. Mol. Wissenschaft. 17, 525 (2016).

Artikel PubMed PubMed Central Google Scholar

Jain, AN Bewertungsfunktionen für das Protein-Ligand-Docking. Curr. Proteinpeptid Wissenschaft. 7, 407–420 (2006).

Artikel CAS PubMed Google Scholar

Steinbrecher, T. & Labahn, A. Auf dem Weg zu genauen Berechnungen der freien Energie in Ligandenproteinbindungsstudien. Curr. Med. Chem. 17, 767–785 (2010).

Artikel CAS PubMed Google Scholar

Meng, Z. & Xia, K. Persistentes spektralbasiertes maschinelles Lernen (PerSpect ML) zur Vorhersage der Protein-Ligand-Bindungsaffinität. Wissenschaft. Adv. 7, eabc5329 (2021).

Artikel CAS PubMed PubMed Central Google Scholar

Pan, X. et al. AA-Score: eine neue Bewertungsfunktion, die auf der Aminosäure-spezifischen Interaktion für das molekulare Andocken basiert. J. Chem. Inf. Modell. 62, 2499–2509 (2022).

Artikel CAS PubMed Google Scholar

Su, M. et al. Vergleichende Bewertung von Bewertungsfunktionen: das CASF-2016-Update. J. Chem. Inf. Modell. 59, 895–913 (2018).

Artikel PubMed Google Scholar

Jiménez, J., Skalic, M., Martinez-Rosell, G. & De Fabritiis, G. KDEEP: Vorhersage der absoluten Protein-Ligand-Bindungsaffinität über 3D-Faltungs-Neuronale Netze. J. Chem. Inf. Modell. 58, 287–296 (2018).

Artikel PubMed Google Scholar

Wójcikowski, M., Kukiełka, M., Stepniewska-Dziubinska, MM & Siedlecki, P. Entwicklung eines Protein-Ligand-Extended-Connectivity-Fingerabdrucks (PLEC) und seine Anwendung für Bindungsaffinitätsvorhersagen. Bioinformatik 35, 1334–1341 (2019).

Artikel PubMed Google Scholar

Stepniewska-Dziubinska, MM, Zielenkiewicz, P. & Siedlecki, P. Entwicklung und Evaluierung eines Deep-Learning-Modells zur Vorhersage der Protein-Ligand-Bindungsaffinität. Bioinformatik 34, 3666–3674 (2018).

Artikel CAS PubMed PubMed Central Google Scholar

Jones, D. et al. Verbesserte Vorhersage der Protein-Ligand-Bindungsaffinität mit strukturbasierter Tiefenfusionsinferenz. J. Chem. Inf. Modell. 61, 1583–1592 (2021).

Artikel CAS PubMed Google Scholar

Boyles, F., Deane, CM & Morris, GM Vom Liganden lernen: Verwendung ligandenbasierter Funktionen zur Verbesserung der Vorhersage der Bindungsaffinität. Bioinformatik 36, 758–764 (2020).

Artikel CAS PubMed Google Scholar

Wang, M., Cang, Z. & Wei, G.-W. Ein topologiebasierter Netzwerkbaum zur Vorhersage von Änderungen der Protein-Protein-Bindungsaffinität nach einer Mutation. Nat. Mach. Intel. 2, 116–123 (2020).

Artikel PubMed PubMed Central Google Scholar

Liu, J. Chem. Inf. Modell. 62, 3961–3969 (2022).

Artikel CAS PubMed Google Scholar

Liu, Z. et al. PDB-weite Sammlung von Bindungsdaten: aktueller Status der pdbbind-Datenbank. Bioinformatik 31, 405–412 (2015).

Artikel CAS PubMed Google Scholar

Rodrigues, CH, Pires, DE & Ascher, DB PDCSM-PPI: Verwendung graphbasierter Signaturen zur Identifizierung von Protein-Protein-Interaktionsinhibitoren. J. Chem. Inf. Modell. 61, 5438–5445 (2021).

Artikel CAS PubMed Google Scholar

Jubb, H., Blundell, TL & Ascher, DB Flexibilität und kleine Taschen an Protein-Protein-Grenzflächen: neue Erkenntnisse zur Arzneimittelverfügbarkeit. Prog. Biophys. Mol. Biol. 119, 2–9 (2015).

Artikel CAS PubMed PubMed Central Google Scholar

Laraia, L., McKenzie, G., Spring, DR, Venkitaraman, AR & Huggins, DJ Überwindung chemischer, biologischer und rechnerischer Herausforderungen bei der Entwicklung von Inhibitoren, die auf Protein-Protein-Wechselwirkungen abzielen. Chem. Biol. 22, 689–703 (2015).

Artikel CAS PubMed PubMed Central Google Scholar

Watkins, AM & Arora, PS Strukturbasierte Hemmung von Protein-Protein-Wechselwirkungen. EUR. J. Med. Chem. 94, 480–488 (2015).

Artikel CAS PubMed Google Scholar

Sun, T., Zhou, B., Lai, L. & Pei, J. Sequenzbasierte Vorhersage der Protein-Protein-Interaktion unter Verwendung eines Deep-Learning-Algorithmus. BMC Bioinform. 18, 1–8 (2017).

Artikel CAS Google Scholar

Song, B. et al. Das Erlernen räumlicher Strukturen von Proteinen verbessert die Vorhersage von Protein-Protein-Interaktionen. Knapp. Bioinform. 23, bbab558 (2022).

Hozumi, Y., Wang, R. & Wei, G.-W. CCP: korreliertes Clustering und Projektion zur Dimensionsreduktion. Vorabdruck bei arXiv https://arxiv.org/abs/2206.04189 (2022).

Ripphausen, P., Nisius, B. & Bajorath, J. Modernstes ligandenbasiertes virtuelles Screening. Arzneimittelentdeckung. Heute 16, 372–376 (2011).

Artikel CAS PubMed Google Scholar

Luque Ruiz, I. & Gómez-Nieto, M. Á. Untersuchung der Modellierbarkeit von Datensätzen: Modellierbarkeit, Rivalität und gewichtete Modellierbarkeitsindizes. J. Chem. Inf. Modell. 58, 1798–1814 (2018).

Artikel CAS PubMed Google Scholar

Marcou, G., Horvath, D. & Varnek, A. Kernel-Zielausrichtungsparameter: ein neues Modellierbarkeitsmaß für Regressionsaufgaben. J. Chem. Inf. Modell. 56, 6–11 (2016).

Artikel CAS PubMed Google Scholar

Bernett, J., Blumenthal, DB & List, M. Die Black Box der tiefgreifenden sequenzbasierten Vorhersage von Protein-Protein-Interaktionen knacken. Vorabdruck bei bioRxiv https://doi.org/10.1101/2023.01.18.524543 (2023).

Qiu, Y. & Wei, G.-W. Persistentes spektraltheoriebasiertes Protein-Engineering. Nat. Berechnen. Wissenschaft. 3, 149–163 (2023).

Xenarios, I. et al. Dip, die Datenbank interagierender Proteine: ein Forschungstool zur Untersuchung zellulärer Netzwerke von Proteininteraktionen. Nukleinsäuren Res. 30, 303–305 (2002).

Artikel CAS PubMed PubMed Central Google Scholar

Snoek, J., Larochelle, H. & Adams, RP Praktische bayesianische Optimierung maschineller Lernalgorithmen. Adv. neuronale Inf. Verfahren. syst. 25, (2012).

Williams, CK & Rasmussen, CE Gaussian Processes for Machine Learning, Bd. 2 (MIT Press, 2006).

Srinivas, N., Krause, A., Kakade, SM & Seeger, M. Gaußsche Prozessoptimierung im Banditenumfeld: kein Bedauern und experimentelles Design. Vorabdruck arXiv https://arxiv.org/abs/0912.3995 (2009).

Wang, Y. et al. PCVMZM: Verwendung des probabilistischen Klassifizierungsvektormaschinenmodells in Kombination mit einem Zernike-Momente-Deskriptor zur Vorhersage von Protein-Protein-Wechselwirkungen aus Proteinsequenzen. Int. J. Mol. Wissenschaft. 18, 1029 (2017).

Artikel CAS PubMed PubMed Central Google Scholar

Referenzen herunterladen

Diese Arbeit wurde teilweise durch die NIH-Zuschüsse R01GM126189 und R01AI164266, die NSF-Zuschüsse DMS-2052983, DMS-1761320 und IIS-1900473, die NASA-Zuschüsse 80NSSC21M0023, die MSU Foundation, Bristol-Myers Squibb 65109 und Pfizer unterstützt.

Fakultät für Mathematik, Michigan State University, East Lansing, MI, 48824, USA

Li Shen, Hongsong Feng, Yuchi Qiu und Guo-Wei Wei

Fakultät für Elektrotechnik und Informationstechnik, Michigan State University, East Lansing, MI, 48824, USA

Guo-Wei Wei

Abteilung für Biochemie und Molekularbiologie, Michigan State University, East Lansing, MI, 48824, USA

Guo-Wei Wei

Sie können diesen Autor auch in PubMed Google Scholar suchen

Sie können diesen Autor auch in PubMed Google Scholar suchen

Sie können diesen Autor auch in PubMed Google Scholar suchen

Sie können diesen Autor auch in PubMed Google Scholar suchen

Alle Autoren haben dieses Werk konzipiert und zum ursprünglichen Entwurf, zur Überprüfung und Bearbeitung beigetragen. LS, HF und YQ führten Experimente durch und analysierten Daten. G.-WW stellte Aufsicht und Ressourcen zur Verfügung und akquirierte Fördermittel.

Korrespondenz mit Guo-Wei Wei.

Die Autoren geben an, dass keine Interessenkonflikte bestehen.

Communications Biology dankt Lurong Pan und den anderen, anonymen Gutachtern für ihren Beitrag zum Peer-Review dieser Arbeit. Hauptverantwortliche Redakteure: Yun Lyna Luo, Gene Chong. Eine Peer-Review-Datei ist verfügbar.

Anmerkung des Herausgebers Springer Nature bleibt hinsichtlich der Zuständigkeitsansprüche in veröffentlichten Karten und institutionellen Zugehörigkeiten neutral.

Open Access Dieser Artikel ist unter einer Creative Commons Attribution 4.0 International License lizenziert, die die Nutzung, Weitergabe, Anpassung, Verbreitung und Reproduktion in jedem Medium oder Format erlaubt, sofern Sie den/die ursprünglichen Autor(en) und die Quelle angemessen angeben. Geben Sie einen Link zur Creative Commons-Lizenz an und geben Sie an, ob Änderungen vorgenommen wurden. Die Bilder oder anderes Material Dritter in diesem Artikel sind in der Creative Commons-Lizenz des Artikels enthalten, sofern in der Quellenangabe für das Material nichts anderes angegeben ist. Wenn Material nicht in der Creative-Commons-Lizenz des Artikels enthalten ist und Ihre beabsichtigte Nutzung nicht durch gesetzliche Vorschriften zulässig ist oder über die zulässige Nutzung hinausgeht, müssen Sie die Genehmigung direkt vom Urheberrechtsinhaber einholen. Um eine Kopie dieser Lizenz anzuzeigen, besuchen Sie http://creativecommons.org/licenses/by/4.0/.

Nachdrucke und Genehmigungen

Shen, L., Feng, H., Qiu, Y. et al. SVSBI: Sequenzbasiertes virtuelles Screening biomolekularer Interaktionen. Commun Biol 6, 536 (2023). https://doi.org/10.1038/s42003-023-04866-3

Zitat herunterladen

Eingegangen: 10. Januar 2023

Angenommen: 24. April 2023

Veröffentlicht: 18. Mai 2023

DOI: https://doi.org/10.1038/s42003-023-04866-3

Jeder, mit dem Sie den folgenden Link teilen, kann diesen Inhalt lesen:

Leider ist für diesen Artikel derzeit kein Link zum Teilen verfügbar.

Bereitgestellt von der Content-Sharing-Initiative Springer Nature SharedIt

Durch das Absenden eines Kommentars erklären Sie sich damit einverstanden, unsere Nutzungsbedingungen und Community-Richtlinien einzuhalten. Wenn Sie etwas als missbräuchlich empfinden oder etwas nicht unseren Bedingungen oder Richtlinien entspricht, kennzeichnen Sie es bitte als unangemessen.