banner
Nachrichtenzentrum
Artikuliert und kompetent in ihrem Fachwissen.

Ein Vision-Transformator zum Dekodieren der Chirurgenaktivität aus Operationsvideos

Mar 29, 2023

Nature Biomedical Engineering (2023)Diesen Artikel zitieren

6413 Zugriffe

1 Zitate

129 Altmetrisch

Details zu den Metriken

Die intraoperative Tätigkeit eines Chirurgen hat erheblichen Einfluss auf die postoperativen Ergebnisse. Allerdings sind bei den meisten chirurgischen Eingriffen die Einzelheiten der intraoperativen chirurgischen Maßnahmen, die sehr unterschiedlich sein können, nicht gut verstanden. Hier berichten wir über ein maschinelles Lernsystem, das einen Vision-Transformer und überwachtes kontrastives Lernen zur Dekodierung von Elementen intraoperativer chirurgischer Aktivitäten aus Videos nutzt, die üblicherweise bei Roboteroperationen gesammelt werden. Das System identifizierte genau chirurgische Schritte, vom Chirurgen durchgeführte Aktionen, die Qualität dieser Aktionen und den relativen Beitrag einzelner Videobilder zur Dekodierung der Aktionen. Durch umfangreiche Tests mit Daten aus drei verschiedenen Krankenhäusern auf zwei verschiedenen Kontinenten zeigen wir, dass das System auf Videos, Chirurgen, Krankenhäuser und chirurgische Eingriffe verallgemeinert werden kann und dass es Informationen zu chirurgischen Gesten und Fertigkeiten aus nicht kommentierten Videos liefern kann. Die Dekodierung intraoperativer Aktivitäten mithilfe präziser maschineller Lernsysteme könnte genutzt werden, um Chirurgen Feedback zu ihren operativen Fähigkeiten zu geben und die Identifizierung eines optimalen chirurgischen Verhaltens sowie die Untersuchung der Beziehungen zwischen intraoperativen Faktoren und postoperativen Ergebnissen zu ermöglichen.

Das übergeordnete Ziel der Operation besteht darin, die postoperativen Ergebnisse für den Patienten zu verbessern1,2. Kürzlich wurde gezeigt, dass solche Ergebnisse stark von der intraoperativen chirurgischen Aktivität3 beeinflusst werden, d. h. davon, welche Aktionen ein Chirurg während eines chirurgischen Eingriffs ausführt und wie gut diese Aktionen ausgeführt werden. Für die überwiegende Mehrheit der chirurgischen Eingriffe ist jedoch ein detailliertes Verständnis der intraoperativen chirurgischen Aktivität noch nicht gegeben. Dieses Szenario kommt in anderen Bereichen der Medizin nur allzu häufig vor, wo die Treiber bestimmter Patientenergebnisse entweder noch nicht entdeckt wurden oder sich anders manifestieren. Der Status quo in der Chirurgie ist, dass die intraoperative chirurgische Aktivität einfach nicht gemessen wird. Dieser Mangel an Messungen macht es schwierig, die Variabilität in der Art und Weise, wie chirurgische Eingriffe im Laufe der Zeit, von Chirurgen und Krankenhäusern durchgeführt werden, zu erfassen, Hypothesen zu testen, die intraoperative Aktivitäten mit Patientenergebnissen in Verbindung bringen, und Chirurgen Feedback zu ihrer Operationstechnik zu geben.

Intraoperative chirurgische Aktivitäten können aus Videos entschlüsselt werden, die üblicherweise bei robotergestützten chirurgischen Eingriffen gesammelt werden. Eine solche Dekodierung gibt Aufschluss darüber, welche Verfahrensschritte (z. B. Gewebesektion und Nähen) im Laufe der Zeit durchgeführt werden, wie diese Schritte vom operierenden Chirurgen ausgeführt werden (z. B. durch eine Reihe diskreter Aktionen oder Gesten) und mit welcher Qualität sie ausgeführt werden ausgeführt werden (also die Beherrschung einer Fertigkeit; Abb. 1). Wenn ein Video derzeit entschlüsselt werden müsste, wäre dies eine manuelle retrospektive Analyse durch einen erfahrenen Chirurgen. Dieser vom Menschen gesteuerte Ansatz ist jedoch subjektiv, da er von der Interpretation der Aktivität durch den überprüfenden Chirurgen abhängt. unzuverlässig, da davon ausgegangen wird, dass ein Chirurg über alle intraoperativen Aktivitäten informiert ist; und nicht skalierbar, da die Anwesenheit eines erfahrenen Chirurgen sowie ein großer Zeit- und Arbeitsaufwand erforderlich sind. Diese Annahmen sind insbesondere dann unangemessen, wenn erfahrene Chirurgen nicht verfügbar sind (z. B. in ressourcenarmen Umgebungen) und bereits unter Zeitdruck stehen. Daher besteht ein dringender Bedarf, intraoperative chirurgische Aktivitäten auf objektive, zuverlässige und skalierbare Weise zu entschlüsseln.

a: Chirurgische Videos, die üblicherweise bei Roboteroperationen gesammelt werden, werden über SAIS in mehrere Elemente der intraoperativen chirurgischen Aktivität entschlüsselt: Was wird von einem Chirurgen ausgeführt, z. B. die Naht-Unterphasen der Nadelhandhabung, des Einführens der Nadel und des Zurückziehens der Nadel, und wie wird diese Aktivität ausgeführt? eines Chirurgen, beispielsweise durch diskrete Gesten und auf unterschiedlichen Fähigkeitsniveaus. b: SAIS ist ein einheitliches System, da dieselbe Architektur zur unabhängigen Dekodierung verschiedener Elemente chirurgischer Aktivitäten verwendet werden kann, von der Subphasenerkennung bis zur Gestenklassifizierung und Fähigkeitsbewertung.

Angesichts dieser Einschränkungen wurden neue Technologien wie künstliche Intelligenz (KI) verwendet, um chirurgische Aktivitäten4, Gesten5, das Können des Chirurgen6,7 und Instrumentenbewegungen8 ausschließlich anhand von Videos zu identifizieren. Diese Technologien sind jedoch darauf beschränkt, jeweils nur ein einzelnes Element der intraoperativen chirurgischen Aktivität zu dekodieren (z. B. nur Gesten), was ihren Nutzen einschränkt. Diese Technologien werden auch selten gründlich evaluiert, wobei die Frage offen bleibt, ob sie sich auf neue Umgebungen übertragen lassen oder dort gut funktionieren, beispielsweise mit bisher unbekannten Videos von verschiedenen Chirurgen, chirurgischen Eingriffen und Krankenhäusern. Eine solch strenge Bewertung ist entscheidend für die Entwicklung sicherer und vertrauenswürdiger KI-Systeme.

In dieser Studie schlagen wir ein einheitliches chirurgisches KI-System (SAIS) vor, das mehrere Elemente intraoperativer chirurgischer Aktivitäten aus während der Operation gesammelten Videos dekodiert. Durch eine strenge Auswertung von Daten aus drei Krankenhäusern zeigen wir, dass SAIS mehrere Elemente der intraoperativen Aktivität zuverlässig dekodiert, von den durchgeführten chirurgischen Schritten bis hin zu den ausgeführten Gesten und der Qualität, mit der sie von einem Chirurgen ausgeführt werden. Diese zuverlässige Dekodierung gilt unabhängig davon, ob es sich bei den Videos um unterschiedliche chirurgische Eingriffe und von verschiedenen Chirurgen in verschiedenen Krankenhäusern handelt. Wir zeigen auch, dass SAIS solche Elemente zuverlässiger dekodiert als hochmoderne KI-Systeme wie Inception3D (I3D; Ref. 6), die entwickelt wurden, um nur ein einzelnes Element (z. B. die Fähigkeiten des Chirurgen) zu dekodieren. Wir zeigen auch, dass SAIS durch den Einsatz in Operationsvideos ohne menschliche Anmerkungen Informationen über intraoperative chirurgische Aktivitäten liefert, beispielsweise deren Qualität im Laufe der Zeit, die einem Chirurgen sonst nicht zur Verfügung gestanden hätten. Durch eine qualitative Bewertung zeigen wir, dass SAIS eine genaue Begründung für die Entschlüsselung intraoperativer Aktivitäten liefert. Mit diesen Funktionen veranschaulichen wir, wie SAIS verwendet werden kann, um Chirurgen umsetzbares Feedback zur Modulation ihres intraoperativen chirurgischen Verhaltens zu geben.

Wir haben das „Was“ der Operation entschlüsselt, indem wir SAIS beauftragt haben, zwischen drei chirurgischen Unterphasen zu unterscheiden: Nadelhandhabung, Nadeleintreiben und Nadelrückzug (Abb. 1). Für alle Experimente haben wir SAIS ausschließlich anhand von Videoproben der University of Southern California (USC) trainiert (Tabelle 1). Eine Beschreibung der chirurgischen Verfahren und Unterphasen finden Sie unter Methoden.

Wir haben SAIS für den Testsatz von Videoproben von USC eingesetzt und präsentieren die ROC-Kurven (Receiver Operating Characteristic), geschichtet nach den drei Unterphasen (Abb. 2a). Wir haben beobachtet, dass SAIS chirurgische Unterphasen mit einer Fläche unter der Receiver Operating Characteristic Curve (AUC) von 0,925, 0,945 und 0,951 für das Eintreiben der Nadel, die Nadelhandhabung bzw. das Zurückziehen der Nadel zuverlässig dekodiert. Wir haben außerdem herausgefunden, dass SAIS die hochrangigen chirurgischen Schritte wie Nähen und Dissektion bequem entschlüsseln kann (Ergänzende Anmerkung 3 und ergänzende Abbildung 2).

a–c, SAIS wird ausschließlich anhand von Videobeispielen von USC trainiert und anhand von Videobeispielen von USC (a), SAH (b) und HMH (c) ausgewertet. Die Ergebnisse werden als Durchschnitt (±1 Standardabweichung) von zehn Monte-Carlo-Kreuzvalidierungsschritten angezeigt. d) Wir haben Varianten von SAIS trainiert, um den Grenznutzen seiner Komponenten auf seinen PPV zu quantifizieren. Wir haben die Testzeiterweiterung („ohne TTA“), RGB-Frames („ohne RGB“), Flusskarten („ohne Fluss“) und den Selbstaufmerksamkeitsmechanismus („ohne SA“) entfernt. Wir haben herausgefunden, dass der Aufmerksamkeitsmechanismus und die Eingabe mehrerer Modalitäten (RGB und Fluss) den größten Beitrag zum PPV leisten. e: Wir haben SAIS mit einem I3D-Modell verglichen, als wir Unterphasen aus ganzen VUA-Videos ohne menschliche Aufsicht dekodierten. Jedes Kästchen spiegelt die Quartile der Ergebnisse wider und die Whiskers erstrecken sich auf das 1,5-fache des Interquartilbereichs.

Um festzustellen, ob SAIS auf unsichtbare Chirurgen in verschiedenen Krankenhäusern übertragen werden kann, haben wir es anhand von Videoproben aus dem St. Antonius Hospital (SAH) (Abb. 2b) und dem Houston Methodist Hospital (HMH) (Abb. 2c) eingesetzt. Wir fanden heraus, dass SAIS weiterhin mit einer AUC von ≥ 0,857 für alle Unterphasen und in allen Krankenhäusern übertraf.

Wir haben SAIS eingesetzt, um Unterphasen aus ganzen Videos des Nahtschritts der vesiko-urethralen Anastomose (VUA) (20 Minuten lang) ohne menschliche Aufsicht zu dekodieren (Abschnitt „Inferenz“ in „Methoden“). Wir präsentieren den F110-Score (Abb. 2e), eine häufig gemeldete Metrik9, und kontextualisieren seine Leistung im Vergleich zu der eines hochmodernen I3D-Netzwerks6. Wir haben festgestellt, dass SAIS chirurgische Unterphasen zuverlässiger dekodiert als I3D, wobei diese Modelle einen F110 von 50 bzw. 40 erreichen.

Um den Grad, in dem die Komponenten von SAIS zu seiner Gesamtleistung beitrugen, besser einschätzen zu können, haben wir Varianten von SAIS trainiert, nachdem wir diese Komponenten entfernt oder modifiziert hatten (Ablationsabschnitt in „Methoden“) und ihren positiven Vorhersagewert (PPV) bei der Dekodierung des chirurgischen Eingriffs angegeben Subphasen (Abb. 2d).

Wir fanden heraus, dass der Selbstaufmerksamkeitsmechanismus (SA) den größten Beitrag zur Leistung von SAIS leistete, wobei sein Fehlen zu einem ∆PPV von etwa –20 führte. Dieser Befund impliziert, dass die Erfassung der Beziehung zwischen und der zeitlichen Reihenfolge von Frames für die Dekodierung intraoperativer chirurgischer Aktivitäten von entscheidender Bedeutung ist. Wir haben auch beobachtet, dass die Eingabe mit zwei Modalitäten (Rot-Grün-Blau oder RGB, Frames und Fluss) einen größeren Beitrag zur Leistung leistet als die alleinige Verwendung einer der beiden Datenmodalitäten. Durch das Entfernen von RGB-Frames („ohne RGB“) oder optischem Fluss („ohne Fluss“) zeigte das Modell einen durchschnittlichen ∆PPV von etwa –3 im Vergleich zur Basisimplementierung. Ein solcher Befund legt nahe, dass diese beiden Modalitäten einander ergänzen. Daher haben wir für alle nachfolgenden Experimente das Basismodell (SAIS) verwendet.

Im vorherigen Abschnitt haben wir die Fähigkeit von SAIS gezeigt, chirurgische Unterphasen (das „Was“ der Operation) zu entschlüsseln und auf Videoproben von unbekannten Chirurgen in verschiedenen Krankenhäusern zu verallgemeinern, und haben außerdem den marginalen Nutzen seiner Komponenten mithilfe einer Ablationsstudie quantifiziert. In diesem Abschnitt untersuchen wir die Fähigkeit von SAIS, chirurgische Gesten (das „Wie“ der Operation) zu entschlüsseln, die sowohl beim Nähen von Gewebe als auch bei Präparationsaktivitäten durchgeführt werden (die Beschreibung von Gesten und Aktivitäten finden Sie unter „Methoden“). Für die Nähaktivität (VUA) haben wir SAIS darauf trainiert, zwischen vier einzelnen Nähgesten zu unterscheiden: rechte Vorhand unter (R1), rechte Vorhand über (R2), linke Vorhand unter (L1) und kombinierte Vorhand über (C1). Für die Dissektionsaktivität, bekannt als Nervenschonung (NS), haben wir SAIS darauf trainiert, zwischen sechs diskreten Dissektionsgesten zu unterscheiden: Aufschnitt (c), Haken (h), Clip (k), Kamerabewegung (m), Schälen (p). und Rückzug (r). Wir weisen darauf hin, dass die Schulung ausschließlich anhand von Videobeispielen des USC durchgeführt wurde.

Wir haben SAIS für den Testsatz von Videoproben von USC eingesetzt und präsentieren die ROC-Kurven geschichtet nach den einzelnen Nahtgesten (Abb. 3a) und Dissektionsgesten (Abb. 3b). Hier gibt es zwei Hauptaspekte. Erstens haben wir beobachtet, dass sich SAIS in bisher unbekannten Videos gut auf Naht- und Dissektionsgesten übertragen lässt. Dies zeigt sich an der hohen AUC, die SAIS über alle Gesten hinweg erreicht. Beispielsweise betrug die AUC bei der Nahtaktivität 0,837 bzw. 0,763 für die rechte Vorhand-Unter-Geste (R1) bzw. die kombinierte Vorhand-Über-Geste (C1). Bei der Dissektionsaktivität betrug die AUC 0,974 bzw. 0,909 für die Gesten „Clip“ (k) und „Kamerabewegung“ (m). Diese Erkenntnisse verheißen Gutes für den möglichen Einsatz von SAIS bei noch nie gesehenen Videos, für die keine Ground-Truth-Gestenanmerkungen verfügbar sind, ein Weg, den wir in einem späteren Abschnitt erkunden werden. Zweitens haben wir festgestellt, dass die Leistung von SAIS je nach Geste unterschiedlich ist. Bei der Dissektionsaktivität betrug die AUC beispielsweise 0,701 bzw. 0,974 für die Gesten „Zurückziehen“ (r) und „Clip“ (k). Wir gehen davon aus, dass die starke Leistung von SAIS für Letzteres auf die klare visuelle Präsenz eines Clips im chirurgischen Sichtfeld zurückzuführen ist. Andererseits könnte die Allgegenwärtigkeit von Retraktionsgesten im chirurgischen Sichtfeld eine Ursache für die relativ geringere Fähigkeit von SAIS bei der Dekodierung von Retraktionen sein, wie im Folgenden erläutert wird. Die Retraktion wird oft als solche bezeichnet, wenn sie aktiv von der dominanten Hand des Chirurgen durchgeführt wird. Als zentrale Geste, die beispielsweise dazu dient, die Visualisierung des Operationsfeldes durch den Chirurgen zu verbessern, ergänzt das Zurückziehen jedoch häufig andere Gesten. Daher kann es gleichzeitig mit anderen Gesten des Modells auftreten und daher mit diesen verwechselt werden.

a: SAIS wird ausschließlich anhand der VUA-Daten von USC trainiert und bewertet. Die Nahtgesten sind rechte Vorhand unter (R1), rechte Vorhand über (R2), linke Vorhand unter (L1) und kombinierte Vorhand über (C1). b–d, SAIS wird ausschließlich auf den NS-Daten von USC trainiert und anhand der NS-Daten von USC (b), NS-Daten von SAH (c) und HD-Daten von USC (d) ausgewertet. Die Dissektionsgesten sind Aufschnitt (c), Haken (h), Clip (k), Kamerabewegung (m), Schälen (p) und Zurückziehen (r). Beachten Sie, dass Clips (k) während des HD-Schritts nicht verwendet werden. Die Ergebnisse werden als Durchschnitt (±1 Standardabweichung) von zehn Monte-Carlo-Kreuzvalidierungsschritten angezeigt. e, Anteil der vorhergesagten Gesten, die als korrekt (Präzision) identifiziert wurden, geschichtet auf der Grundlage der anatomischen Lage des neurovaskulären Bündels, in dem die Geste ausgeführt wird. f, Gestenprofil, bei dem jede Zeile eine bestimmte Geste darstellt und jede vertikale Linie das Auftreten dieser Geste zu einem bestimmten Zeitpunkt darstellt. SAIS identifizierte eine Abfolge von Gesten (Hook, Clip und Cold Cut), die im NS-Schritt von RARP-Verfahren erwartet wird, und entdeckte ein ungewöhnliches Verhalten einer überdurchschnittlich langen Kamerabewegungsgeste, die dem Entfernen, Überprüfen und erneuten Einfügen von entspricht die Kamera in den Körper des Patienten.

Um zu messen, inwieweit SAIS auf unsichtbare Chirurgen in einem bestimmten Krankenhaus übertragen werden kann, haben wir es auf Videoproben von SAH angewendet (Abb. 3c und Anzahl der Videoproben in Tabelle 1). Wir haben festgestellt, dass SAIS in einem solchen Umfeld weiterhin gute Leistungen erbringt. Beispielsweise betrug die AUC 0,899 bzw. 0,831 für die Gesten „Kamera bewegen“ (m) und „Clip“ (k). Wichtig ist, dass ein solches Ergebnis darauf hindeutet, dass SAIS zuverlässig auf Daten mit mehreren Variabilitätsquellen (Chirurg, Krankenhaus usw.) angewendet werden kann. Wir erwarteten eine leichte Verschlechterung der Leistung in dieser Umgebung im Vergleich zu dem Zeitpunkt, als SAIS auf Videobeispielen von USC eingesetzt wurde, und beobachteten dies tatsächlich. Beispielsweise betrug die AUC für die Kaltschnitt-Geste (c) in den USC- bzw. SAH-Daten 0,823 → 0,702. Dies war aufgrund der potenziellen Verschiebung der Verteilung der gesammelten Daten zwischen den beiden Krankenhäusern zu erwarten, die sich nachweislich negativ auf die Netzwerkleistung auswirkt10. Zu den möglichen Ursachen für eine Verteilungsverschiebung gehören Unterschiede in der Art und Weise, wie Chirurgen dieselben Gesten ausführen (z. B. unterschiedliche Techniken) und im chirurgischen Sichtfeld (z. B. klare Sicht mit weniger Blut). Darüber hinaus ist unsere Hypothese, warum sich diese Verschlechterung auf bestimmte Gesten (z. B. Aufschnitt) stärker auswirkt als auf andere (z. B. Clips), dass letztere eine geringere Variabilität aufweisen als erstere und daher durch das Modell leichter zu klassifizieren sind.

Während Videos verschiedener chirurgischer Eingriffe (z. B. Nephrektomie vs. Prostatektomie) beispielsweise Unterschiede in anatomischen Orientierungspunkten (z. B. Niere vs. Prostata) aufweisen können, spiegeln sie wahrscheinlich immer noch die gleichen Gewebesektionsgesten wider. Wir haben untersucht, inwieweit sich diese Variabilität auf die Fähigkeit von SAIS auswirkt, Dissektionsgesten zu entschlüsseln. Insbesondere haben wir SAIS an Videoproben eines anderen chirurgischen Schritts eingesetzt: Nierenhilusdissektion (HD), aus einem anderen chirurgischen Eingriff: robotergestützte partielle Nephrektomie (RAPN) (Abb. 3d und Tabelle 1 für die Anzahl der Videoproben). Wir haben beobachtet, dass es SAIS gelingt, sich adäquat auf einen unsichtbaren chirurgischen Eingriff zu verallgemeinern, auch wenn es erwartungsgemäß eine verminderte Leistung aufweist (0,615 < AUC < 0,858 über die Gesten hinweg). Interessanterweise erfuhr die Hakengeste (h) den größten Leistungsabfall (AUC 0,768 → 0,615). Wir vermuteten, dass dies auf den Unterschied im Gewebe zurückzuführen ist, in dem ein Haken angebracht wird. Während beim NS-Dissektionsschritt typischerweise ein Haken um die Prostatastiele (eine Region von Blutgefäßen) herum angebracht wird, wird er beim Nieren-HD-Schritt im Bindegewebe um die Nierenarterie und -vene herum durchgeführt, um Blut zu und von der Nierenarterie zu transportieren Niere bzw.

Um unsere Arbeit mit früheren Methoden zu kontextualisieren, haben wir SAIS auch darauf trainiert, zwischen Nahtgesten in zwei öffentlich zugänglichen Datensätzen zu unterscheiden: JHU-ISI Gesture and Skill Assessment Working Set (JIGSAWS)11 und Dorsal Vascular Complex University College London (DVC UCL)12 (Methoden). ). Während Ersteres Videos von Teilnehmern in einer Laborumgebung enthält, enthält Letzteres Videos von Chirurgen in einem bestimmten Schritt (dorsaler Gefäßkomplex) der lebenden robotergestützten radikalen Prostatektomie (RARP). Wir vergleichen die Genauigkeit von SAIS mit der der leistungsstärksten Methoden für JIGSAWS (Ergänzungstabelle 6) und DVC UCL (Ergänzungstabelle 7).

Wir haben festgestellt, dass SAIS, obwohl es nicht speziell für den JIGSAWS-Datensatz entwickelt wurde, mit den Basismethoden konkurrenzfähig ist (Ergänzungstabelle 6). Beispielsweise erreichte die videobasierte Methode mit der besten Leistung eine Genauigkeit von 90,1, während SAIS eine Genauigkeit von 87,5 erreichte. Es ist denkbar, dass die Integration zusätzlicher Modalitäten und datensatzspezifischer Änderungen in SAIS seine Leistung weiter verbessern könnte. Was den DVC-UCL-Datensatz betrifft, folgten wir einem anderen Bewertungsprotokoll als dem ursprünglich berichteten12 (siehe Implementierungsdetails zum Training von SAIS auf externen Videodatensätzen in Methoden), da nur ein Teilsatz des Datensatzes veröffentlicht wurde. Um die Modelle in dieser Umgebung fair zu vergleichen, quantifizieren wir ihre Verbesserung im Vergleich zu einem naiven System, das immer die Mehrheitsgeste vorhersagt (zufällig) (Ergänzungstabelle 7). Wir haben festgestellt, dass SAIS im Vergleich zur hochmodernen Methode (MA-TCN) für den DVC-UCL-Datensatz zu einer größeren Leistungsverbesserung führt. Dies wird durch die dreifache bzw. vierfache Steigerung der Genauigkeit deutlich, die MA-TCN und SAIS im Vergleich zu einem naiven System erreichen.

Eines der ultimativen, aber ehrgeizigen Ziele von SAIS besteht darin, die Aktivitäten des Chirurgen aus einem gesamten Operationsvideo ohne Anmerkungen und mit minimaler menschlicher Aufsicht zu entschlüsseln. Dies würde den Chirurgen Informationen liefern, die ihnen sonst weniger leicht zugänglich wären. Um dieses Ziel zu erreichen und als Beispiel, haben wir SAIS eingesetzt, um die Dissektionsgesten ganzer NS-Videos von USC (20–30 Minuten Dauer) zu entschlüsseln, denen es noch nie ausgesetzt war (Methoden).

Um diese Dekodierung auszuwerten, haben wir zufällig eine von SAIS erstellte Vorhersage für jede Dissektionsgestenkategorie in jedem Video ausgewählt (insgesamt n = 800 Gestenvorhersagen). Dadurch wurde sichergestellt, dass wir Vorhersagen aus einem repräsentativeren und vielfältigeren Satz von Videos abgerufen haben, wodurch die Generalisierbarkeit unserer Ergebnisse verbessert wurde. Wir berichten über die Präzision dieser Vorhersagen, nachdem wir manuell bestätigt haben, ob die entsprechenden Videobeispiele die richtige Geste widerspiegelten (Abb. 3e). Wir haben diese Präzision anhand der anatomischen Lage des neurovaskulären Bündels relativ zur Prostatadrüse weiter geschichtet. Dadurch konnten wir feststellen, ob SAIS (a) eine unzuverlässige Abkürzung zum Dekodieren von Gesten lernte, indem es anatomische Orientierungspunkte mit bestimmten Gesten verknüpfte, was unerwünscht ist, und (b) robust gegenüber Änderungen im Kamerawinkel und der Bewegungsrichtung der Geste war. Bei letzterem ist zu beachten, dass bei Operationen am linken Gefäßnervenbündel häufig das rechte Instrument verwendet und nach links im Sichtfeld bewegt wird (Abb. 3f, obere Bildreihe). Bei Operationen am rechten Gefäß-Nerven-Bündel ist das Gegenteil der Fall.

Wir haben festgestellt, dass SAIS wahrscheinlich keine anatomiespezifische Abkürzung zum Dekodieren von Gesten lernt und robust gegenüber der Bewegungsrichtung der Geste ist. Dies wird durch die ähnliche Leistung deutlich, wenn es auf Videoproben von Gesten angewendet wird, die im linken und rechten neurovaskulären Bündel ausgeführt werden. Beispielsweise zeigten Vorhersagen von Hakengesten (h) an beiden anatomischen Stellen eine Genauigkeit von ~0,75. Wir haben auch beobachtet, dass SAIS eine zusätzliche Gestenkategorie identifizieren konnte, die über die ursprünglich trainierten Gesten hinausgeht. Bei der manuellen Untersuchung der Videobeispiele in der Gestenkategorie „Kaltschnitt (c)“ mit scheinbar geringer Präzision stellten wir fest, dass SAIS eine eindeutige Schneidgeste, auch „Heißschnitt“ genannt, identifizierte, bei der im Gegensatz zu einem Kaltschnitt Wärme angewendet wird /Energie zum Schneiden von Gewebe.

Um die Leistung von SAIS qualitativ zu bewerten, präsentieren wir seine Gestenvorhersagen für ein einzelnes 30-minütiges NS-Video (Abb. 3f). Jede Zeile repräsentiert eine bestimmte Geste und jede vertikale Linie repräsentiert das Auftreten dieser Geste zu einem bestimmten Zeitpunkt. Wir stellten fest, dass SAIS zwar nicht explizit über die Beziehung zwischen Gesten informiert war, aber dennoch ein Muster von Gesten im Laufe der Zeit korrekt identifizierte, das typisch für den NS-Schritt bei chirurgischen RARP-Eingriffen ist. Dieses Muster besteht aus (a) Haken, (b) Clip und (c) kaltem Schnitt und wird durchgeführt, um das neurovaskuläre Bündel von der Prostata zu trennen und gleichzeitig das Ausmaß der Blutung, die der Patient erleidet, zu minimieren.

Wir haben auch herausgefunden, dass SAIS Ausreißerverhalten erkennen kann, obwohl es nicht explizit dafür geschult wurde. Insbesondere identifizierte SAIS ein zusammenhängendes 60-s-Intervall, in dem eine Kamerabewegung (m) durchgeführt wurde und das 60-mal länger ist als die durchschnittliche Dauer (1 s) einer Kamerabewegung. Da wir ein ungewöhnliches Verhalten vermuteten, untersuchten wir dieses Intervall und stellten fest, dass es mit der Entfernung der Kamera aus dem Körper des Patienten, ihrer Inspektion durch den operierenden Chirurgen und ihrem erneuten Einsetzen in den Körper des Patienten zusammenfiel.

An diesem Punkt haben wir gezeigt, dass SAIS als einheitliches KI-System unabhängig eine chirurgische Subphasenerkennung (das Was der Operation) und eine Gestenklassifizierung (das Wie der Operation) erreichen und dabei auf Proben aus ungesehenen Videos verallgemeinern kann. In diesem Abschnitt untersuchen wir die Fähigkeit von SAIS, Fähigkeitsbewertungen aus chirurgischen Videos zu entschlüsseln. Dabei befassen wir uns auch mit dem „Wie“ einer Operation, allerdings aus der Perspektive des Könnens des Chirurgen. Wir haben die Qualität bewertet, mit der zwei Unterphasen des Nähens von Chirurgen ausgeführt wurden: Nadelhandhabung und Nadeleintreib (Abb. 1a, rechte Spalte). Wir haben SAIS darin geschult, das Fähigkeitsniveau dieser Aktivitäten anhand von Videobeispielen ausschließlich von USC zu entschlüsseln.

Wir haben SAIS auf dem Testsatz von Videobeispielen von USC eingesetzt und präsentieren die ROC-Kurven, die mit den Fähigkeiten der Nadelhandhabung (Abb. 4a) und des Nadeltreibens (Abb. 4b) verbunden sind. Wir haben herausgefunden, dass SAIS das Fähigkeitsniveau der chirurgischen Tätigkeit zuverlässig dekodieren kann und eine AUC von 0,849 bzw. 0,821 für die Nadelhandhabung und die Fahrtätigkeit erreicht.

a,b, Wir schulen SAIS anhand von Videobeispielen ausschließlich von USC, um das Fähigkeitsniveau der Nadelhandhabung (a) und des Nadeltreibens (b) zu dekodieren, und wenden es an Videobeispielen von USC, SAH und HMH an. Die Ergebnisse sind ein Durchschnitt (±1 Standardabweichung) aus zehn Monte-Carlo-Kreuzvalidierungsschritten. c,d, Wir präsentieren auch die Aufmerksamkeit, die SAIS den Frames gewidmet hat, für ein Videobeispiel zur einfachen Handhabung von Nadeln (c) und zum Eintreiben von Nadeln (d). Bilder mit einem orangefarbenen Begrenzungsrahmen weisen darauf hin, dass SAIS die größte Aufmerksamkeit auf Rahmen legt, die visuelle Zustände darstellen, die mit den jeweiligen Bewertungskriterien für Fähigkeiten übereinstimmen. Diese Kriterien beziehen sich auf Nadelneupositionierungen bzw. Nadelanpassungen. e, Chirurgisches Kompetenzprofil, das die Fähigkeitsbewertung der Nadelhandhabung und des Nadeleintreibens anhand eines einzelnen chirurgischen Falles am SAH darstellt. f,g, Verhältnis der einfachen Nadelhandhabung (f) und des Nadeleintreibens (g) in jedem der 30 chirurgischen Fälle bei SAH. Die horizontalen gestrichelten Linien stellen den durchschnittlichen Anteil geringqualifizierter Aktivitäten am USC dar.

Wir haben SAIS auch für Videoproben von unsichtbaren Chirurgen in zwei Krankenhäusern eingesetzt: SAH und HMH (Abb. 4a, b und Tabelle 1 für die Anzahl der Videoproben). Dies ist eine herausfordernde Aufgabe, die erfordert, dass sich SAIS an die potenziell unterschiedliche Art und Weise anpasst, in der chirurgische Tätigkeiten von Chirurgen mit unterschiedlichen Präferenzen ausgeführt werden. Wir fanden heraus, dass SAIS weiterhin zuverlässig das Fähigkeitsniveau der Nadelhandhabung (SAH: AUC 0,880, HMH: AUC 0,804) und des Nadelfahrens (SAH: AUC 0,821, HMH: AUC 0,719) dekodiert. Die Fähigkeit von SAIS, konsistente Muster in allen Krankenhäusern zu erkennen, weist auf seinen potenziellen Nutzen für die objektive Beurteilung chirurgischer Fähigkeiten hin.

Varianten des 3D-Faltungs-Neuronalen Netzwerks (3D-CNN) haben modernste Ergebnisse bei der Dekodierung chirurgischer Fertigkeiten auf der Grundlage von Videos eines Laborversuchs6 oder eines Live-Eingriffs13 erzielt. Um den Nutzen von SAIS zu kontextualisieren, haben wir daher ein vorab trainiertes I3D-Modell optimiert (siehe Implementierungsdetails von I3D-Experimenten in Methoden), um das Fähigkeitsniveau der Nadelhandhabung und des Nadelantriebs zu dekodieren (Tabelle 2). Wir haben festgestellt, dass SAIS dieses hochmoderne Modell bei der Dekodierung des Qualifikationsniveaus chirurgischer Tätigkeiten in verschiedenen Krankenhäusern durchweg übertrifft. Bei der Dekodierung des Fähigkeitsniveaus der Nadelhandhabung erreichten SAIS und I3D beispielsweise eine AUC von 0,849 bzw. 0,681. Bei der Dekodierung des Fähigkeitsniveaus des Nadelfahrens erreichten sie eine AUC von 0,821 bzw. 0,630. Wir haben auch festgestellt, dass I3D empfindlicher auf die Videobeispiele reagiert, auf denen es trainiert wurde, und auf die Initialisierung seiner Parameter. Dies wird durch die höhere Standardabweichung seiner Leistung im Vergleich zu der von SAIS über die Falten hinweg deutlich (0,12 gegenüber 0,05 für das Nadeleintreiben an der USC). Eine solche Empfindlichkeit ist unerwünscht, da sie auf die mangelnde Robustheit und das unvorhersehbare Verhalten des Modells hinweist.

Für den sicheren Einsatz klinischer KI-Systeme ist häufig deren Interoperabilität erforderlich14. Wir wollten daher untersuchen, ob SAIS relevante visuelle Hinweise identifiziert und gleichzeitig das Qualifikationsniveau von Chirurgen entschlüsselt. Dies würde Praktikern des maschinellen Lernens die Gewissheit vermitteln, dass SAIS tatsächlich die entsprechenden Funktionen nutzt und daher im Falle eines zukünftigen Einsatzes in einem klinischen Umfeld vertrauenswürdig ist. Wir haben zunächst ein Videobeispiel abgerufen, das eine Aktivität mit geringer Qualifikation (Nadelhandhabung oder Nadelfahren) zeigt, die von SAIS korrekt klassifiziert wurde. Durch die Untersuchung der Aufmerksamkeit, die der Aufmerksamkeitsmechanismus auf solche Frames richtet (Architektur in Abb. 5), konnten wir die Bedeutung jedes Frames quantifizieren. Im Idealfall wird großen Wert auf Relevanzrahmen gelegt, wobei die Relevanz auf der Grundlage der zu bewertenden Fähigkeit definiert wird.

SAIS besteht aus zwei parallelen Streams, die unterschiedliche Eingabedatenmodalitäten verarbeiten: chirurgische RGB-Videos und optischer Fluss. Unabhängig von der Datenmodalität werden Merkmale aus jedem Frame über einen ViT extrahiert, der auf ImageNet selbstüberwacht vorab trainiert wurde. Merkmale von Videobildern werden dann in einen Stapel von Transformator-Encodern eingegeben, um ein modalitätsspezifisches Videomerkmal zu erhalten. Diese modalitätsspezifischen Merkmale werden aggregiert und an einen Projektionskopf weitergeleitet, um ein einzelnes Videomerkmal zu erhalten, das entweder vom relevanten Prototyp angezogen oder von ihm abgestoßen wird. Obwohl wir zwei Prototypen veranschaulichen, um binäre Kategorien widerzuspiegeln (Aktivität mit hoher Qualifikation versus Aktivität mit geringer Qualifikation), hätten wir C-Prototypen in einer Umgebung mit C-Kategorien.

Wir stellen die Aufmerksamkeit (dunkler ist wichtiger) vor, die den Bildern eines Videobeispiels zur Nadelhandhabung (Abb. 4c) und zum Eintreiben der Nadel (Abb. 4d) gewidmet wurde und das von SAIS korrekt als Darstellung geringer Fähigkeiten eingestuft wurde. Wir haben festgestellt, dass SAIS den Frames, die mit den Bewertungskriterien der Fertigkeiten übereinstimmen, die größte Aufmerksamkeit schenkt. Beispielsweise sehen wir bei der Aktivität zur Nadelhandhabung mit geringem Geschick, die darauf basiert, wie oft eine Nadel von einem Chirurgen erneut gegriffen wird, dass die wichtigsten Bilder den Zeitpunkt hervorheben, zu dem beide Roboterarme gleichzeitig die Nadel festhalten, was charakteristisch ist eines Nadel-Neupositionierungsmanövers (Abb. 4c). Mehrfache Wiederholungen dieses Verhaltens passen daher gut zur Bewertung der Nadelhandhabung aufgrund geringer Fertigkeiten. Darüber hinaus sehen wir, dass die Nadel zunächst durch das Gewebe getrieben, angepasst und dann vollständig zurückgezogen wurde (entgegen der Bewegungsrichtung), bevor sie erneut durch das Gewebe getrieben wurde, da das Einführen der Nadel aufgrund der Glätte ihrer Flugbahn als wenig handwerklich eingestuft wurde Gewebe Sekunden später (Abb. 4d). SAIS legte großen Wert auf das Herausziehen der Nadel und deren Einstellung und stimmte damit mit der Beurteilung des Nadelfahrens mit geringer Qualifikation überein. Im weiteren Sinne deuten diese erklärbaren Ergebnisse darauf hin, dass SAIS nicht nur in der Lage ist, Chirurgen eine zuverlässige, objektive und skalierbare Beurteilung der Fähigkeiten zu liefern, sondern auch die wichtigen Frames im Videobeispiel genau bestimmen kann. Diese Funktion befasst sich mit den Gründen, warum eine Bewertung geringer Fähigkeiten durchgeführt wurde, und ist ein gutes Zeichen für den Einsatz von SAIS, um Chirurgen gezieltes Feedback zu geben, wie sie ihre chirurgischen Fähigkeiten verbessern können.

Wir wollten zeigen, dass SAIS Chirurgen auch Informationen über chirurgische Fähigkeiten liefern kann, die ihnen sonst nicht zur Verfügung gestanden hätten. Zu diesem Zweck haben wir SAIS damit beauftragt, die Fähigkeiten aller von SAH gesammelten Videoproben zum Umgang mit Nadeln und zum Eintreiben von Nadeln zu bewerten.

Da die Nadelhandhabung (und das Eintreiben der Nadel) als Unterphase eines einzelnen Stichs betrachtet wird und bekannt ist, dass eine Folge von Stichen im Laufe der Zeit eine Nahtaktivität (z. B. VUA) in einem chirurgischen Fall ausmacht, kann SAIS ein Profil der chirurgischen Fähigkeiten für einen einzelnen Stich erstellen Koffer (Abb. 4e) für die Nadelhandhabung und den Nadelantrieb. Wir möchten betonen, dass dieses Profil, wenn es für chirurgische Fälle erstellt wird, die nicht mit fundierten Kompetenzbewertungen versehen sind, Chirurgen verwertbare Informationen liefert, die ihnen sonst nicht zur Verfügung gestanden hätten. Beispielsweise kann ein angehender Chirurg jetzt zeitliche Regionen mit geringer Stichaktivität identifizieren, diese möglicherweise mit anatomischen Stellen in Beziehung setzen und lernen, sich in Zukunft auf solche Regionen zu konzentrieren. Durch die Dekodierung von Profilen für verschiedene Fertigkeiten innerhalb desselben chirurgischen Falles kann ein Chirurg nun feststellen, ob eine unterdurchschnittliche Leistung bei einer Fertigkeit (z. B. Handhabung von Nadeln) mit der Leistung bei einer anderen Fertigkeit (z. B. Einführen von Nadeln) korreliert. Diese Einsicht wird einem Chirurgen dabei helfen, solche Fähigkeiten anzuwenden.

SAIS kann auch verwertbare Informationen liefern, die über die Ebene des einzelnen chirurgischen Falles hinausgehen. Um dies zu veranschaulichen, stellen wir für alle 30 chirurgischen Fälle aus SAH den Anteil der Aktionen zur Nadelhandhabung (Abb. 4f) und zum Eintreiben der Nadel (Abb. 4g) in einem chirurgischen Fall vor, die als gering qualifiziert eingestuft wurden. Wir präsentieren auch das durchschnittliche Verhältnis geringer Qualifikationen, das in Operationsvideos von USC beobachtet wurde. Mit diesen Informationen kann die Untergruppe der Fälle mit der geringsten Rate an Handlungen mit geringem Qualifikationsniveau identifiziert und den ausbildenden Chirurgen zu Ausbildungszwecken vorgelegt werden. Durch den Vergleich der Verhältnisse auf Fallebene mit dem durchschnittlichen Verhältnis in verschiedenen Krankenhäusern (Abb. 4g) können Chirurgen Fälle identifizieren, die von einer weiteren Ausbildung des Chirurgen profitieren könnten.

Wir haben zunächst behauptet, dass die Entschlüsselung intraoperativer chirurgischer Aktivitäten den Weg für mehrere nachgelagerte Anwendungen ebnen kann, darunter die Bereitstellung von postoperativem Feedback an Chirurgen zu ihrer Operationstechnik. Hier stellen wir eine Vorlage dafür zur Verfügung, wie SAIS, basierend auf den bisher präsentierten Erkenntnissen, dieses Ziel erreichen kann. Durch die zuverlässige Dekodierung chirurgischer Unterphasen und chirurgischer Fertigkeiten bei gleichzeitiger Angabe der Gründe dafür kann SAIS Feedback in der folgenden Form liefern: „Beim Abschluss von Stich Nummer drei des Nähschritts wurde Ihre Nadelhandhabung (was – Unterphase) schlecht ausgeführt (wie). -Fähigkeit). Dies liegt wahrscheinlich an Ihrer Aktivität im ersten und letzten Viertel der Unterphase „Nadelhandhabung“ (Warum – Achtung)“. Ein solches granulares und zeitlich lokalisiertes Feedback ermöglicht es einem Chirurgen nun, sich besser auf das Element der intraoperativen chirurgischen Tätigkeit zu konzentrieren, das einer Verbesserung bedarf, eine Fähigkeit, die zuvor nicht verfügbar war.

Das Feedback des Chirurgen ist zwar für die Beherrschung einer chirurgischen technischen Fertigkeit selbst hilfreich, gewinnt aber klinisch an Bedeutung, wenn es auf den Patientenergebnissen basiert. Wenn beispielsweise Beurteilungen geringer Qualifikation mit schlechten Ergebnissen einhergehen, kann ein Chirurg damit beginnen, spezifisches Verhalten zu modulieren, um diese Ergebnisse zu verbessern. Zu diesem Zweck führten wir eine vorläufige Analyse durch, bei der die Beurteilung der chirurgischen Fähigkeiten von SAIS am USC auf die binäre Wiederherstellung der Harnkontinenz (Fähigkeit, das Wasserlassen freiwillig zu kontrollieren) eines Patienten 3 Monate nach der Operation zurückgeführt wurde (Methoden). Unter Berücksichtigung aller Videoproben (mehrere pro chirurgischem Fall) und unter Berücksichtigung der Fallzahl des Chirurgen und des Patientenalters stellten wir fest, dass die Wiederherstellung der Harnkontinenz 1,31-fach betrug (Odds Ratio (OR), Konfidenzintervall (CI) 1,08–1,58, P = 0,005). wahrscheinlicher, wenn das Fahren mit Nadeln von SAIS als hohe Fertigkeit und nicht als geringe Fertigkeit bewertet wurde. Bei der Aggregation der Fähigkeitsbeurteilungen von Videoproben innerhalb eines chirurgischen Falles wird dieser Zusammenhang noch verstärkt (OR 1,89, KI 0,95–3,76, P = 0,071). Diese vorläufigen Ergebnisse stimmen mit denen überein, die auf der Bewertung manueller Fertigkeiten aus neueren Studien basieren15,16.

Erst im letzten Jahrzehnt wurde empirisch nachgewiesen, dass intraoperative chirurgische Aktivitäten einen direkten Einfluss auf die postoperativen Patientenergebnisse haben können. Es ist jedoch eine Herausforderung, diesen Zusammenhang zu entdecken und darauf zu reagieren, um die Ergebnisse zu verbessern, wenn die Details der intraoperativen chirurgischen Aktivität unklar bleiben. Durch die Kombination neuer Technologien wie KI mit Videos, die üblicherweise bei Roboteroperationen gesammelt werden, können wir beginnen, mehrere Elemente intraoperativer chirurgischer Aktivitäten zu entschlüsseln.

Wir haben gezeigt, dass SAIS chirurgische Unterphasen, Gesten und Fähigkeiten auf der Grundlage chirurgischer Videoproben zuverlässig, objektiv und skalierbar entschlüsseln kann. Obwohl wir SAIS als Dekodierung dieser spezifischen Elemente in Roboteroperationen vorgestellt haben, kann es möglicherweise auch zur Dekodierung jedes anderen Elements intraoperativer Aktivitäten aus anderen chirurgischen Eingriffen eingesetzt werden. Um zusätzliche Elemente der Chirurgie zu entschlüsseln, muss lediglich ein Datensatz kuratiert werden, der mit dem interessierenden chirurgischen Element versehen ist. Um dies zu erleichtern, veröffentlichen wir unseren Code, damit andere mit SAIS Erkenntnisse aus ihren eigenen Operationsvideos gewinnen können. Tatsächlich sind SAIS und die Methoden, die wir in dieser Studie vorgestellt haben, auf jeden Bereich anwendbar, in dem Informationen auf der Grundlage von visuellen und Bewegungshinweisen entschlüsselt werden können.

Im Vergleich zu früheren Studien bietet unsere Studie sowohl translationale als auch methodische Beiträge. Aus translationaler Sicht haben wir die Fähigkeit von SAIS demonstriert, über Videos, Chirurgen, chirurgische Eingriffe und Krankenhäuser hinweg zu verallgemeinern. Eine solche Erkenntnis dürfte den Chirurgen ein größeres Vertrauen in die Vertrauenswürdigkeit von SAIS vermitteln und somit ihre Wahrscheinlichkeit erhöhen, es zu übernehmen. Dies steht im Gegensatz zu früheren Arbeiten, bei denen KI-Systeme anhand von Videos bewertet wurden, die entweder in einer kontrollierten Laborumgebung oder in einem einzelnen Krankenhaus aufgenommen wurden, und dabei begrenzte Generalisierungsfähigkeiten demonstrierten.

Aus methodischer Sicht hat SAIS im Vergleich zu KI-Systemen, die zuvor zur Dekodierung chirurgischer Aktivitäten entwickelt wurden, viel zu bieten. Erstens ist SAIS insofern einheitlich, als es in der Lage ist, mehrere Elemente intraoperativer chirurgischer Aktivitäten zu entschlüsseln, ohne dass Änderungen an der zugrunde liegenden Architektur erforderlich sind. Indem es als zuverlässige Kernarchitektur fungiert, auf der künftige Entwicklungen basieren, dürfte SAIS den Ressourcenaufwand und die kognitive Belastung reduzieren, die mit der Entwicklung von KI-Systemen zur Entschlüsselung zusätzlicher Elemente chirurgischer Aktivitäten verbunden sind. Dies steht im Gegensatz zum Status quo, bei dem der aufwändige Prozess der Entwicklung spezialisierter KI-Systeme durchgeführt werden muss, um nur ein einzelnes Element zu entschlüsseln. Zweitens liefert SAIS erklärbare Ergebnisse, indem es die relative Bedeutung einzelner Videobilder für ihren Beitrag zur Dekodierung hervorheben kann. Eine solche Erklärbarkeit, die wir in einer parallelen Studie systematisch untersuchen17, ist von entscheidender Bedeutung, um das Vertrauen von Chirurgen zu gewinnen und den sicheren Einsatz von KI-Systemen für die Entscheidungsfindung mit hohem Risiko, wie etwa die kompetenzbasierte Qualifikation von Chirurgen, zu gewährleisten. Dies steht im Gegensatz zu früheren KI-Systemen wie MA-TCN12, die nur die relative Bedeutung von Datenmodalitäten (z. B. Bilder versus Kinematik) hervorheben können und daher nicht über die feinere Erklärbarkeit von SAIS verfügen.

SAIS ist auch insofern flexibel, als es vor allem aufgrund seiner Transformatorarchitektur Videobeispiele mit einer beliebigen Anzahl von Videobildern als Eingabe akzeptieren kann. Eine solche Flexibilität, die bei früheren, häufig verwendeten Modellen wie 3D-CNNs fehlt, bietet Vorteile für das Training, die Feinabstimmung und die Durchführung von Inferenzen. Während des Trainings kann SAIS einen Mini-Stapel von Videos mit jeweils unterschiedlicher Anzahl von Bildern akzeptieren. Dies kann erreicht werden, indem Videos im Mini-Batch (mit Nullen) aufgefüllt werden, die weniger Frames haben, und der Aufmerksamkeitsmechanismus im Transformer-Encoder entsprechend maskiert wird (siehe Implementierungsdetails und Hyperparameter in Methoden). Dies steht im Gegensatz zu bestehenden KI-Systemen, denen oft ein Mini-Stapel gleich großer Videos präsentiert werden muss. In ähnlicher Weise kann SAIS während der Feinabstimmung oder Inferenz eine beliebige Anzahl von Videobildern präsentiert werden, wodurch das Spektrum der Videos, die ihm präsentiert werden können, erweitert wird. Dies steht im Gegensatz zu bestehenden Setups, die ein 3D-CNN nutzen, das auf dem Kinetics-Datensatz vorab trainiert wurde18, wobei Videobeispiele entweder 16 Frames oder ein Vielfaches davon enthalten müssen6,13. Das Einhalten dieser Einschränkung kann für das Erreichen bestimmter Aufgaben nicht optimal sein, und wenn man davon abweicht, kann man die vorab trainierten Parameter, die sich als entscheidend für den Erfolg früherer Methoden erwiesen haben, nicht nutzen. Darüber hinaus unterscheidet sich SAIS architektonisch von früheren Modellen dadurch, dass es Prototypen durch überwachtes kontrastives Lernen erlernt, um chirurgische Aktivitäten zu entschlüsseln, ein Ansatz, der mit chirurgischen Videos noch erforscht werden muss. Solche Prototypen ebnen den Weg für zahlreiche nachgelagerte Anwendungen, von der Erkennung von Videoproben außerhalb der Verteilung über die Identifizierung von Clustern intraoperativer Aktivität bis hin zum Abrufen von Proben aus einer großen chirurgischen Datenbank19.

Wir haben auch gezeigt, dass SAIS Informationen liefern kann, die Chirurgen sonst nicht ohne weiteres zugänglich gewesen wären. Dazu gehören chirurgische Gesten- und Fähigkeitsprofile, die widerspiegeln, wie chirurgische Aktivitäten von einem Chirurgen im Laufe der Zeit für einen einzelnen chirurgischen Fall und über verschiedene Fälle hinweg ausgeführt werden. Solche Fähigkeiten ebnen den Weg für mehrere nachgelagerte Anwendungen, die sonst nur schwer zu realisieren gewesen wären. Aus wissenschaftlicher Sicht können wir jetzt beispielsweise die Variabilität chirurgischer Aktivitäten im Laufe der Zeit, von Chirurgen und Krankenhäusern erfassen. Aus klinischer Sicht können wir nun Hypothesen testen, die intraoperative chirurgische Aktivitäten mit langfristigen Patientenergebnissen in Verbindung bringen. Dies bringt die medizinische Gemeinschaft einen Schritt näher an die Identifizierung und letztendliche Regulierung der ursächlichen Faktoren heran, die für schlechte Ergebnisse verantwortlich sind. Aus pädagogischer Sicht können wir Chirurgen nun ihre Operationstechnik überwachen und ihnen Feedback zu ihrer Operationstechnik geben. Ein solches Feedback kann Chirurgen dabei helfen, die notwendigen Fähigkeiten zu erlernen und zu besseren Patientenergebnissen beizutragen.

Es gibt wichtige Herausforderungen, die unsere Arbeit noch nicht angeht. Erstens beschränkt sich unser Rahmenwerk, ähnlich wie andere auf diesem Gebiet, darauf, nur die Elemente der chirurgischen Tätigkeit zu entschlüsseln, die zuvor in einer Taxonomie beschrieben wurden (z. B. Gesten). Mit anderen Worten: Es kann nicht entschlüsseln, was es nicht weiß. Obwohl viele dieser Taxonomien sorgfältig von Chirurgenteams und auf der Grundlage klinischer Erfahrung entwickelt wurden, können sie möglicherweise kein Licht auf andere komplizierte Aspekte der chirurgischen Tätigkeit werfen. Dies wiederum schränkt den Grad ein, in dem automatisierte Systeme neuartige Aktivitäten entdecken können, die über den Bereich bestehender Protokolle hinausgehen. Eine solche Entdeckung kann beispielsweise Aufschluss über optimales, aber noch unentdecktes chirurgisches Verhalten geben. In ähnlicher Weise ist SAIS derzeit nicht in der Lage, neue Elemente der chirurgischen Tätigkeit zu entschlüsseln, die über die ursprünglich vorgestellten hinausgehen. Solche kontinuierlichen Lernfähigkeiten10 sind entscheidend für die Anpassung an eine sich im Laufe der Zeit weiterentwickelnde Taxonomie chirurgischer Tätigkeiten.

Das Ziel einer Operation besteht darin, die Behandlungsergebnisse für den Patienten zu verbessern. Es bleibt jedoch eine offene Frage, ob die entschlüsselten Elemente der intraoperativen chirurgischen Aktivität (Unterphasen, Gesten und Fähigkeiten) die Faktoren sind, die die postoperativen Patientenergebnisse am meisten vorhersagen. Obwohl wir für den Fall chirurgischer Fertigkeiten vorläufige Beweise in dieser Richtung vorgelegt haben, sind groß angelegte Studien erforderlich, um diese Zusammenhänge aufzudecken. Um diese Beziehungen weiter zu erforschen und zuverlässigere Informationen für die zukünftige chirurgische Praxis zu liefern, fördern wir die öffentliche Veröffentlichung umfangreicher chirurgischer Videodatensätze aus verschiedenen Krankenhäusern und chirurgischen Fachgebieten. Ausgestattet mit solchen Videos und SAIS können Forscher damit beginnen, die verschiedenen Elemente der Chirurgie im großen Maßstab zu entschlüsseln.

In Zukunft wollen wir untersuchen, ob SAIS die beabsichtigte Wirkung auf klinische Interessengruppen hat. Unser Ziel ist es beispielsweise, SAIS in einer kontrollierten Laborumgebung einzusetzen, um das Qualifikationsniveau der von Medizinstudenten durchgeführten Aktivitäten zu bewerten und ihnen auf der Grundlage dieser Bewertungen Feedback zu geben. Dies wird praktische Einblicke in den Nutzen KI-basierter Fähigkeitsbewertungen und deren Wahrnehmung durch chirurgische Auszubildende geben. Wir beabsichtigen auch, die gegenseitige Abhängigkeit der Elemente intraoperativer chirurgischer Aktivitäten (Subphasenerkennung, Gestenklassifizierung und Fähigkeitsbewertung) zu untersuchen. Dies kann beispielsweise durch das Training einer Multitask-Variante von SAIS erreicht werden, bei der alle Elemente gleichzeitig aus einem Video dekodiert werden. In einer solchen Umgebung könnte eine positive Interferenz zwischen den Aufgaben zu einer noch zuverlässigeren Dekodierung führen. Alternativ kann SAIS darauf trainiert werden, zunächst eine Subphasenerkennung durchzuführen (eine relativ einfache Aufgabe), bevor es seine Parameter überträgt, um eine Fähigkeitsbewertung durchzuführen (eine relativ schwierigere Aufgabe). Dies ähnelt dem Lehrplanlernen20, bei dem einem KI-System während des Lernprozesses immer schwierigere Aufgaben gestellt werden, um seine Gesamtleistung zu verbessern. In einer parallelen Studie21 untersuchen wir auch, ob SAIS eine algorithmische Verzerrung gegenüber verschiedenen Unterkohorten von Chirurgen aufweist22. Eine solche Bias-Analyse ist besonders wichtig, wenn SAIS für die Bereitstellung von Feedback an Chirurgen verwendet werden soll. Beispielsweise kann es bestimmte Unterkohorten von Chirurgen benachteiligen (z. B. Anfänger mit minimaler Erfahrung) und somit ihre Fähigkeit beeinträchtigen, sich beruflich weiterzuentwickeln.

Alle Datensätze (Daten von USC, SAH und HMH) wurden mit Genehmigung des Institutional Review Board gesammelt, bei dem eine Einverständniserklärung eingeholt wurde (HS-17-00113). Diese Datensätze wurden vor der Modellentwicklung deidentifiziert.

Frühere Arbeiten nutzten Computermethoden wie KI, um chirurgische Eingriffe zu entschlüsseln23,24. Eine Forschungsrichtung konzentrierte sich auf die Nutzung von Robotern abgeleiteter Sensordaten, wie z. B. die Verschiebung und Geschwindigkeit der Roboterarme (Kinematik), um klinische Ergebnisse vorherzusagen25,26,27,28. Forscher haben beispielsweise automatisierte Leistungsmetriken verwendet, um die postoperative Aufenthaltsdauer eines Patienten in einem Krankenhaus vorherzusagen26. Eine andere Forschungsrichtung konzentrierte sich stattdessen auf die ausschließliche Nutzung von Live-OP-Videos von endoskopischen Kameras, um unter anderem chirurgische Aktivitäten4,29, Gesten5,30,31,32,33 und Fertigkeiten6,7,13,34,35 zu klassifizieren36,37. Für Informationen zu weiteren Studien verweisen wir die Leser auf eine aktuelle Übersicht9. In jüngster Zeit wurden aufmerksamkeitsbasierte neuronale Netze wie Transformatoren38 verwendet, um zwischen verschiedenen chirurgischen Schritten innerhalb eines Eingriffs zu unterscheiden39,40,41,42.

Frühere Arbeiten teilen ihre Daten oft auf eine Art und Weise auf, die möglicherweise zu Informationsverlusten zwischen Trainings- und Testsätzen führt. Es wird beispielsweise davon ausgegangen, dass der allgemein angenommene Bewertungsaufbau für das Auslassen eines Benutzers im JIGSAWS-Datensatz11 streng ist. Obwohl es Einblick in die Generalisierbarkeit eines Modells auf ein Video von einem unsichtbaren Teilnehmer gibt, beinhaltet dieser Aufbau die Meldung eines Kreuzvalidierungs-Scores, der oft direkt durch frühere Methoden optimiert wird (z. B. durch Hyperparameter-Tuning) und daher zu einem übermäßig optimistischen Ergebnis führt Einschätzung der Leistung. Betrachten Sie als weiteres Beispiel die Datenaufteilung, die für den CholecT50-Datensatz43 verwendet wird. Hier gibt es nur minimale Informationen darüber, ob Videos in den Trainings- und Testsätzen demselben Chirurgen gehören. Schließlich besteht der neueste DVC UCL-Datensatz12 aus 36 öffentlich verfügbaren Videos für Schulungen und 9 privaten Videos für Tests. Nach manueller Prüfung stellten wir fest, dass diese neun Videos von sechs Chirurgen stammen, deren Daten ebenfalls im Trainingssatz enthalten sind. Dies ist ein konkretes Beispiel für die Datenlecks von Chirurgen, weshalb wir vor der Verwendung solcher Datensätze für Benchmarking-Zwecke warnen. Daher ist es von entscheidender Bedeutung, die Leistung von SAIS strenger zu bewerten, und zwar im Einklang mit der Art und Weise, wie es voraussichtlich in einem klinischen Umfeld eingesetzt wird.

Wir haben uns auf Operationsvideos konzentriert, die zwei Arten von chirurgischen Aktivitäten zeigen, die in fast jeder Operation häufig durchgeführt werden: Gewebepräparation und Nähen, die wir im Folgenden im Detail erläutern.

Die Gewebedissektion ist eine grundlegende Tätigkeit bei fast jedem chirurgischen Eingriff und beinhaltet das Trennen von Gewebestücken voneinander. Beispielsweise umfasst der chirurgische RARP-Eingriff, bei dem eine krebsartige Prostatadrüse aus dem Körper eines Patienten entfernt wird, mehrere Gewebedissektionsschritte, von denen einer als nervenschonend oder NS bezeichnet wird. NS beinhaltet den Erhalt des neurovaskulären Bündels, eines Geflechts aus Gefäßen und Nerven links und rechts der Prostata, und ist für die postoperative Wiederherstellung der erektilen Funktion eines Patienten für den Geschlechtsverkehr von wesentlicher Bedeutung. Darüber hinaus erfordert ein chirurgischer RAPN-Eingriff, bei dem ein Teil einer Krebsniere aus dem Körper eines Patienten entfernt wird, einen Dissektionsschritt, der als Hilusdissektion oder HD bezeichnet wird. Bei der Huntington-Krankheit wird das Bindegewebe um die Nierenarterie und -vene entfernt, um mögliche Blutungen aus diesen Blutgefäßen zu kontrollieren.

Diese Dissektionsschritte (NS und HD) sind zwar verfahrensspezifisch (RARP und RAPN), werden jedoch von einem Chirurgen mithilfe eines gemeinsamen Vokabulars diskreter Dissektionsgesten durchgeführt. In unserer vorherigen Arbeit haben wir eine Taxonomie44 entwickelt, die es uns ermöglicht, jeden Gewebesektionsschritt mit einer Abfolge diskreter Dissektionsgesten im Zeitverlauf zu kommentieren.

Auch das Nähen ist ein grundlegender Bestandteil der Chirurgie45 und beinhaltet das Zusammenführen von Gewebe. Beispielsweise umfasst das RARP-Verfahren einen Nähschritt, der als vesiko-urethrale Anastomose oder VUA bezeichnet wird. VUA erfolgt nach der Entfernung der krebsartigen Prostatadrüse und umfasst die Verbindung des Blasenhalses (einer kugelförmigen Struktur) mit der Harnröhre (einer zylindrischen Struktur) über Nähte. Sie ist für den normalen Urinfluss nach der Operation unerlässlich. Der VUA-Schritt besteht typischerweise aus durchschnittlich 24 Stichen, wobei jeder Stich von einem Chirurgen mit einem gemeinsamen Vokabular an Nahtgesten ausgeführt werden kann. In unserer vorherigen Arbeit haben wir eine Taxonomie5 entwickelt, die es uns ermöglicht, jede Nahtaktivität mit einer Abfolge diskreter Nahtgesten zu kommentieren. Wir stellen fest, dass sich Nähgesten von Dissektionsgesten unterscheiden und subtiler sind.

Jeder Stich kann auch in die drei wiederkehrenden Unterphasen zerlegt werden: (1) Nadelhandhabung, bei der die Nadel als Vorbereitung für den Stich gehalten wird, (2) Nadelvortrieb, bei dem die Nadel durch Gewebe (z. B. die Harnröhre) getrieben wird, und (3) Nadelrückzug, wobei die Nadel aus dem Gewebe herausgezogen wird, um einen einzelnen Stich zu vervollständigen. Die Unterphasen „Nadelhandhabung“ und „Nadelantrieb“ können auch anhand des Fähigkeitsniveaus bewertet werden, mit dem sie ausgeführt werden. In unserer vorherigen Arbeit haben wir eine Taxonomie46 entwickelt, die es uns ermöglicht, jede Subphase des Nähens mit einem binären Fähigkeitsniveau (geringe Fähigkeit versus hohe Fähigkeit) zu kommentieren.

Wir haben Videos von gesamten robotergestützten chirurgischen Eingriffen in drei Krankenhäusern gesammelt: USC, SAH und HMH. Jedes Video des RARP-Verfahrens dauerte beispielsweise etwa 2 Stunden. Ein medizinischer Mitarbeiter (RM) identifizierte in jedem RARP-Video manuell den Schritt der NS-Gewebedissektion und den Schritt des Nähens des VUA-Gewebes. In Tabelle 1 skizzieren wir die Gesamtzahl der Videos und Videobeispiele aus jedem Krankenhaus. Als Nächstes skizzieren wir, wie diese Schritte mit chirurgischen Unterphasen, Gesten und Fähigkeitsniveaus kommentiert wurden.

Es ist wichtig zu beachten, dass menschliche Bewerter eine Trainingsphase durchliefen, in der sie gebeten wurden, denselben Satz chirurgischer Videos zu kommentieren, was die Berechnung der Interbeurteiler-Zuverlässigkeit (zwischen 0 und 1) ihrer Anmerkungen ermöglichte. Sobald diese Zuverlässigkeit 0,8 überstieg, betrachteten wir die Trainingsphase als abgeschlossen47.

Jedes Video des NS-Dissektionsschritts (ca. 20 Minuten) wurde nachträglich von einem Team geschulter menschlicher Bewerter (RM, TH und andere) mit Gewebedissektionsgesten kommentiert. Diese Anmerkung folgte den strengen Richtlinien unserer zuvor entwickelten Taxonomie der Seziergesten44. Wir haben uns auf die sechs am häufigsten verwendeten Seziergesten konzentriert: Aufschnitt (c), Haken (h), Clip (k), Kamerabewegung (m), Abziehen (p) und Zurückziehen (r). Konkret zeichnete ein menschlicher Bewerter beim Beobachten einer Geste die Start- und Endzeit ihrer Ausführung durch den Chirurgen auf. Daher führte jeder NS-Schritt zu einer Sequenz von n ≈ 400 Videobeispielen von Gesten (aus sechs verschiedenen Kategorien), wobei jedes Videobeispiel eine Dauer in der Größenordnung von 0–10 s hatte. Darüber hinaus wurde jedes Videobeispiel genau einer Geste zugeordnet. Die gleiche Strategie wurde für die Kommentierung des VUA-Nahtschritts mit Nahtgesten verfolgt. Diese Anmerkung folgte den strengen Richtlinien unserer zuvor entwickelten Taxonomie der Nahtgesten5. Wir haben uns auf die vier am häufigsten verwendeten Nahtgesten konzentriert: rechte Vorhand unter (R1), rechte Vorhand über (R2), linke Vorhand unter (L1) und kombinierte Vorhand über (C1).

Jedes Video des VUA-Nähschritts (ca. 20 Minuten) wurde nachträglich von einem Team geschulter menschlicher Bewerter (DK, TH und andere) mit chirurgischen Unterphasen und Fertigkeiten kommentiert. Diese Anmerkung folgte den strengen Richtlinien unserer zuvor entwickelten Taxonomie, die als End-to-End-Bewertung der Nahtkompetenz oder EASE46 bezeichnet wird. Da es sich beim VUA-Schritt um einen rekonstruktiven Schritt handelt, bei dem Blase und Harnröhre miteinander verbunden werden, ist häufig eine Reihe von Stichen erforderlich (in der Größenordnung von 24 Stichen: 12 auf der Blasenseite und weitere 12 auf der Harnröhrenseite).

Bei einem einzelnen Stich, der aus den drei Unterphasen Nadelhandhabung, Nadeleintreiben und Nadelrückzug (immer in dieser Reihenfolge) besteht, würde ein menschlicher Bewerter zunächst die Start- und Endzeit jeder dieser Unterphasen ermitteln. Daher kann jeder VUA-Schritt n = 24 Videobeispiele der Unterphasen Nadelhandhabung, Nadelantrieb und Nadelrückzug enthalten, wobei jedes Videobeispiel in der Größenordnung von 10–30 s liegt. Die Verteilung der Dauer solcher Videobeispiele ist in der Ergänzenden Anmerkung 2 angegeben.

Menschliche Bewerter wurden auch gebeten, die Qualität der Nadelhandhabung oder der Nadeleintreibaktivität zu kommentieren (0 für geringe Fähigkeiten und 1 für hohe Fähigkeiten). Bei der Nadelhandhabung basiert eine hochqualifizierte Beurteilung auf der Häufigkeit, mit der der Chirurg seinen Griff um die Nadel neu positionieren muss, um sich darauf vorzubereiten, sie durch das Gewebe zu stechen (je weniger, desto besser). Beim Eintreiben der Nadel basiert eine hochqualifizierte Beurteilung auf der Sanftheit und Anzahl der Einstellungen, die erforderlich sind, um die Nadel durch das Gewebe zu treiben (je sanfter und weniger Anpassungen, desto besser). Da jedes Videobeispiel mehreren Bewertern zugewiesen wurde, verfügte es über mehrere Etiketten zur Fähigkeitsbewertung. Bei möglichen Meinungsverschiedenheiten in den Anmerkungen haben wir die niedrigste (schlechteste) Bewertung berücksichtigt. Unser Beweggrund dafür basierte auf der Annahme, dass, wenn ein menschlicher Bewerter die Qualität der Tätigkeit des Chirurgen benachteiligt, dies auf eines der im Bewertungssystem dargelegten objektiven Kriterien zurückzuführen sein muss und daher nicht optimal ist. Wir wiederum wollten dieses suboptimale Verhalten erfassen und kodieren.

In allen Experimenten trainierten wir SAIS anhand eines Trainingssatzes von Videobeispielen und bewerteten ihn mithilfe einer zehnfachen Monte-Carlo-Kreuzvalidierung, wobei der Testsatz jeder Falte aus Unterphasen von Videos bestand, die während des Trainings nicht gesehen wurden. Ein solcher Ansatz trägt zu unserem Ziel einer strengen Bewertung bei, indem er es uns ermöglicht, die Fähigkeit von SAIS zu bewerten, auf nicht gesehene Videos zu verallgemeinern (im Folgenden als „videoübergreifend“ bezeichnet). Dieser Aufbau ist auch anspruchsvoller und repräsentativer für den Einsatz in der realen Welt als einer, bei dem ein KI-System auf unsichtbare Beispiele innerhalb desselben Videos verallgemeinert. Daher haben wir diesen Bewertungsaufbau für alle in dieser Studie beschriebenen Experimente übernommen, sofern nicht anders angegeben. Eine detaillierte Aufschlüsselung der Anzahl der Videobeispiele, die für Training, Validierung und Tests verwendet werden, finden Sie in der Ergänzenden Anmerkung 1.

Für alle durchgeführten Experimente haben wir, sofern nicht anders angegeben, die Daten auf Fallvideoebene in einen Trainingssatz (90 %) und einen Testsatz (10 %) aufgeteilt. Wir haben 10 % der Videos im Trainingssatz verwendet, um einen Validierungssatz zu bilden, mit dem wir eine Optimierung der Hyperparameter durchgeführt haben. Durch die Aufteilung auf Videoebene, bei der Daten aus demselben Video nicht in allen Sets erscheinen, prüfen wir genau, ob sich das Modell auf nicht gesehene Videos verallgemeinert. Beachten Sie, dass es zwar möglich ist, dass Daten desselben Chirurgen sowohl im Trainings- als auch im Testsatz auftauchen, wir aber auch mit noch strengeren Setups experimentieren: über Krankenhäuser hinweg – wobei die Videos von völlig unterschiedlichen Krankenhäusern und Chirurgen stammen – und über chirurgische Eingriffe hinweg – wo Videos von völlig unterschiedlichen chirurgischen Eingriffen stammen (z. B. Nephrektomie versus Prostatektomie). Obwohl es verschiedene Möglichkeiten gibt, SAIS rigoros zu bewerten, glauben wir, dass der Nachweis seiner Generalisierbarkeit über Chirurgen, Krankenhäuser und chirurgische Eingriffe hinweg, wie wir es getan haben, ein Schritt in die richtige Richtung ist. Wir geben die Leistung von Modellen als Durchschnitt mit einer Standardabweichung über die Falten hinweg an.

Um sowohl visuelle als auch Bewegungshinweise in Operationsvideos zu erfassen, nutzte SAIS zwei unterschiedliche Modalitäten: Live-Operationsvideos in Form von RGB-Frames und den entsprechenden optischen Fluss dieser Frames. Chirurgische Videos können mit verschiedenen Abtastraten aufgezeichnet werden, die die Einheit Bilder pro Sekunde (fps) haben.

Die Kenntnis der Abtastrate und der natürlichen Aktivitätsrate in einem chirurgischen Umfeld ist für mehrere Entscheidungen von entscheidender Bedeutung. Diese können von der Anzahl der Bilder, die einem Deep-Learning-Netzwerk präsentiert werden sollen, und der geeigneten Rate zum Downsampling von Videos bis hin zur zeitlichen Schrittgröße reichen, die zum Ableiten optischer Flusskarten verwendet wird, wie im Folgenden beschrieben. Das Einbeziehen zu vieler Frames, bei denen es nur sehr geringe Änderungen in der visuellen Szene gibt, führt zu einem Rechenaufwand und kann aufgrund der Einbeziehung sehr ähnlicher Frames (geringe visuelle Vielfalt) zu einer Überanpassung führen. Andererseits kann die Einbeziehung zu weniger Frames dazu führen, dass visuelle Informationen fehlen, die für die jeweilige Aufgabe relevant sind. In ähnlicher Weise hängt die Ableitung sinnvoller Karten des optischen Flusses, die eine Funktion eines zeitlich beabstandeten Bilderpaars ist, von der Zeit ab, die zwischen diesen Bildern verstrichen ist. Eine zu kurze Zeitspanne könnte zu minimaler Bewegung in der visuellen Szene und damit zu nicht aussagekräftigen Karten des optischen Flusses führen. Analog könnte eine zu lange Zeitspanne dazu führen, dass informative Zwischenbewegungen in der visuellen Szene verpasst werden. Wir bezeichnen diese Entscheidungen als Hyperparameter (siehe Abschnitt Implementierungsdetails und Hyperparameter in Methoden). In diesem Artikel haben wir optische Flusskarten mithilfe eines RAFT-Modells48 abgeleitet, das unserer Meinung nach brauchbare Karten liefert.

Unser KI-System – SAIS – ist visionsbasiert und einheitlich (Abb. 5). Es basiert auf Visionen, da es ausschließlich auf chirurgischen Videos basiert, die routinemäßig im Rahmen robotergestützter chirurgischer Eingriffe erfasst werden. Es ist einheitlich, da dieselbe Architektur ohne Änderungen verwendet werden kann, um mehrere Elemente intraoperativer chirurgischer Aktivitäten zu entschlüsseln (Abb. 1b). Wir skizzieren die Vorteile eines solchen Systems in der Diskussion.

Wir extrahieren eine Folge D-dimensionaler Darstellungen, \(\left\{ {v_t \in {\Bbb R}^D} \right\}_{t = 1}^T\), aus T zeitlich geordneten Frames über a (eingefrorener) Vision Transformer (ViT), vorab auf dem ImageNet-Datensatz selbstüberwacht trainiert49. Kurz gesagt, beinhaltete dieses Pre-Training-Setup mit dem Titel DINO die Optimierung einer kontrastiven Zielfunktion, mit der Darstellungen desselben Bildes, die auf unterschiedliche Weise erweitert wurden (z. B. durch zufälliges Zuschneiden), dazu angeregt werden, einander ähnlich zu sein. Weitere Einzelheiten finden Sie im Originalpapier50.

ViTs konvertieren jeden Eingaberahmen in einen Satz quadratischer Bildfelder mit der Abmessung H × H und führen einen Selbstaufmerksamkeitsmechanismus ein, der versucht, die Beziehung zwischen Bildfeldern (d. h. räumliche Informationen) zu erfassen. Wir haben festgestellt, dass sich diese räumliche Aufmerksamkeit auf Instrumentenspitzen, Nadeln und anatomische Kanten auswirkt (Abb. 6). Wir haben uns für diesen Merkmalsextraktor entschieden, weil (a) aktuelle Erkenntnisse dafür sprechen, dass selbstüberwachte vorab trainierte Modelle im Vergleich zu ihren überwachten Gegenstücken bevorzugt werden, und (b) der Wunsch besteht, den Rechenaufwand zu reduzieren, der mit dem Training eines Merkmalsextraktors in einer End-to-End-Lösung verbunden ist. Endweise.

Wir präsentieren zwei Beispiel-RGB-Videobilder der Nadelhandhabungsaktivität und die entsprechende räumliche Aufmerksamkeit, die ViT auf Patches dieser Bilder richtet.

Wir hängen eine lernbare D-dimensionale Klassifizierungseinbettung, \(e_{{{{\mathrm{cls}}}}} \in {\Bbb R}^D\, an den Anfang der Folge von Rahmendarstellungen, \( \left\{ {v_t} \right\}_{t = 1}^T\). Um die zeitliche Reihenfolge der Einzelbilder der Bilder zu erfassen, fügen wir D-dimensionale zeitliche Positionseinbettungen hinzu, \(\left\{ {e_t \in {\Bbb R}^D} \right\}_{t = 1}^ T\), zur Sequenz der Frame-Darstellungen, bevor die Sequenz in vier Transformer-Encoder-Schichten eingegeben wird. Ein solcher Encoder verfügt über einen Selbstaufmerksamkeitsmechanismus, bei dem jeder Frame jeden anderen Frame in der Sequenz betreut. Auf diese Weise werden sowohl kurz- als auch langreichweitige Abhängigkeiten zwischen Frames erfasst. Wir fassen das modalitätsspezifische Video durch eine modalitätsspezifische Videodarstellung, \(h_{{{{\mathrm{cls}}}}} \in {\Bbb R}^D\), der Klassifizierungseinbettung, ecls, zusammen. auf der letzten Ebene des Transformer-Encoders, wie es normalerweise der Fall ist. Dieser Vorgang wird für den optischen Flussmodalitätsstrom wiederholt.

Die beiden modalitätsspezifischen Videodarstellungen hRGB und hFlow werden wie folgt aggregiert:

Die aggregierte Darstellung hagg wird durch zwei Projektionsköpfe in Form von linearen Schichten mit einer nichtlinearen Aktivierungsfunktion (ReLU) geleitet, um eine E-dimensionale Videodarstellung zu erhalten, \(h_{{{{\mathrm{Video }}}}} \in {\Bbb R}^E\).

Um die gewünschte Aufgabe zu erfüllen, durchläuft die videospezifische Darstellung hVideo eine Reihe von Anziehungs- und Abstoßungsvorgängen mit lernbaren Einbettungen, die wir als Prototypen bezeichnen. Jeder Prototyp, p, spiegelt eine einzelne Interessenkategorie wider und hat die gleiche Dimensionalität wie hVideo. Die Darstellung, \(h_{{{{\mathrm{Video}}}}} \in {\Bbb R}^E\, eines Videos aus einer bestimmten Kategorie, c, wird vom einzelnen Prototyp angezogen, \( p_{{{\mathrm{c}}}} \in {\Bbb R}^E\), der gleichen Kategorie zugeordnet und von allen anderen Prototypen abgestoßen, \(\left\{ {p_j} \right\} _{j = 1}^C,j \ne c\), wobei C die Gesamtzahl der Kategorien ist. Wir erreichen dies, indem wir kontrastives Lernen nutzen und den InfoNCE-Verlust \({{{\mathcal{L}}}}_{{{{\mathrm{NCE}}}}}\ minimieren:

Während des Trainings teilen wir die Parameter des Transformer-Encoders modalitätsübergreifend, um eine Überanpassung zu vermeiden. Auf diese Weise lernen wir durchgängig die Parameter des Transformer-Encoders, die Klassifizierungs-Token-Einbettung, die zeitliche Positionseinbettung, die Parameter des Projektionskopfs und die kategoriespezifischen Prototypen.

Um ein Videobeispiel in eine der Kategorien zu klassifizieren, berechnen wir die Ähnlichkeit (d. h. Kosinusähnlichkeit) zwischen der Videodarstellung hVideo und jedem der Prototypen \(\left\{ {p_j} \right\}_{ j = 1}^C\). Auf diese Ähnlichkeitswerte wenden wir die Softmax-Funktion an, um eine Wahrscheinlichkeitsmassenfunktion über die Kategorien zu erhalten. Indem wir die Kategorie mit der höchsten Wahrscheinlichkeitsmasse (Argmax) identifizieren, können wir eine Klassifizierung vornehmen.

Die Videodarstellung hVideo kann von der Auswahl der Frames (sowohl RGB als auch optischer Fluss) abhängen, die zunächst in das Modell eingegeben werden. Um diese Abhängigkeit zu berücksichtigen und zu vermeiden, dass potenziell informative Frames während der Inferenz fehlen, setzen wir daher die sogenannte Testzeiterweiterung (Test-Time Augmentation, TTA) ein. Dabei wird die gleiche Eingabe während der Inferenz mehrmals erweitert, was wiederum mehrere Wahrscheinlichkeitsmassenfunktionen ausgibt. Anschließend können wir diese Wahrscheinlichkeitsmassenfunktionen analog zu einem Ensemblemodell mitteln, um eine einzige Klassifizierung vorzunehmen. In unserem Kontext haben wir drei Testzeiteingaben verwendet; der ursprüngliche Satz von Frames mit einer festen Abtastrate und diejenigen, die durch Versetzen des Startframes um K Frames mit derselben Abtastrate gestört wurden. Dadurch wird sichergestellt, dass zwischen den erweiterten Eingaben nur minimale Bildüberlappungen auftreten, sodass unterschiedliche Informationen erfasst werden und gleichzeitig weiterhin die relevantesten Aspekte des Videos abgedeckt werden.

Während des Trainings und der Inferenz verwenden wir die Start- und Endzeit jedes Videobeispiels, um die Auswahl der Videobilder aus diesem Beispiel zu steuern. Für die Gestenklassifizierung wählen wir zehn Bilder mit gleichem Abstand aus dem Videobeispiel aus. Beispielsweise würden wir für ein Videobeispiel mit einer Bildrate von 30 Hz und einer Länge von 3 s von den ursprünglichen 30 × 3 = 90 Bildern nur Bilder ∈ [0, 9, 18, …] abrufen. Im Gegensatz dazu wählen wir für die Subphasenerkennung und Fähigkeitsbewertung jeden zweiten zehnten Frame aus. Beispielsweise würden wir für dasselbe Videobeispiel oben nur Frames ∈ [0, 10, 20,…] abrufen. Wir fanden heraus, dass diese Strategien zu einem guten Kompromiss zwischen der Rechenkomplexität und der Erfassung ausreichend informativer Signale im Video führten, um die Aufgabe abzuschließen. In ähnlicher Weise basierten optische Flusskarten auf Bildpaaren, die 0,5 s voneinander entfernt waren. Kürzere Zeitspannen führten zu Frames mit minimaler Bewegung und daher wenig aussagekräftigen Flusskarten. Um sicherzustellen, dass die RGB- und optischen Flusskarten derselben Zeitspanne zugeordnet waren, haben wir während des Trainings Karten abgerufen, die sich zeitlich mit den RGB-Frames überlappten. Während der Inferenz und für TTA versetzen wir sowohl RGB- als auch optische Flussrahmen um K = 3 und K = 6 Rahmen.

Wir führen unsere Experimente in PyTorch51 mit einer V100-GPU auf einer DGX-Maschine durch. Die Größe jedes RGB-Frames und jeder optischen Flusskarte wurde auf 224 × 224 (von 960 × 540 bei USC und SAH und 1.920 × 1.080 bei SAH) geändert, bevor sie in den ViT-Feature-Extraktor eingegeben wurden. Der ViT-Feature-Extraktor hat jeden Frame in einen Satz quadratischer Patches mit der Dimension H = 16 vorverarbeitet und eine Frame-Darstellung mit der Dimension D = 384 generiert. Alle Videodarstellungen und Prototypen haben die Dimension E = 256. In der Praxis haben wir die Parameter eingefroren des ViT, extrahierte alle derartigen Darstellungen offline (d. h. vor dem Training) und speicherte sie als h5py-Dateien. Wir verfolgten die gleiche Strategie zum Extrahieren von Darstellungen optischer Flusskarten. Dadurch wurde der typische Engpass beim Laden von Videos erheblich reduziert und unser Schulungs- und Inferenzprozess optimiert. Dies erleichtert auch Rückschlüsse auf zukünftige Videos. Sobald ein neues Video aufgenommen wurde, können seine Funktionen sofort offline extrahiert und für die zukünftige Verwendung gespeichert werden.

Sofern nicht anders angegeben, haben wir SAIS mit einer Mini-Batch-Größe von acht Videobeispielen und einer Lernrate von 1e−1 trainiert und seine Parameter durch stochastischen Gradientenabstieg optimiert. Bei Mini-Batch-Proben ist häufig die gleiche Dimensionalität (B × T × D) erforderlich, wobei B die Batch-Größe, T die Anzahl der Frames und D die Dimension der gespeicherten Darstellung ist. Wenn wir daher auf Videobeispiele im selben Mini-Batch mit einer unterschiedlichen Anzahl von zeitlichen Frames stießen (z. B. T = 10 gegenüber T = 11), haben wir zunächst Platzhalterdarstellungen (mit Nullen gefüllte Tensoren) an das Ende des kürzeren Videos angehängt Proben. Dadurch wurde sichergestellt, dass alle Videobeispiele im Mini-Batch die gleiche Größe hatten. Um zu vermeiden, dass diese aufgefüllten Darstellungen in die nachgelagerte Verarbeitung einbezogen werden, haben wir eine Maskierungsmatrix (Matrix mit binären Einträgen) verwendet, die angibt, welche Darstellungen der Aufmerksamkeitsmechanismus berücksichtigen soll. Wichtig ist, dass gepolsterte Darstellungen während eines Vorwärtsdurchgangs durch SAIS nicht berücksichtigt werden.

Wir haben mehrere SAIS-Varianten trainiert, um den Beitrag der einzelnen Komponenten zur Gesamtleistung zu ermitteln. Konkret werden die Modellvarianten mit SAIS (Basislinie) trainiert, ohne Testzeiterweiterung („ohne TTA“) ausgewertet und nur optischem Fluss („ohne RGB“) oder RGB-Frames („ohne Fluss“) als Eingaben ausgesetzt. Wir haben auch den Selbstaufmerksamkeitsmechanismus entfernt, der die Beziehung zwischen und die zeitliche Reihenfolge von Frames erfasst („ohne SA“). In dieser Einstellung haben wir einfach die Rahmenmerkmale gemittelt. Obwohl wir den PPV in den Ergebnissen präsentieren, kamen wir bei der Verwendung anderer Bewertungsmetriken zu ähnlichen Ergebnissen.

Nachdem wir ein Modell anhand von Videobeispielen (in der Größenordnung von 10–30 Sekunden) trainiert und ausgewertet hatten, setzten wir es auf ganzen Videos (in der Größenordnung von 10–30 Minuten) ein, um ein Element chirurgischer Aktivitäten ohne menschliche Aufsicht zu entschlüsseln. Wir bezeichnen diesen Vorgang als Inferenz. Wie wir im Folgenden darlegen, hängt eine geeignete Implementierung der Schlussfolgerung häufig davon ab, welches Element der chirurgischen Aktivität entschlüsselt wird.

Videobeispiele, die zum Training und zur Bewertung von SAIS zur Dekodierung der drei Naht-Unterphasen Nadelhandhabung, Nadeleintreiben und Nadelrückzug verwendet wurden, dauerten durchschnittlich 10–30 s (Ergänzende Anmerkung 2). Dies leitete unsere Designentscheidungen für die Schlussfolgerung.

Bei der Schlussfolgerung haben wir zwei komplementäre Ansätze gewählt, wie im Folgenden beschrieben. Ansatz 1: Wir präsentierten SAIS 10-sekündige Videobeispiele aus einem gesamten VUA-Video mit 5-sekündigen Überlappungen zwischen aufeinanderfolgenden Videobeispielen, wobei letzteres sicherstellte, dass wir die Grenzaktivität erfassen. Somit war jede 10-s-Videoprobe mit einer einzelnen probabilistischen Ausgabe, {sNH, sND, sNW}, verknüpft, die die Wahrscheinlichkeit s der Nadelhandhabung (NH), des Nadeleintreibens (ND) und des Nadelrückzugs (NW) widerspiegelte. Ansatz 2: Wir präsentierten SAIS nicht überlappende 5-sekündige Videobeispiele aus demselben Video. Die Motivation für die Auswahl eines kürzeren Videobeispiels besteht darin, eine kurze Unterphase zu erfassen, die sonst bei Verwendung eines längeren Videobeispiels in eine andere Unterphase übergegangen wäre. Daher wurde jedes 5-s-Videobeispiel mit einer einzelnen probabilistischen Ausgabe verknüpft. Beachten Sie, dass wir bei der Auswahl von Frames aus jedem Videobeispiel denselben Ansatz verfolgt haben wie beim ursprünglichen Trainings- und Bewertungsaufbau (siehe Implementierungsdetails und Hyperparameter).

Als Beispiel für diese Ansätze umfasst das erste Videobeispiel, das SAIS in Ansatz 1 präsentiert wurde, 0–10 s, während die ersten beiden Videobeispiele, die SAIS in Ansatz 2 präsentiert wurden, 0–5 s bzw. 5–10 s umfassten. Bei der Betrachtung beider Ansätze ist die Zeitspanne 0–10 s somit mit drei eindeutigen probabilistischen Ausgaben verbunden (wie auch jede andere 10-s-Zeitspanne).

Denken Sie daran, dass wir SAIS mithilfe einer zehnfachen Monte-Carlo-Kreuzvalidierung trainiert haben, was zu zehn einzigartigen Modellen führte. Um unser Vertrauen in den Inferenzprozess zu erhöhen, haben wir mit jedem der zehn Modelle eine Inferenz nach den beiden oben genannten Ansätzen durchgeführt. Somit war jede 10-s-Zeitspanne mit 3 probabilistischen Ausgaben (P) × 10-fach (F) × 3 TTAs = insgesamt 90 probabilistischen Ausgaben verbunden. Wie bei Ensemblemodellen üblich, haben wir dann diese probabilistischen Ausgaben gemittelt (auch als Bagging bezeichnet), um eine einzelne probabilistische Ausgabe zu erhalten,\(\left\{ {\overline s _{{\mathrm{NH}}},\overline s _{ {\mathrm{ND}}},\overline s _{{\mathrm{NW}}}} \right\}\), wobei der j-te Wahrscheinlichkeitswert für j ∈ [1, C] (C-Kategorien) erhalten wird als folgt:

Ensemble-Modelle übertreffen nicht nur häufig ihre Einzelmodell-Gegenstücke, sondern können auch eine Schätzung der Unsicherheit einer Klassifizierung liefern. Eine solche Unsicherheitsquantifizierung kann nützlich sein, um Videobeispiele außerhalb der Verteilung52 zu identifizieren, beispielsweise solche, die das Modell noch nie zuvor gesehen hat, oder um Videobeispiele hervorzuheben, bei denen die Klassifizierung mehrdeutig und daher möglicherweise ungenau ist. Um die Unsicherheit zu quantifizieren, haben wir uns von neueren Arbeiten53 inspirieren lassen und die Entropie S der resultierenden probabilistischen Ausgabe nach dem Absacken berechnet. Da eine hohe Entropie eine hohe Unsicherheit mit sich bringt, können wir auf die Berücksichtigung von Klassifizierungen verzichten, deren Entropie einen bestimmten Schwellenwert überschreitet, Sthresh:

Sobald wir die Vorhersagen herausgefiltert haben, die unsicher sind (d. h. eine hohe Entropie aufweisen), blieben uns individuelle Vorhersagen für jede Subphase über einen Zeitraum von höchstens 10 s (aufgrund der Art und Weise, wie wir zuvor Videobeispiele identifiziert hatten). Aus Beobachtungen wissen wir jedoch, dass bestimmte Unterphasen länger als 10 s dauern können (Ergänzende Anmerkung 2). Um dies zu berücksichtigen, haben wir Subphasenvorhersagen aggregiert, die im Zeitverlauf nahe beieinander lagen. Insbesondere haben wir mehrere Vorhersagen derselben Unterphase zu einer einzigen Vorhersage zusammengefasst, wenn sie weniger als 3 s voneinander entfernt waren, wodurch die Vorhersagen praktisch verkettet wurden. Obwohl dieser Wert wahrscheinlich von anderen Entscheidungen im Inferenzprozess abhängt, haben wir festgestellt, dass er zu vernünftigen Ergebnissen führt.

Videobeispiele, die zum Training und zur Bewertung von SAIS zur Dekodierung der sechs Seziergesten verwendet wurden, dauerten durchschnittlich 1–5 s. Dies leitete auch unsere Designentscheidungen für die Schlussfolgerung.

Bei der Inferenz hielten wir es für ausreichend, nur einen der beiden zuvor beschriebenen Inferenzansätze zu übernehmen (Inferenz zur Subphasenerkennung). Konkret präsentierten wir SAIS nicht überlappende 1-sekündige Videobeispiele eines gesamten NS-Videos. Daher wurde jedes 1-s-Videobeispiel mit einer einzelnen probabilistischen Ausgabe \(\{ s_j\} _{j = 1}^6\) verknüpft, die die Wahrscheinlichkeit s jeder der sechs Gesten widerspiegelt.

Wie bei der Schlussfolgerung für die Naht-Subphasenerkennung haben wir die zehn SAIS-Modelle (aus den zehn Monte-Carlo-Falten) und drei TTAs für dieselben Videobeispiele eingesetzt. Somit war jedes 1-s-Videobeispiel mit 10 × 3 = 30 probabilistischen Ausgaben verknüpft. Diese werden dann gemittelt, um eine einzelne probabilistische Ausgabe zu erhalten, \(\{ \bar s_j\} _{j = 1}^6\).

Wir haben auch die Entropie von Gestenklassifizierungen genutzt, um die Unsicherheit zu quantifizieren und so auf die Erstellung äußerst unsicherer Gestenklassifizierungen zu verzichten. Wir haben festgestellt, dass Sthresh = 1,74 zu vernünftigen Ergebnissen führt.

Um der Beobachtung Rechnung zu tragen, dass Gesten sich über mehrere Sekunden erstrecken können, haben wir einzelne 1-s-Vorhersagen aggregiert, die im Zeitverlauf nahe beieinander lagen. Insbesondere haben wir mehrere Vorhersagen derselben Geste zu einer einzigen Vorhersage zusammengefasst, wenn sie weniger als 2 s voneinander entfernt waren. Wenn beispielsweise eine Rückzugsgeste (r) in den Intervallen 10–11 s, 11–12 s und 15–16 s vorhergesagt wird, haben wir dies als zwei unterschiedliche Rückzugsgesten behandelt. Die erste dauert 2 s (10–12 s), die zweite 1 s (15–16 s). Dadurch wird vermieden, dass wir falsche und unvollständige Gesten (z. B. den Anfang oder das Ende einer Geste) im Laufe der Zeit als völlig eigenständige Geste kennzeichnen. Unser 2-s-Intervall führte zu einer gewissen Toleranz gegenüber einer möglichen Fehlklassifizierung zwischen Gesten desselben Typs und ermöglichte die zeitliche Kontinuität der Gesten.

Wir haben SAIS anhand von zwei öffentlich verfügbaren Datensätzen trainiert: JIGSAWS11 und DVC UCL12. Kurz gesagt, diese Datensätze enthalten Videobeispiele von Personen, die Nähgesten entweder in einer kontrollierten Laborumgebung oder während des dorsalen Gefäßkomplexschritts des RARP-Operationsverfahrens ausführen. Für weitere Einzelheiten zu diesen Datensätzen verweisen wir die Leser auf die jeweiligen Originalveröffentlichungen.

Wir folgten dem allgemein akzeptierten Kreuzvalidierungsaufbau, bei dem ein Benutzer weggelassen wird11. Dies beinhaltet das Training anhand von Videobeispielen aller bis auf einen Benutzer und die Auswertung der Videobeispiele des verbleibenden Benutzers. Diese Details finden Sie in einer aktuellen Rezension9.

Dieser Datensatz, der kürzlich im Rahmen der Endoscopic Vision Challenge 2022 am MICCAI veröffentlicht wurde, besteht aus 45 Videos von insgesamt acht Chirurgen, die während des dorsalen Gefäßkomplexschritts des chirurgischen RARP-Eingriffs Nähgesten ausführen12. Der öffentlich verfügbare Datensatz besteht zum Zeitpunkt des Schreibens aus 36 solcher Videos (Tabelle 1). Ähnlich wie bei den von uns verwendeten privaten Datensätzen ist jedes Video (in der Größenordnung von 2–3 Minuten) mit einer Sequenz von acht einzigartigen Nahtgesten sowie ihrer Start- und Endzeit versehen. Beachten Sie, dass diese Anmerkungen nicht der von uns entwickelten Taxonomie folgen und sich daher von denen unterscheiden, die wir im Abschnitt „Beispiele und Anmerkungen zu chirurgischen Videos“ beschrieben haben. Die einzige bisherige Methode zur Auswertung dieses Datensatzes erfolgt anhand eines privaten Testsatzes. Da dieser Testsatz nicht öffentlich verfügbar ist, haben wir einen „Leave One Video Out“-Aufbau gewählt und die zehnfache Kreuzvalidierungsleistung von SAIS angegeben (Ergänzungstabelle 3 für die Anzahl der Videobeispiele in jeder Falte). Ein solcher Aufbau gibt Aufschluss darüber, wie gut SAIS auf ungesehene Videos verallgemeinern kann. Darüber hinaus haben wir angesichts der wenigen Stichproben aus einer der Gestenkategorien (G5) nur zwischen sieben der Gesten unterschieden. Um die Reproduzierbarkeit unserer Ergebnisse zu erleichtern, werden wir die genauen Datenaufteilungen veröffentlichen, die für Training und Tests verwendet wurden.

Wir haben das I3D-Modell trainiert, um das binäre Fähigkeitsniveau der Nadelhandhabung und des Nadelfahrens auf der Grundlage von Videobeispielen des VUA-Schritts zu dekodieren. Für einen fairen Vergleich haben wir das I3D-Modell mit denselben exakten Daten präsentiert, die auch SAIS (unserem Modell) vorgelegt wurden. Beim Training des I3D-Modells folgten wir der in Lit. vorgeschlagenen Kernstrategie. 6. Beispielsweise haben wir die im Kinetics-Datensatz vorab trainierten Parameter geladen und alle bis auf die letzten drei Schichten eingefroren (bezeichnet als Mixed5b, Mixed5c und Logits).

Da wir jedoch festgestellt haben, dass das I3D-Modell sehr empfindlich auf die Wahl der Hyperparameter reagiert, hielten wir es für notwendig, eine umfangreiche Anzahl von Experimenten durchzuführen, um den optimalen Aufbau und die optimalen Hyperparameter für die Dekodierung chirurgischer Fähigkeiten zu ermitteln. Die Einzelheiten hierzu werden im Folgenden beschrieben. Zuerst behielten wir die Logits-Schicht unverändert bei, was zu einer 400-dimensionalen Darstellung führte, und folgten ihr mit einem nichtlinearen Klassifizierungskopf, um beispielsweise die Wahrscheinlichkeit einer hochqualifizierten Aktivität auszugeben. Wir nutzten auch beide Datenmodalitäten (RGB und Flow), was unserer Meinung nach eine Verbesserung gegenüber der ursprünglichen Implementierung darstellte, die nur eine einzige Modalität verwendet hatte. Konkret haben wir die beiden 400-dimensionalen Darstellungen (eine für jede Modalität) zueinander addiert und die resultierende Darstellung durch den oben genannten Klassifizierungskopf geleitet. Da das vorab trainierte I3D eine Eingabe mit 16 Bildern oder einem Vielfachen davon erwartet, haben wir ihm ein Videobeispiel bereitgestellt, das aus 16 gleichmäßig verteilten Bildern zwischen der Startzeit und der Endzeit dieses Beispiels besteht. Obwohl wir auch mit einer anderen Anzahl von Frames experimentiert haben, stellten wir fest, dass die Ergebnisse nicht optimal waren. Um I3D zu trainieren, verwendeten wir eine Stapelgröße von 16 Videobeispielen und eine Lernrate von 1e−3.

Um festzustellen, ob die Kompetenzbewertungen von SAIS mit den Patientenergebnissen zusammenhängen, haben wir ein Experiment mit zwei Varianten durchgeführt. Wir haben SAIS zunächst für den Testsatz von Videobeispielen in jeder Falte des Monte-Carlo-Kreuzvalidierungsaufbaus bereitgestellt. Dies führte zu einer Ausgabe Z1 ∈ [0, 1] für jedes Videobeispiel, die die Wahrscheinlichkeit einer High-Skill-Bewertung widerspiegelt. In der ersten Variante dieses Experiments haben wir jeder Videoprobe, die mit einem chirurgischen Fall verknüpft ist, ein Ergebnis Y zur Wiederherstellung der Harnkontinenz (3 Monate nach der Operation) zugewiesen. Um der Tatsache Rechnung zu tragen, dass ein einzelnes Ergebnis Y mit einem verknüpft ist Für den gesamten chirurgischen Fall haben wir in der zweiten Variante dieses Experiments die Ergebnisse Z für alle Videoproben innerhalb desselben chirurgischen Falles gemittelt. Dadurch verringerte sich natürlich die Gesamtzahl der verfügbaren Proben.

In beiden Experimenten haben wir die Gesamtzahl der vom Chirurgen durchgeführten Roboteroperationen (Fallzahl, Z2) und das Alter des operierten Patienten (Z3) kontrolliert und die probabilistischen Ergebnisse von SAIS mithilfe von a auf das Ergebnis der Wiederherstellung der Harnkontinenz zurückgeführt Logistisches Regressionsmodell (SPSS), wie unten gezeigt (σ ist die Sigmoidfunktion). Nach dem Training dieses Modells haben wir den Koeffizienten b1 extrahiert und das Odds Ratio (OR) und das 95 %-Konfidenzintervall (CI) angegeben.

Weitere Informationen zum Forschungsdesign finden Sie in der mit diesem Artikel verlinkten Nature Portfolio Reporting Summary.

Zu den Daten, die die Ergebnisse dieser Studie stützen, gehören Chirurgen- und Patientendaten. Obwohl die Daten von SAH und HMH nicht öffentlich verfügbar sind, können anonymisierte Daten von USC auf begründete Anfrage der Autoren zur Verfügung gestellt werden.

Der Code wird unter https://github.com/danikiyasseh/SAIS zur Verfügung gestellt.

Weiser, TG et al. Eine Schätzung des globalen Operationsvolumens: eine Modellierungsstrategie basierend auf verfügbaren Daten. Lancet 372, 139–144 (2008).

Artikel PubMed Google Scholar

Sheetz, KH, Claflin, J. & Dimick, JB Trends bei der Einführung der Roboterchirurgie für gängige chirurgische Eingriffe. JAMA Netw. Offen 3, e1918911–e1918911 (2020).

Artikel PubMed PubMed Central Google Scholar

Birkmeyer, JD et al. Chirurgische Fähigkeiten und Komplikationsraten nach bariatrischer Chirurgie. N. engl. J. Med. 369, 1434–1442 (2013).

Artikel CAS PubMed Google Scholar

Zia, A., Hung, A., Essa, I. & Jarc, A. Erkennung chirurgischer Aktivitäten bei der robotergestützten radikalen Prostatektomie mithilfe von Deep Learning. In International Conference on Medical Image Computing and Computer-Assisted Intervention, 273–280 (Springer, 2018).

Luongo, F., Hakim, R., Nguyen, JH, Anandkumar, A. & Hung, AJ Deep-Learning-basierte Computervision zur Erkennung und Klassifizierung von Nahtgesten in der robotergestützten Chirurgie. Chirurgie 169, 1240–1244 (2021).

Artikel PubMed Google Scholar

Funke, I. et al. Verwendung von 3D-Faltungs-Neuronalen Netzen zum Erlernen raumzeitlicher Merkmale für die automatische chirurgische Gestenerkennung im Video. In International Conference on Medical Image Computing and Computer-Assisted Intervention 467–475 (Springer, 2019); https://doi.org/10.1007/978-3-030-32254-0_52

Lavanchy, JL et al. Automatisierung der Beurteilung chirurgischer Fähigkeiten mithilfe eines dreistufigen Algorithmus für maschinelles Lernen. Wissenschaft. Rep. 11, 1–9 (2021).

Google Scholar

Goodman, ED et al. Ein räumlich-zeitliches Echtzeit-KI-Modell analysiert die Fähigkeiten in offenen Operationsvideos. Vorabdruck bei arXiv https://arxiv.org/abs/2112.07219 (2021).

van Amsterdam, B., Clarkson, M. & Stoyanov, D. Gestenerkennung in der Roboterchirurgie: eine Übersicht. IEEE Trans. Biomed. Ing. 68, 2021–2035 (2021).

Kiyasseh, D., Zhu, T. & Clifton, D. Ein klinisches Deep-Learning-Framework zum kontinuierlichen Lernen aus Herzsignalen über Krankheiten, Zeit, Modalitäten und Institutionen hinweg. Nat. Komm. 12, 1–11 (2021).

Artikel Google Scholar

Gao, Y. et al. JHU-ISI-Arbeitssatz zur Gesten- und Fähigkeitsbewertung (JIGSAWS): ein chirurgischer Aktivitätsdatensatz für die Modellierung menschlicher Bewegungen. In Proceedings of the Modeling and Monitoring of Computer Assisted Interventions (M2CAI) – MICCAI Workshop, Bd. 3 (CIRL, Johns Hopkins University, 2014).

Van Amsterdam, B. et al. Gestenerkennung in der Roboterchirurgie mit multimodaler Aufmerksamkeit. IEEE Trans. Med. Bildgebung 41, 1677–1687 (2022).

Kitaguchi, D. et al. Entwicklung und Validierung eines dreidimensionalen neuronalen Faltungsnetzwerks zur automatischen Bewertung chirurgischer Fähigkeiten auf der Grundlage räumlich-zeitlicher Videoanalyse. JAMA Netw. Offen 4, e2120786–e2120786 (2021).

Artikel PubMed PubMed Central Google Scholar

Ghassemi, M., Oakden-Rayner, L. & Beam, AL Die falschen Hoffnungen aktueller Ansätze für erklärbare künstliche Intelligenz im Gesundheitswesen. Lanzettenziffer. Gesundheit 3, e745–e750 (2021).

Artikel CAS PubMed Google Scholar

Sanford, D. et al. Zusammenhang der Bewertungsergebnisse der technischen Nahtfähigkeiten zwischen Virtual-Reality-Simulation und Live-Chirurgie. J. Endourol. 36, 1388–1394 (2022).

Trinh, L. et al. Überlebensanalyse unter Verwendung von Chirurgenkompetenzmetriken und Patientenfaktoren zur Vorhersage der Wiederherstellung der Harnkontinenz nach einer robotergestützten radikalen Prostatektomie. EUR. Urol. Fokus. 8, 623–630 (2022).

Artikel PubMed Google Scholar

Kiyasseh D. et al. Eine multiinstitutionelle Studie, die künstliche Intelligenz nutzt, um Chirurgen zuverlässiges und faires Feedback zu geben. Komm. Med. https://doi.org/10.1038/s43856-023-00263-3 (2023).

Carreira, J. & Zisserman, A. Quo vadis, Handlungserkennung? Ein neues Modell und der Kinetikdatensatz. In Proceedings of IEEE Computer Society Conference on Computer Vision and Pattern Recognition, 6299–6308 (IEEE, 2017).

Kiyasseh, D., Zhu, T. & Clifton, D. CROCS: Clustering und Abruf von Herzsignalen basierend auf Krankheitsklasse, Geschlecht und Alter des Patienten. Adv. Neuronale Inf. Verfahren. Syst. 34, 15557–15569 (2021).

Google Scholar

Bengio, Y., Louradour, J., Collobert, R. & Weston, J. Lehrplanlernen. In Proceedings of the 26th Annual International Conference on Machine Learning, 41–48 (Association for Computing Machinery, 2009).

Kiyasseh D. et al. Menschliche visuelle Erklärungen mildern Verzerrungen bei der KI-basierten Beurteilung der Fähigkeiten von Chirurgen. NPJ-Ziffer. Med. https://doi.org/10.1038/s41746-023-00766-2 (2023).

Collins, JW et al. Ethische Implikationen von KI in der chirurgischen Roboterausbildung: eine Delphi-Konsenserklärung. EUR. Urol. Fokus. 8, 613–622 (2021).

Hashimoto, DA, Rosman, G., Rus, D. & Meireles, OR Künstliche Intelligenz in der Chirurgie: Versprechen und Gefahren. Ann. Surg. 268, 70 (2018).

Artikel PubMed Google Scholar

Maier-Hein, L. et al. Chirurgische Datenwissenschaft für Interventionen der nächsten Generation. Nat. Biomed. Ing. 1, 691–696 (2017).

Artikel PubMed Google Scholar

Weede, O. et al. Arbeitsablaufanalyse und Operationsphasenerkennung in der minimalinvasiven Chirurgie. Im Jahr 2012 IEEE International Conference on Robotics and Biomimetics (ROBIO) 1080–1074 (IEEE, 2012).

Hung, AJ et al. Nutzung von maschinellem Lernen und automatisierten Leistungsmetriken, um die Leistung der robotergestützten radikalen Prostatektomie zu bewerten und Ergebnisse vorherzusagen. J. Endourol. 32, 438–444 (2018).

Artikel PubMed Google Scholar

Hung, AJ, Chen, J. & Gill, IS Automatisierte Leistungsmetriken und Algorithmen für maschinelles Lernen zur Messung der Leistung von Chirurgen und zur Vorhersage klinischer Ergebnisse in der Roboterchirurgie. JAMA Surg. 153, 770–771 (2018).

Artikel PubMed PubMed Central Google Scholar

Hung, AJ et al. Deep Learning zu automatisierten Leistungsmetriken und klinischen Merkmalen zur Vorhersage der Wiederherstellung der Harnkontinenz nach einer robotergestützten radikalen Prostatektomie. BJU Int. 124, 487 (2019).

Artikel PubMed PubMed Central Google Scholar

Nwoye, CI et al. CholecTriplet2021: eine Benchmark-Herausforderung für die Erkennung chirurgischer Drillinge. Vorabdruck bei arXiv https://arxiv.org/abs/2204.04746 (2022).

Béjar Haro, B., Zappella, L. & Vidal, R. Chirurgische Gestenklassifizierung anhand von Videodaten. In International Conference on Medical Image Computing and Computer-Assisted Intervention, 34–41 (Springer-Verlag, 2012).

Khalid, S., Goldenberg, M., Grantcharov, T., Taati, B. & Rudzicz, F. Evaluierung von Deep-Learning-Modellen zur Identifizierung chirurgischer Maßnahmen und Messung der Leistung. JAMA Netw. Offen 3, e201664–e201664 (2020).

Artikel PubMed Google Scholar

van Amsterdam, B., Clarkson, MJ & Stoyanov, D. Multitasking-rekurrentes neuronales Netzwerk für chirurgische Gestenerkennung und Fortschrittsvorhersage. Im Jahr 2020 IEEE International Conference on Robotics and Automation (ICRA), 1380–1386 (IEEE, 2020).

Gao, X., Jin, Y., Dou, Q. & Heng, P.-A. Automatische Gestenerkennung in der robotergestützten Chirurgie mit Verstärkungslernen und Baumsuche. Im Jahr 2020 IEEE International Conference on Robotics and Automation (ICRA), 8440–8446 (IEEE, 2020).

Wu, JY, Tamhane, A., Kazanzides, P. & Unberath, M. Cross-modales selbstüberwachtes Repräsentationslernen zur Gesten- und Fähigkeitserkennung in der Roboterchirurgie. Int. J. Comput. Helfen. Radiol. Surg. 16, 779–787 (2021).

Artikel PubMed Google Scholar

Wagner, M. et al. Vergleichende Validierung von Algorithmen für maschinelles Lernen für chirurgische Arbeitsabläufe und Fähigkeitsanalyse mit dem Heichole-Benchmark. Med. Bild Anal. 86, 102770 (2023).

Zappella, L., Béjar, B., Hager, G. & Vidal, R. Chirurgische Gestenklassifizierung anhand von Video- und kinematischen Daten. Med. Bild Anal. 17, 732–745 (2013).

Artikel PubMed Google Scholar

Bar, O. et al. Einfluss von Daten auf die Verallgemeinerung von KI für Anwendungen der chirurgischen Intelligenz. Wissenschaft. Rep. 10, 1–12 (2020).

Artikel Google Scholar

Vaswani, A. et al. Aufmerksamkeit ist alles, was Sie brauchen. In Advances in Neural Information Processing Systems (Hrsg. Guyon, I. et al.), Bd. 30 (NIPS, 2017).

Garrow, CR et al. Maschinelles Lernen zur Erkennung chirurgischer Phasen: eine systematische Überprüfung. Ann. Surg. 273, 684–693 (2021).

Artikel PubMed Google Scholar

Czempiel, T. et al. Opera: Aufmerksamkeitsregulierte Transformatoren zur chirurgischen Phasenerkennung. In International Conference on Medical Image Computing and Computer-Assisted Intervention, 604–614 (Springer, 2021).

Nwoye, CI et al. Rendezvous: Aufmerksamkeitsmechanismen zur Erkennung chirurgischer Aktionstripel in endoskopischen Videos. Med. Bild Anal. 78, 102433 (2022).

Artikel PubMed Google Scholar

Aspart, F. et al. ClipAssistNet: Bringt Echtzeit-Sicherheitsfeedback in Operationssäle. Int. J. Comput. Helfen. Radiol. Surg. 17, 5–13 (2022).

Artikel PubMed Google Scholar

Nwoye, CI & Padoy, N. Datenaufteilungen und Metriken für das Methoden-Benchmarking an Triplett-Datensätzen für chirurgische Eingriffe. Vorabdruck bei arXiv https://arxiv.org/abs/2204.05235 (2022).

Ma, R. et al. Eine neuartige Klassifizierung der Dissektionsgesten zur Charakterisierung der robotergestützten Dissektionstechnik für die Dissektion des Nierenhilus. J. Urol. 205, 271–275 (2021).

Artikel PubMed Google Scholar

Moy, RL, Waldman, B. & Hein, DW Ein Überblick über Nähte und Nahttechniken. J. Dermatol. Surg. Oncol. 18, 785–795 (1992).

Artikel CAS PubMed Google Scholar

Haque, TF et al. Ein Bewertungstool, um Auszubildenden in der Roboterchirurgie gezieltes Feedback zu geben: Entwicklung und Validierung der End-to-End-Bewertung der Nahtkompetenz (Einfachheit). Urol. Üben. 9, 532–539 (2022).

Hung, AJ et al. Weg zur Automatisierung der Beurteilung der Fertigkeiten des Nahtroboters: Kampf gegen die falsche Kennzeichnung der Grundwahrheit. Chirurgie 171, 915–919 (2022).

Artikel PubMed Google Scholar

Teed, Z. & Deng, J. Raft: Wiederkehrende Feldtransformationen aller Paare für den optischen Fluss. In European Conference on Computer Vision, 402–419 (Springer, 2020).

Dosovitskiy, A. et al. Ein Bild sagt mehr als 16 x 16 Worte: Transformatoren für die Bilderkennung im Maßstab. In International Conference on Learning Representations (ICLR, 2021).

Caron, M. et al. Neue Eigenschaften bei selbstüberwachten Vision-Transformatoren. In IEEE/CVF International Conference on Computer Vision, 9650–9660 (IEEE, 2021).

Paszke, A. et al. Pytorch: eine leistungsstarke Deep-Learning-Bibliothek im Imperativ-Stil. In Advances in Neural Information Processing Systems (Hrsg. Wallach, H. et al.) Bd. 32 (NIPS, 2019).

Roy, AG et al. Weiß Ihr Dermatologie-Klassifikator, was er nicht weiß? Erkennen des langen Schweifs unsichtbarer Bedingungen. Med. Bild Anal. 75, 102274 (2022).

Artikel Google Scholar

Lakshminarayanan, B., Pritzel, A. & Blundell, C. Einfache und skalierbare prädiktive Unsicherheitsschätzung unter Verwendung tiefer Ensembles. In Advances in Neural Information Processing Systems (Hrsg. Guyon, I. et al.), Bd. 30 (NIPS, 2017).

Referenzen herunterladen

Wir danken T. Chu für die Annotation von Videos mit Gesten. Wir danken außerdem J. Laca und J. Nguyen für ihr frühes Feedback zur Präsentation des Manuskripts. AJH gibt seine Unterstützung für die in dieser Studie beschriebene Forschung durch das National Cancer Institute unter der Auszeichnungsnr. R01CA251579-01A1 und ein mehrjähriges Intuitive Surgical Clinical Research Grant.

Abteilung für Informatik und Mathematische Wissenschaften, California Institute of Technology, Pasadena, CA, USA

Dani Kiyasseh & Animashree Anandkumar

Center for Robotic Simulation and Education, Catherine & Joseph Aresty Department of Urology, University of Southern California, Los Angeles, CA, USA

Runzhuo Ma, Taseen F. Haque und Andrew J. Hung

Abteilung für Urologie, Houston Methodist Hospital, Houston, TX, USA

Brian J. Miles

Klinik für Urologie, Kinderurologie und Uro-Onkologie, Prostatazentrum Nordwest, St. Antonius-Krankenhaus, Gronau, Deutschland

Christian Wagner

Abteilung für Neurochirurgie, Zentrum für Neurowissenschaften, Children's National Hospital, Washington, DC, USA

Daniel A. Donoho

Sie können diesen Autor auch in PubMed Google Scholar suchen

Sie können diesen Autor auch in PubMed Google Scholar suchen

Sie können diesen Autor auch in PubMed Google Scholar suchen

Sie können diesen Autor auch in PubMed Google Scholar suchen

Sie können diesen Autor auch in PubMed Google Scholar suchen

Sie können diesen Autor auch in PubMed Google Scholar suchen

Sie können diesen Autor auch in PubMed Google Scholar suchen

Sie können diesen Autor auch in PubMed Google Scholar suchen

DK und AJH waren an der Konzeption der Studie beteiligt. DK trug zum Studiendesign bei, entwickelte die Deep-Learning-Modelle und schrieb das Manuskript. RM und TH lieferten Anmerkungen zu den Videobeispielen. DAD gab ausführliches Feedback zum Manuskript. BJM stellte Daten für die Studie zur Verfügung. CW sammelte Daten von SAH und gab Feedback zum Manuskript. AJH und AA sorgten für die Aufsicht und trugen zur Bearbeitung des Manuskripts bei.

Korrespondenz mit Dani Kiyasseh oder Andrew J. Hung.

DK ist ein bezahlter Mitarbeiter von Vicarious Surgical und Berater von Flatiron Health. CW ist ein bezahlter Berater von Intuitive Surgical. AA ist ein Mitarbeiter von Nvidia. AJH ist Berater von Intuitive Surgical. Die anderen Autoren erklären keine konkurrierenden Interessen.

Nature Biomedical Engineering dankt Masaaki Ito, Jie Ying Wu und den anderen, anonymen Gutachtern für ihren Beitrag zum Peer-Review dieser Arbeit. Peer-Reviewer-Berichte sind verfügbar.

Anmerkung des Herausgebers Springer Nature bleibt hinsichtlich der Zuständigkeitsansprüche in veröffentlichten Karten und institutionellen Zugehörigkeiten neutral.

Ergänzende Hinweise, Abbildungen und Tabellen.

Open Access Dieser Artikel ist unter einer Creative Commons Attribution 4.0 International License lizenziert, die die Nutzung, Weitergabe, Anpassung, Verbreitung und Reproduktion in jedem Medium oder Format erlaubt, sofern Sie den/die ursprünglichen Autor(en) und die Quelle angemessen angeben. Geben Sie einen Link zur Creative Commons-Lizenz an und geben Sie an, ob Änderungen vorgenommen wurden. Die Bilder oder anderes Material Dritter in diesem Artikel sind in der Creative Commons-Lizenz des Artikels enthalten, sofern in der Quellenangabe für das Material nichts anderes angegeben ist. Wenn Material nicht in der Creative-Commons-Lizenz des Artikels enthalten ist und Ihre beabsichtigte Nutzung nicht durch gesetzliche Vorschriften zulässig ist oder über die zulässige Nutzung hinausgeht, müssen Sie die Genehmigung direkt vom Urheberrechtsinhaber einholen. Um eine Kopie dieser Lizenz anzuzeigen, besuchen Sie http://creativecommons.org/licenses/by/4.0/.

Nachdrucke und Genehmigungen

Kiyasseh, D., Ma, R., Haque, TF et al. Ein Vision-Transformator zum Dekodieren der Chirurgenaktivität aus Operationsvideos. Nat. Biomed. Eng (2023). https://doi.org/10.1038/s41551-023-01010-8

Zitat herunterladen

Eingegangen: 22. Juni 2022

Angenommen: 15. Februar 2023

Veröffentlicht: 30. März 2023

DOI: https://doi.org/10.1038/s41551-023-01010-8

Jeder, mit dem Sie den folgenden Link teilen, kann diesen Inhalt lesen:

Leider ist für diesen Artikel derzeit kein Link zum Teilen verfügbar.

Bereitgestellt von der Content-Sharing-Initiative Springer Nature SharedIt

npj Digitale Medizin (2023)