LlamaIndex fügt private Daten zu großen Sprachmodellen hinzu

Letzten Herbst entdeckte der ehemalige Uber-Forscher Jerry Liu, nachdem er mit dem textgenerierenden KI-Modell GPT-3 von OpenAI – dem Vorgänger von GPT-4 – herumexperimentiert hatte, was er als „Einschränkungen“ in Bezug auf die Fähigkeit des Modells, mit privaten Daten zu arbeiten (z. B. persönliche Dateien). Um dieses Problem zu lösen, startete er ein Open-Source-Projekt, LlamaIndex, das darauf abzielt, die Fähigkeiten und Anwendungsfälle großer Sprachmodelle (LLMs) wie GPT-3 und GPT-4 freizuschalten.

„LLMs bieten unglaubliche Möglichkeiten zur Wissensextraktion und Argumentation – sie können Fragen beantworten, Zusammenfassungen und Erkenntnisse extrahieren und sogar sequentielle Entscheidungen in einer externen Umgebung treffen“, sagte Liu gegenüber TechCrunch in einem E-Mail-Interview. „Aber LLMs haben Grenzen.“

Als das Projekt immer beliebter wurde (bis zu 200.000 Downloads pro Monat), tat sich Liu mit Simon Suo, einem seiner alten Kollegen bei Uber, zusammen, um LlamaIndex in ein vollwertiges Unternehmen zu verwandeln. Heute bietet LlamaIndex (das Unternehmen) ein Framework, das Entwickler dabei unterstützt, die Funktionen von LLMs zusätzlich zu ihren persönlichen oder organisatorischen Daten zu nutzen.

„LlamaIndex [hilft] Entwicklern, ihre Daten für LLM-Anwendungen zu verwalten“, sagte Liu. „Unser Toolkit bietet in diesem Aspekt die größte Tiefe und wir ermöglichen eine einfache Integration mit anderen Tools, die der Entwickler verwendet.“

Bildnachweis:LamaIndex

Mit dem LlamaIndex-Framework können Entwickler Daten aus Dateien wie PDFs, PowerPoints, Apps wie Notion und Slack und Datenbanken wie Postgres und MongoDB mit LLMs verbinden. Das Framework umfasst Konnektoren zur Aufnahme von Datenquellen und Datenformaten sowie Möglichkeiten zur Strukturierung von Daten, sodass sie problemlos mit LLMs verwendet werden können.

Darüber hinaus verfügt LlamaIndex über eine Datenabruf- und Abfrageschnittstelle, die es Entwicklern ermöglicht, jede LLM-Eingabeaufforderung einzugeben, um – wie Liu es beschreibt – „kontext- und wissenserweiterte“ Ausgabe zu erhalten.

„Es gibt andere LLM-Anwendungsframeworks, die grundlegende Bausteine für LLM-Anwendungen und -Agenten bieten“, sagte Liu. „Das Besondere an LlamaIndex ist, dass wir uns auf die Verbindung Ihrer Datenquellen mit LLMs konzentrieren und über umfangreiche Tools rund um die Datenaufnahme, Datenverwaltung und -indizierung sowie den Datenabruf in Bezug auf LLM-Anwendungen verfügen.“

Die Aussicht, LLMs auf diese Weise zu erweitern, lockte Investoren an, die in einer kürzlich abgeschlossenen Seed-Finanzierungsrunde 8,5 Millionen US-Dollar für LlamaIndex zusagten. Greylock führte unter Beteiligung von Angel-Investoren, darunter Jack Altman, Lenny Rachitsky und Charles Xie.

Wofür wird LlamaIndex das Geld ausgeben? Liu sagt, dass damit eine „Unternehmenslösung“ auf dem Open-Source-LlamaIndex-Projekt aufgebaut werden soll, das noch in diesem Jahr starten soll. Eine Funktion wird es Kunden ermöglichen, „schutzwürdige“ Datenkonnektoren zu verwenden, um große Datenmengen zu analysieren und zu transportieren, während eine andere, verwandte Funktion es ihnen ermöglicht, „domänenspezifische“ Daten zu indizieren.

„LlamaIndex ist nicht an eine bestimmte Technologie gebunden, sodass wir weiterhin mit LLMs verwendet werden können, während sich die Technologie weiterentwickelt“, sagte Liu. „Die KI-Branche entwickelt sich so schnell, dass sich alle ersten Stacks, die entstehen, im Laufe der nächsten Monate wahrscheinlich ändern werden.“

Bildnachweis: