RAG

Retrieval-Augmented Generation

Abkürzung: RAG Bezeichnung: Retrieval-Augmented Generation Stand: 13.04.2026

Kurz gesagt

Der schnelle Einstieg in den Begriff.

RAG kombiniert Informationssuche mit generativen Sprachmodellen, damit eine KI vor dem Antworten gezielt aktuelle oder unternehmensspezifische Informationen abrufen und in ihre Antwort einbauen kann.

Begriff

RAG

Wortherkunft (Etymologie)

Der Begriff wurde 2020 von Patrick Lewis und seinem Team bei Facebook AI Research, heute Meta AI, im Paper "Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks" geprägt. Das Team kombinierte damals zwei Welten, die vorher oft getrennt behandelt wurden: klassische Informationssuche und generative Sprachmodelle. Aus der Sicht der KI-Geschichte ist das wichtig, weil RAG den Übergang markiert von Modellen, die nur aus ihrem Trainingswissen antworten, hin zu Systemen, die vor dem Antworten gezielt nachschlagen können.

Allgemeine Bedeutung

Ganz allgemein beschreibt RAG die Idee, dass man vor einer neuen Antwort oder neuen Erstellung zuerst passendes Wissen aus vorhandenen Quellen holt und die Aufgabe dadurch verbessert. Im Alltag wäre das so, als würde jemand nicht einfach aus dem Kopf sprechen, sondern zuerst im Ordner, im Buch oder in den eigenen Notizen nachsehen. Der Kern ist also: erst finden, dann formulieren.

Spezifische Bedeutung im KI-Kontext

Im KI-Kontext bezeichnet RAG eine Technik, bei der ein Large Language Model vor der Antwortgenerierung relevante Dokumente, Textausschnitte oder Daten aus einer externen Wissensquelle abruft. Diese Informationen werden anschließend als zusätzlicher Kontext in den Prompt oder in die Systemverarbeitung eingefügt. Dadurch kann das Modell präzisere, aktuellere und besser belegbare Antworten erzeugen, ohne dass seine Modellgewichte neu trainiert werden müssen.

Verwendungsbereiche

Unternehmensinterne Wissenssysteme, bei denen Richtlinien, Handbücher oder Prozessdokumente für Antworten herangezogen werden.
Kundensupport, wenn Produktdaten, Versandstatus, Vertragsregeln oder Wissensdatenbanken in Echtzeit abgefragt werden müssen.
Branchen mit hohem Genauigkeitsbedarf wie Medizin, Recht, Finanzen oder Compliance, wo Antworten auf belastbaren Quellen beruhen sollen.
Recherche- und Suchsysteme, die nicht nur Links liefern, sondern direkt eine quellenbasierte Zusammenfassung formulieren.
Enterprise-KI allgemein, weil RAG interne Daten mit Sprachmodellen verbindet, ohne jedes Mal ein teures Fine-Tuning zu starten.

Allgemeine Beispiele

Ein Schüler schreibt einen Aufsatz nicht nur aus dem Gedächtnis, sondern schaut vorher in ein Lexikon und in aktuelle Berichte.
Eine Mitarbeiterin beantwortet eine Kundenfrage, indem sie erst im Handbuch nachliest und dann ihre Erklärung formuliert.
Jemand erklärt ein Thema in einer Diskussion erst dann, nachdem er die relevanten Notizen oder Quellen geöffnet hat.

Reale Anwendungsbeispiele

Perplexity AI: Perplexity kombiniert Suche und generative Antworterstellung und zeigt zu Antworten passende Quellen an.
Microsoft Copilot: In Microsoft 365 und anderen Copilot-Umgebungen können interne Dokumente, E-Mails oder Wissensbestände in Antworten einfließen.
Unternehmens-Chatbots: Viele interne Support- und Wissenssysteme nutzen RAG, um Richtlinien, FAQs oder technische Dokumentationen in Echtzeit abzurufen.
Research- und Assistenzsysteme: Juristische, medizinische oder wissenschaftliche Assistenten nutzen RAG, um Fragen auf Basis konkreter Quellen zu beantworten.

Verschiedene Ausprägungen / Varianten

Naive oder Vanilla RAG: Die einfache Grundform: Dokumente werden in kleine Abschnitte zerlegt, in einer Suchstruktur gespeichert und direkt in den Prompt übernommen.
Advanced RAG: Die Suche wird verbessert, etwa durch Query-Rewriting, Reranking, Kontext-Kompression oder Feedback-Schleifen.
Modular RAG: Retrieval, Kontextaufbereitung und Generation werden als austauschbare Bausteine organisiert.
Graph RAG: Statt nur Dokumentteile zu finden, werden Beziehungen in einem Wissensgraphen genutzt, um strukturiertes Wissen abzurufen.
Agentic oder Self RAG: Ein Agent sucht mehrfach nach, überprüft Ergebnisse und verbessert den Retrieval-Prozess während der Aufgabe selbst.
Multi-Modal RAG: Neben Text können auch Bilder, Audio, Video oder Tabellen als abrufbare Wissensquellen dienen.

Probleme beim Einordnen / Herausforderungen

Die Antwort ist nur so gut wie der Retrieval-Schritt. Werden die falschen Dokumente gefunden, entsteht trotz guter Sprachqualität eine falsche Antwort.
RAG erhöht oft die Latenz, weil vor der Generierung noch eine oder mehrere Suchanfragen ausgeführt werden müssen.
Sehr große Wissensbasen bringen Kosten- und Skalierungsprobleme mit sich, besonders wenn viele Nutzer gleichzeitig zugreifen.
Datenschutz und Rechteverwaltung sind kritisch, wenn interne oder sensible Daten in den Kontext eines Modells gelangen.
Halluzinationen werden reduziert, aber nicht völlig beseitigt. Ein Modell kann auch mit guten Quellen noch etwas falsch zusammenfassen oder falsch gewichten.
Lange Kontexte erzeugen das "Lost in the Middle"-Problem: Wichtige Informationen stehen zwar im Kontext, werden aber vom Modell übersehen.

Produktbeispiele

LangChain: Open-Source-Framework, mit dem Entwickler eigene RAG-Pipelines und Agenten zusammenbauen können.
LlamaIndex: Framework für Dokumentindizierung, Retrieval und Kontextaufbereitung in RAG-Systemen.
Cohere Command R: Modellfamilie, die speziell auf RAG- und Unternehmensanwendungen ausgerichtet wurde.
Pinecone, FAISS oder ähnliche Vektordatenbanken: Speichern semantische Repräsentationen von Dokumenten, damit passende Inhalte schnell gefunden werden können.

Theoretische Grundlage (einfach erklärt)

RAG basiert auf zwei einfachen Ideen. Erstens werden Dokumente so umgewandelt, dass ihre Bedeutung vergleichbar wird, zum Beispiel über Embeddings in einem Vektorraum. Dadurch kann ein System ähnliche Inhalte wiederfinden, auch wenn nicht genau dieselben Wörter vorkommen. Zweitens erhält das Sprachmodell diese abgerufenen Inhalte als zusätzliche Notizen und formuliert damit eine Antwort. Bildlich gesprochen ist RAG wie ein sehr schneller Assistent, der zuerst die richtigen Karteikarten aus einem Archiv zieht und sie dann einem sehr guten Formulierer auf den Tisch legt.

Weiterentwicklung und Zukunftsaussichten

RAG hat sich seit 2020 von einer Forschungsidee zu einer Standardtechnik für produktive KI-Systeme entwickelt. In den nächsten Jahren wird RAG voraussichtlich noch stärker multimodal, agentisch und echtzeitfähig werden, sodass Systeme nicht nur Dokumente, sondern auch Bilder, Live-Datenströme oder strukturierte Wissensgraphen einbeziehen. Wirtschaftlich bleibt RAG attraktiv, weil Unternehmen damit ihre eigenen Daten mit KI verbinden können, ohne bei jedem Wissensupdate ein Modell neu trainieren zu müssen. Gesellschaftlich stärkt RAG das Vertrauen in KI, wenn Antworten nachvollziehbarer und quellengebundener werden.

Nähe und Abgrenzung zu anderen Begriffen

LLM – Large Language Models erzeugen die eigentliche Antwort, RAG erweitert sie um externes Wissen.
Fine-Tuning – Fine-Tuning verändert die Modellgewichte dauerhaft, RAG fügt Wissen nur bei Bedarf im Moment der Antwort hinzu.
Halluzination – RAG soll Halluzinationen verringern, auch wenn es sie nicht vollständig verhindert.
Chain of Thought – Chain of Thought verbessert den Denkweg des Modells, RAG liefert externe Fakten für diesen Denkweg.
Vektordatenbank – Vektordatenbanken sind ein häufiges technisches Fundament für den Retrieval-Schritt in RAG-Systemen.

Quellen / Weiterführende Links

Lewis et al. (2020): Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks
Wikipedia: Retrieval-augmented generation
Übersichten und Praxisartikel von AWS, IBM, NVIDIA und Google Cloud zu RAG-Architekturen