Was ist der Unterschied zwischen RAG und einem normalen KI-Chatbot?

Ein normaler KI-Chatbot (z. B. ChatGPT) antwortet nur auf Basis seines Trainings-Wissens – und das Trainings-Datum liegt Monate bis Jahre zurück. Unternehmensspezifische Informationen fehlen vollständig. Ein RAG-System ergänzt jede Anfrage mit relevantem Inhalt aus Ihrer eigenen Wissensbasis – z. B. Handbücher, FAQs, Produktkataloge. Das KI-Modell antwortet dann auf Basis dieser konkreten Quellen, was Halluzinationen drastisch reduziert.

Welche Vektordatenbank ist für ein KMU am besten?

Für die meisten KMUs empfehle ich Supabase pgvector – es ist kostenlos nutzbar, DSGVO-freundlich (EU-Region verfügbar) und lässt sich einfach mit n8n verbinden. Wer eine rein cloudbasierte Lösung bevorzugt, ist mit Qdrant Cloud gut bedient. Pinecone ist leistungsstark, aber bei höheren Datemengen kostenpflichtig.

Wie viele Dokumente kann ein RAG-System verarbeiten?

Technisch sind keine harten Grenzen gesetzt. Praktisch funktioniert ein RAG-System auch mit Tausenden von Seiten – vorausgesetzt, das Chunking ist gut umgesetzt und die Vektordatenbank skaliert. Für typische KMU-Anwendungen (Handbücher, FAQs, Produktkataloge mit 10–500 Dokumenten) ist die Leistung ausgezeichnet.

Kann RAG auch mit internen Datenbanken verbunden werden?

Ja – ein erweitertes RAG-System kann nicht nur statische Dokumente, sondern auch dynamische Datenbankabfragen nutzen. Bei jeder Anfrage werden dann aktuelle Daten aus dem CRM, ERP oder der Produktdatenbank abgerufen und in den Kontext eingebettet. Das erfordert mehr Aufwand, liefert aber deutlich aktuellere Antworten.

RAG-Chatbot erstellen: Firmenwissen mit KI

ChatGPT weiß viel – aber es weiß nichts über Ihr Unternehmen. Es kennt nicht Ihre aktuellen Preise, Ihre internen Prozesse, Ihre spezifischen Produktdetails oder Ihre Unternehmensrichtlinien. Wer einen KI-Chatbot auf Basis von reinen Sprachmodellen entwickelt, erhält zwar einen freundlichen Gesprächspartner – aber einen, der regelmäßig halluziniert und firmenspezifische Fragen nicht beantworten kann.

RAG (Retrieval Augmented Generation) löst genau dieses Problem. Dieser Artikel erklärt, wie RAG funktioniert, welche Vektordatenbanken für Unternehmen geeignet sind und wie ein RAG-System mit n8n praktisch umgesetzt wird.

Was ist RAG – und warum reicht ChatGPT alleine nicht?

Ein Large Language Model (LLM) wie Claude oder GPT wurde auf riesigen Mengen von Text-Daten trainiert – Büchern, Webseiten, wissenschaftlichen Artikeln. Dieser Trainingsprozess endet zu einem bestimmten Datum (dem „Knowledge Cutoff"). Alles danach, und vor allem alles Unternehmensspezifische, kennt das Modell schlicht nicht.

Das Problem: Ein LLM ohne Zugriff auf konkrete Quellen neigt dazu, zu halluzinieren – es erfindet plausibel klingende, aber falsche Antworten. Für einen Unternehmens-Chatbot ist das fatal: falsche Preise, erfundene Lieferzeiten, nicht existierende Produktmerkmale.

Retrieval Augmented Generation (RAG) löst dieses Problem durch einen einfachen, aber wirkungsvollen Mechanismus: Bevor das LLM antwortet, sucht das System in einer Wissensbasis nach relevanten Textstellen und fügt diese als Kontext in den Prompt ein. Das Modell antwortet dann auf Basis dieser konkreten Quellen – nicht aus dem Gedächtnis.

Stellen Sie sich RAG so vor: Statt einem Experten, der alles auswendig weiß, haben Sie einen sehr klugen Assistenten, der blitzschnell in Ihren Unternehmensunterlagen nachschlagen kann – und nur antwortet, was dort wirklich steht.

Die wichtigsten Vorteile von RAG

Keine Halluzinationen zu firmenspezifischen Themen – das System zitiert aus konkreten Dokumenten
Immer aktuell – neue Dokumente werden einfach zur Wissensbasis hinzugefügt, kein Neu-Training nötig
Quellennachweis – das System kann anzeigen, aus welchem Dokument es die Antwort bezogen hat
Günstig – kein teures Fine-Tuning des Modells notwendig
DSGVO-freundlich – Firmendaten verlassen nicht das System, nur die relevanten Schnipsel gehen an die API

Dokumente vorbereiten: Chunking und Preprocessing

Ein RAG-System ist nur so gut wie seine Wissensbasis. Die Qualität der Dokumentenvorbereitung entscheidet maßgeblich darüber, ob der Chatbot präzise oder ungenaue Antworten liefert.

Was ist Chunking?

Vektordatenbanken können keine ganzen Dokumente auf einmal verarbeiten – sie arbeiten mit kleinen Textabschnitten, sogenannten Chunks. Das Zerteilen eines Dokuments in sinnvolle Abschnitte heißt Chunking.

Schlechtes Chunking: Ein 50-seitiges Handbuch wird in 500-Zeichen-Blöcke zerteilt, unabhängig von Abschnittsgrenzen. Sätze werden mitten drin getrennt. Der Kontext geht verloren.

Gutes Chunking berücksichtigt:

Semantische Grenzen: Chunks enden an Absatz- oder Abschnittsgrenzen, nicht mitten in einem Satz
Sinnvolle Chunk-Größe: Typisch 200–500 Token pro Chunk (ca. 150–400 Wörter)
Überlappung (Overlap): 10–20 % Überlappung zwischen Chunks erhält den Kontext an den Grenzen
Metadaten: Jeder Chunk sollte den Dokumentnamen, die Seitenzahl und das Datum als Metadaten tragen

Geeignete Dokumenttypen für RAG

PDFs: Handbücher, Produktdatenbätter, AGBs, Preislisten
Word-Dokumente: interne Richtlinien, Prozessbeschreibungen, Templates
Webseiten: eigene Website-Inhalte, Support-Artikel, FAQ-Seiten
Datenbanken: Produktkataloge, CRM-Einträge, Ticket-Historien (via API-Anbindung)
Tabellen: Preislisten, Lagerstände, Spezifikationstabellen (als CSV/JSON)

Vektordatenbanken im Vergleich

Das Herzstück eines RAG-Systems ist die Vektordatenbank. Sie speichert Textabschnitte als mathematische Vektoren (sogenannte Embeddings) und ermöglicht die semantische Suche – also das Finden von Textstellen, die inhaltlich ähnlich sind, nicht nur lexikalisch identisch.

Vektordatenbank	Hosting	Preis	DSGVO	Stärken
Supabase pgvector	Cloud (EU) / Self-hosted	Kostenlos (Free Tier)	Sehr gut	SQL-Integration, einfache Einrichtung, kostenlos
Qdrant	Cloud / Self-hosted	Kostenlos (1 GB)	Gut (EU-Region)	Hohe Performance, Filterung nach Metadaten
Pinecone	Cloud (US/EU)	Ab 0 $ (Starter)	Gut (SOC 2)	Sehr schnell, einfache API, skaliert gut
Weaviate	Cloud / Self-hosted	Kostenlos (Self-hosted)	Sehr gut (Self-hosted)	GraphQL-API, integrierte Embedding-Modelle
ChromaDB	Self-hosted	Kostenlos	Optimal	Einfachste Einrichtung, ideal für Prototypen

Empfehlung für KMUs: Starten Sie mit Supabase pgvector (kostenloser Free Tier, EU-Hosting verfügbar, einfache n8n-Integration) oder Qdrant Cloud (ebenfalls kostenlos bis 1 GB, sehr schnell und DSGVO-freundlich).

RAG-Architektur: Der vollständige Datenfluss

Ein RAG-System besteht aus zwei getrennten Phasen: der Indexierungsphase (einmalig beim Hinzufügen von Dokumenten) und der Abfragephase (bei jeder Nutzerfrage).

Indexierungsphase

Dokument laden: PDF, Word, Webseite oder Datenbankeintrag einlesen
Text extrahieren: Rohtexte aus den Dokumentformaten extrahieren
Chunks erstellen: Text in semantische Abschnitte mit Overlap aufteilen
Embeddings generieren: Jeden Chunk in einen Zahlenvektor umwandeln (via Embedding-API, z. B. OpenAI text-embedding-3-small oder Anthropic)
In Vektordatenbank speichern: Vektor + Originaltext + Metadaten speichern

Abfragephase

Nutzerfrage eingehen: Der Nutzer stellt eine Frage im Chatbot
Frage embedden: Die Frage wird ebenfalls in einen Vektor umgewandelt
Semantische Suche: Die Vektordatenbank sucht die k ähnlichsten Chunks (typisch k=3–5)
Kontext zusammenstellen: Die gefundenen Chunks werden als Kontext an den Prompt angehängt
LLM anfragen: Das Sprachmodell (Claude, GPT etc.) antwortet auf Basis des Kontexts
Antwort zurückgeben: Der Nutzer erhält die Antwort, optional mit Quellenhinweis

Praktischer Aufbau mit n8n

n8n ist ideal für den Aufbau von RAG-Systemen – ohne eigenen Code schreiben zu müssen. Die Plattform bietet native Nodes für Vektordatenbanken, Embedding-APIs und LLM-Modelle.

Indexierungs-Workflow in n8n

Ein typischer Indexierungs-Workflow in n8n besteht aus folgenden Nodes:

Trigger: Neues Dokument in Google Drive / Webhook / Cron-Job
Document Loader: PDF- oder Word-Node zum Lesen des Dokuments
Text Splitter: Recursive Character Text Splitter (Chunk-Größe: 400, Overlap: 50)
Embeddings: OpenAI Embeddings Node (text-embedding-3-small)
Vector Store: Supabase Vector Store Node zum Speichern

Chatbot-Workflow in n8n

Trigger: Chat-Webhook oder n8n Chat-Interface
Embeddings: Nutzerfrage in Vektor umwandeln
Vector Store Retriever: Top-5-ähnlichste Chunks aus Supabase laden
Kontext zusammenstellen: Code-Node zum Formatieren der gefundenen Chunks
AI Agent / LLM Chain: Claude oder GPT mit System-Prompt und Kontext
Antwort senden: Zurück an die Chat-Oberfläche

Qualitätsoptimierung

Ein einfaches RAG-System liefert gute, aber nicht immer optimale Ergebnisse. Folgende Optimierungen verbessern die Qualität deutlich:

Hybrid Search

Kombiniert semantische Vektorsuche mit klassischer Volltextsuche (BM25). Die Stärke: Bei exakten Begriffen (Artikelnummern, Eigennamen) schlägt die Volltextsuche die semantische Suche. Supabase und Qdrant unterstützen beide Hybrid Search.

Reranking

Nach der ersten Suche werden die Top-20-Ergebnisse durch ein spezialisiertes Reranking-Modell neu bewertet und nach Relevanz sortiert. Nur die besten 3–5 landen dann im Prompt. Das Reranking-Modell von Cohere (cohere.com/rerank) ist hierfür etabliert.

Query Expansion

Die Nutzerfrage wird vor der Suche durch das LLM erweitert oder umformuliert – um auch Dokumente zu finden, die die Frage mit anderen Worten beantworten. Besonders hilfreich bei kurzen oder unklaren Fragen.

Fazit: RAG macht KI-Chatbots zuverlässig

Ein KI-Chatbot ohne RAG ist wie ein sehr gebildeter Mitarbeiter, der Ihr Unternehmen noch nie von innen gesehen hat – fähig, aber nutzlos für unternehmensspezifische Fragen. RAG gibt dem Modell Zugang zu Ihrem Firmenwissen und macht es damit zum wertvollen Support-Partner.

Die Technologie ist ausgereift, die Tools sind verfügbar, und mit n8n lässt sich ein funktionsfähiges RAG-System in wenigen Tagen aufbauen. Der entscheidende Aufwand liegt nicht in der Technik, sondern in der Qualität der Wissensbasis.

RAG-Chatbot erstellen: Firmenwissen mit KI durchsuchbar machen