Zum Hauptinhalt springen
KI & AUTOMATISIERUNG

RAG-Chatbot erstellen: Firmenwissen mit KI durchsuchbar machen

8 min Lesezeit
RAG-Chatbot: Firmenwissen mit KI durchsuchbar machen

ChatGPT weiß viel – aber es weiß nichts über Ihr Unternehmen. Es kennt nicht Ihre aktuellen Preise, Ihre internen Prozesse, Ihre spezifischen Produktdetails oder Ihre Unternehmensrichtlinien. Wer einen KI-Chatbot auf Basis von reinen Sprachmodellen entwickelt, erhält zwar einen freundlichen Gesprächspartner – aber einen, der regelmäßig halluziniert und firmenspezifische Fragen nicht beantworten kann.

RAG (Retrieval Augmented Generation) löst genau dieses Problem. Dieser Artikel erklärt, wie RAG funktioniert, welche Vektordatenbanken für Unternehmen geeignet sind und wie ein RAG-System mit n8n praktisch umgesetzt wird.

Was ist RAG – und warum reicht ChatGPT alleine nicht?

Ein Large Language Model (LLM) wie Claude oder GPT wurde auf riesigen Mengen von Text-Daten trainiert – Büchern, Webseiten, wissenschaftlichen Artikeln. Dieser Trainingsprozess endet zu einem bestimmten Datum (dem „Knowledge Cutoff"). Alles danach, und vor allem alles Unternehmensspezifische, kennt das Modell schlicht nicht.

Das Problem: Ein LLM ohne Zugriff auf konkrete Quellen neigt dazu, zu halluzinieren – es erfindet plausibel klingende, aber falsche Antworten. Für einen Unternehmens-Chatbot ist das fatal: falsche Preise, erfundene Lieferzeiten, nicht existierende Produktmerkmale.

Retrieval Augmented Generation (RAG) löst dieses Problem durch einen einfachen, aber wirkungsvollen Mechanismus: Bevor das LLM antwortet, sucht das System in einer Wissensbasis nach relevanten Textstellen und fügt diese als Kontext in den Prompt ein. Das Modell antwortet dann auf Basis dieser konkreten Quellen – nicht aus dem Gedächtnis.

Stellen Sie sich RAG so vor: Statt einem Experten, der alles auswendig weiß, haben Sie einen sehr klugen Assistenten, der blitzschnell in Ihren Unternehmensunterlagen nachschlagen kann – und nur antwortet, was dort wirklich steht.

Die wichtigsten Vorteile von RAG

  • Keine Halluzinationen zu firmenspezifischen Themen – das System zitiert aus konkreten Dokumenten
  • Immer aktuell – neue Dokumente werden einfach zur Wissensbasis hinzugefügt, kein Neu-Training nötig
  • Quellennachweis – das System kann anzeigen, aus welchem Dokument es die Antwort bezogen hat
  • Günstig – kein teures Fine-Tuning des Modells notwendig
  • DSGVO-freundlich – Firmendaten verlassen nicht das System, nur die relevanten Schnipsel gehen an die API

Dokumente vorbereiten: Chunking und Preprocessing

Ein RAG-System ist nur so gut wie seine Wissensbasis. Die Qualität der Dokumentenvorbereitung entscheidet maßgeblich darüber, ob der Chatbot präzise oder ungenaue Antworten liefert.

Was ist Chunking?

Vektordatenbanken können keine ganzen Dokumente auf einmal verarbeiten – sie arbeiten mit kleinen Textabschnitten, sogenannten Chunks. Das Zerteilen eines Dokuments in sinnvolle Abschnitte heißt Chunking.

Schlechtes Chunking: Ein 50-seitiges Handbuch wird in 500-Zeichen-Blöcke zerteilt, unabhängig von Abschnittsgrenzen. Sätze werden mitten drin getrennt. Der Kontext geht verloren.

Gutes Chunking berücksichtigt:

  • Semantische Grenzen: Chunks enden an Absatz- oder Abschnittsgrenzen, nicht mitten in einem Satz
  • Sinnvolle Chunk-Größe: Typisch 200–500 Token pro Chunk (ca. 150–400 Wörter)
  • Überlappung (Overlap): 10–20 % Überlappung zwischen Chunks erhält den Kontext an den Grenzen
  • Metadaten: Jeder Chunk sollte den Dokumentnamen, die Seitenzahl und das Datum als Metadaten tragen

Geeignete Dokumenttypen für RAG

  • PDFs: Handbücher, Produktdatenbätter, AGBs, Preislisten
  • Word-Dokumente: interne Richtlinien, Prozessbeschreibungen, Templates
  • Webseiten: eigene Website-Inhalte, Support-Artikel, FAQ-Seiten
  • Datenbanken: Produktkataloge, CRM-Einträge, Ticket-Historien (via API-Anbindung)
  • Tabellen: Preislisten, Lagerstände, Spezifikationstabellen (als CSV/JSON)

Vektordatenbanken im Vergleich

Das Herzstück eines RAG-Systems ist die Vektordatenbank. Sie speichert Textabschnitte als mathematische Vektoren (sogenannte Embeddings) und ermöglicht die semantische Suche – also das Finden von Textstellen, die inhaltlich ähnlich sind, nicht nur lexikalisch identisch.

Vektordatenbank Hosting Preis DSGVO Stärken
Supabase pgvector Cloud (EU) / Self-hosted Kostenlos (Free Tier) Sehr gut SQL-Integration, einfache Einrichtung, kostenlos
Qdrant Cloud / Self-hosted Kostenlos (1 GB) Gut (EU-Region) Hohe Performance, Filterung nach Metadaten
Pinecone Cloud (US/EU) Ab 0 $ (Starter) Gut (SOC 2) Sehr schnell, einfache API, skaliert gut
Weaviate Cloud / Self-hosted Kostenlos (Self-hosted) Sehr gut (Self-hosted) GraphQL-API, integrierte Embedding-Modelle
ChromaDB Self-hosted Kostenlos Optimal Einfachste Einrichtung, ideal für Prototypen

Empfehlung für KMUs: Starten Sie mit Supabase pgvector (kostenloser Free Tier, EU-Hosting verfügbar, einfache n8n-Integration) oder Qdrant Cloud (ebenfalls kostenlos bis 1 GB, sehr schnell und DSGVO-freundlich).

RAG-Architektur: Der vollständige Datenfluss

Ein RAG-System besteht aus zwei getrennten Phasen: der Indexierungsphase (einmalig beim Hinzufügen von Dokumenten) und der Abfragephase (bei jeder Nutzerfrage).

Indexierungsphase

  1. Dokument laden: PDF, Word, Webseite oder Datenbankeintrag einlesen
  2. Text extrahieren: Rohtexte aus den Dokumentformaten extrahieren
  3. Chunks erstellen: Text in semantische Abschnitte mit Overlap aufteilen
  4. Embeddings generieren: Jeden Chunk in einen Zahlenvektor umwandeln (via Embedding-API, z. B. OpenAI text-embedding-3-small oder Anthropic)
  5. In Vektordatenbank speichern: Vektor + Originaltext + Metadaten speichern

Abfragephase

  1. Nutzerfrage eingehen: Der Nutzer stellt eine Frage im Chatbot
  2. Frage embedden: Die Frage wird ebenfalls in einen Vektor umgewandelt
  3. Semantische Suche: Die Vektordatenbank sucht die k ähnlichsten Chunks (typisch k=3–5)
  4. Kontext zusammenstellen: Die gefundenen Chunks werden als Kontext an den Prompt angehängt
  5. LLM anfragen: Das Sprachmodell (Claude, GPT etc.) antwortet auf Basis des Kontexts
  6. Antwort zurückgeben: Der Nutzer erhält die Antwort, optional mit Quellenhinweis

Praktischer Aufbau mit n8n

n8n ist ideal für den Aufbau von RAG-Systemen – ohne eigenen Code schreiben zu müssen. Die Plattform bietet native Nodes für Vektordatenbanken, Embedding-APIs und LLM-Modelle.

Indexierungs-Workflow in n8n

Ein typischer Indexierungs-Workflow in n8n besteht aus folgenden Nodes:

  1. Trigger: Neues Dokument in Google Drive / Webhook / Cron-Job
  2. Document Loader: PDF- oder Word-Node zum Lesen des Dokuments
  3. Text Splitter: Recursive Character Text Splitter (Chunk-Größe: 400, Overlap: 50)
  4. Embeddings: OpenAI Embeddings Node (text-embedding-3-small)
  5. Vector Store: Supabase Vector Store Node zum Speichern

Chatbot-Workflow in n8n

  1. Trigger: Chat-Webhook oder n8n Chat-Interface
  2. Embeddings: Nutzerfrage in Vektor umwandeln
  3. Vector Store Retriever: Top-5-ähnlichste Chunks aus Supabase laden
  4. Kontext zusammenstellen: Code-Node zum Formatieren der gefundenen Chunks
  5. AI Agent / LLM Chain: Claude oder GPT mit System-Prompt und Kontext
  6. Antwort senden: Zurück an die Chat-Oberfläche

Qualitätsoptimierung

Ein einfaches RAG-System liefert gute, aber nicht immer optimale Ergebnisse. Folgende Optimierungen verbessern die Qualität deutlich:

Kombiniert semantische Vektorsuche mit klassischer Volltextsuche (BM25). Die Stärke: Bei exakten Begriffen (Artikelnummern, Eigennamen) schlägt die Volltextsuche die semantische Suche. Supabase und Qdrant unterstützen beide Hybrid Search.

Reranking

Nach der ersten Suche werden die Top-20-Ergebnisse durch ein spezialisiertes Reranking-Modell neu bewertet und nach Relevanz sortiert. Nur die besten 3–5 landen dann im Prompt. Das Reranking-Modell von Cohere (cohere.com/rerank) ist hierfür etabliert.

Query Expansion

Die Nutzerfrage wird vor der Suche durch das LLM erweitert oder umformuliert – um auch Dokumente zu finden, die die Frage mit anderen Worten beantworten. Besonders hilfreich bei kurzen oder unklaren Fragen.

Häufig gestellte Fragen

Was ist der Unterschied zwischen RAG und einem normalen KI-Chatbot? expand_more

Ein normaler KI-Chatbot antwortet nur auf Basis seines Trainings-Wissens – und das Trainings-Datum liegt Monate bis Jahre zurück. Unternehmensspezifische Informationen fehlen vollständig. Ein RAG-System ergänzt jede Anfrage mit relevantem Inhalt aus Ihrer eigenen Wissensbasis. Das KI-Modell antwortet dann auf Basis dieser konkreten Quellen, was Halluzinationen drastisch reduziert.

Welche Vektordatenbank ist für ein KMU am besten? expand_more

Für die meisten KMUs empfehle ich Supabase pgvector – es ist kostenlos nutzbar, DSGVO-freundlich (EU-Region verfügbar) und lässt sich einfach mit n8n verbinden. Wer eine rein cloudbasierte Lösung bevorzugt, ist mit Qdrant Cloud gut bedient. Pinecone ist leistungsstark, aber bei höheren Datenmengen kostenpflichtig.

Wie viele Dokumente kann ein RAG-System verarbeiten? expand_more

Technisch sind keine harten Grenzen gesetzt. Praktisch funktioniert ein RAG-System auch mit Tausenden von Seiten – vorausgesetzt, das Chunking ist gut umgesetzt und die Vektordatenbank skaliert. Für typische KMU-Anwendungen mit 10–500 Dokumenten ist die Leistung ausgezeichnet.

Kann RAG auch mit internen Datenbanken verbunden werden? expand_more

Ja – ein erweitertes RAG-System kann nicht nur statische Dokumente, sondern auch dynamische Datenbankabfragen nutzen. Bei jeder Anfrage werden dann aktuelle Daten aus dem CRM, ERP oder der Produktdatenbank abgerufen und in den Kontext eingebettet. Das erfordert mehr Aufwand, liefert aber deutlich aktuellere Antworten.

Fazit: RAG macht KI-Chatbots zuverlässig

Ein KI-Chatbot ohne RAG ist wie ein sehr gebildeter Mitarbeiter, der Ihr Unternehmen noch nie von innen gesehen hat – fähig, aber nutzlos für unternehmensspezifische Fragen. RAG gibt dem Modell Zugang zu Ihrem Firmenwissen und macht es damit zum wertvollen Support-Partner.

Die Technologie ist ausgereift, die Tools sind verfügbar, und mit n8n lässt sich ein funktionsfähiges RAG-System in wenigen Tagen aufbauen. Der entscheidende Aufwand liegt nicht in der Technik, sondern in der Qualität der Wissensbasis.

RAG-Chatbot für Ihr Unternehmen?

Firmenwissen durchsuchbar machen – mit DSGVO-konformem RAG-System auf deutschen Servern.

Zur Leistungsseite

Weiterführende Artikel