5) Evals, Monitoring & Betrieb

Ohne Messung wird RAG schnell zum Bauchgefühl. Baue ein kleines Golden‑Set typischer Fragen und messe Retrieval‑Recall, Answer‑Faithfulness und Latenz.

Minimum‑Setup

  • Logging von Query, Top‑K, Quellen
  • p50/p95 Latenz
  • Feedback‑Button (hilfreich/unklar/falsch)

to be continued…