5) Evals, Monitoring & Betrieb
Ohne Messung wird RAG schnell zum Bauchgefühl. Baue ein kleines Golden‑Set typischer Fragen und messe Retrieval‑Recall, Answer‑Faithfulness und Latenz.
Minimum‑Setup
- Logging von Query, Top‑K, Quellen
- p50/p95 Latenz
- Feedback‑Button (hilfreich/unklar/falsch)
to be continued…