Performance, Latenz & Kosten
RAG hat mehrere Latenz‑Bausteine: Embedding, Search, Rerank, LLM. Oft lohnt sich Caching (z. B. für Embeddings und häufige Queries).
Hebel
- Top‑K und Kontext‑Länge optimieren
- Batch‑Retrieval
- Reranker nur bei Bedarf (Router)
- Model‑Mix (SLM für Routing/Grading)
to be continued…