Performance, Latenz & Kosten

RAG hat mehrere Latenz‑Bausteine: Embedding, Search, Rerank, LLM. Oft lohnt sich Caching (z. B. für Embeddings und häufige Queries).

Hebel

  • Top‑K und Kontext‑Länge optimieren
  • Batch‑Retrieval
  • Reranker nur bei Bedarf (Router)
  • Model‑Mix (SLM für Routing/Grading)

to be continued…