2) Parsing, Chunking & Metadaten
Wenn das Parsing schlecht ist (Tabellen, Spalten, Kopf-/Fußzeilen), leidet das gesamte System. Danach kommt Chunking: zu groß → unpräzise, zu klein → Kontext bricht auseinander.
Gute Defaults
- Chunking entlang Überschriften/Absätzen (semantisch).
- Leichtes Overlap (damit Definitionen nicht getrennt werden).
- Boilerplate entfernen (Navigation, Footer).
to be continued…