2) Parsing, Chunking & Metadaten

Wenn das Parsing schlecht ist (Tabellen, Spalten, Kopf-/Fußzeilen), leidet das gesamte System. Danach kommt Chunking: zu groß → unpräzise, zu klein → Kontext bricht auseinander.

Gute Defaults

  • Chunking entlang Überschriften/Absätzen (semantisch).
  • Leichtes Overlap (damit Definitionen nicht getrennt werden).
  • Boilerplate entfernen (Navigation, Footer).

to be continued…