Eigentlich ist das, was ich hier beschreibe, eh ein doofer Ablauf. PDF ist Endstation. Da sollte nicht wieder Text entnommen werden müssen. Trotzdem kommt es immer mal wieder vor, dass PDF als Schnittstelle “missbraucht” wird.
Als Office-Dokument speichern
Um Text aus PDF herauszuholen, habe ich die beste Erfahrung gemacht, wenn ich das PDF in Acrobat Professional (der kostenlose Reader scheint da nicht zu reichen) als Office-Dokument abspeichere. Je nach Inhalt als Word- oder Excel-Dokument (siehe Screenshot oben).
Nicht Copy/Paste
Wenig zielführend zum Entnehmen von Text ist in der Regel Copy/Paste aus dem Reader. Nebst festen Zeilenumbrüchen wirst du mit Copy/Paste meist auch mit Codierungsproblemen bestraft, was zu Zeichen-Verwechslungen führt.
Wird alles besser?
Wenn Adobe das “Next Generation PDF” bringt, soll da auch HTML-Inhalt drin sein. Das würde dann die Situation entschärfen. Denn sauberer HTML-Code (gut strukturiert) wäre natürlich einfacher zu Text zu exportieren, als das heutige PDF, mit den binären Schnipseln.