Eigentlich ist das, was ich hier beschreibe, eh ein doofer Ablauf. PDF ist Endstation. Da sollte nicht wieder Text entnommen werden müssen. Trotzdem kommt es immer mal wieder vor, dass PDF als Schnittstelle “missbraucht” wird.
Als Office-Dokument speichern
Um Text aus PDF herauszuholen, habe ich die beste Erfahrung gemacht, wenn ich das PDF in Acrobat Professional (der kostenlose Reader scheint da nicht zu reichen) als Office-Dokument abspeichere. Je nach Inhalt als Word- oder Excel-Dokument (siehe Screenshot oben).
Nicht Copy/Paste
Wenig zielführend zum Entnehmen von Text ist in der Regel Copy/Paste aus dem Reader. Nebst festen Zeilenumbrüchen wirst du mit Copy/Paste meist auch mit Codierungsproblemen bestraft, was zu Zeichen-Verwechslungen führt.
Wird alles besser?
Wenn Adobe das “Next Generation PDF” bringt, soll da auch HTML-Inhalt drin sein. Das würde dann die Situation entschärfen. Denn sauberer HTML-Code (gut strukturiert) wäre natürlich einfacher zu Text zu exportieren, als das heutige PDF, mit den binären Schnipseln.
Über mich
Ich bin Business Leadership Coach und konzentriere mich auf Verlage und Agenturen. Ich habe Hunderte von Verlagen und Agenturen weltweit betreut und ihnen geholfen, ihre Prozesse zu optimieren und eine blühende Kultur zu etablieren. Ich bin ein versierter Redner, spreche auf Bühnen mit mehr als 5000 Zuhörern sowie vor Hochschul- und Fachpublikum. Mein Stil ist authentisch, ehrlich und direkt, wobei dein Erfolg immer im Vordergrund steht. Ich lege mehr Wert darauf, meinen Kunden beim Aufbau langfristiger, nachhaltiger Geschäfte zu helfen, als nur auf kurzfristige Gewinne zu achten.