Kopieren+einfügen von text aus PDF-Ergebnisse im Müll

Schreibe ich eine Masterarbeit - NLP system. Ich habe eine Komponente - extractor.

Es ist die Gewinnung einer einfachen text aus PDF-Dateien. Es gibt ein paar PDF-Dateien, die nicht ordnungsgemäß extrahiert. Extractor (PDFBox-Bibliothek) gibt eine Zeichenfolge wie diese:

"┤xDn║wenn|d├gDF"Ti&cD╬lh d FÁhis~n ğ xd f«"d┤ffih »h"

oder

"10a61a91a22a25a3a27a17a23a20a8a13a14a61a25a17"

Ich war die überprüfung jeder Datei, lässt diese Extraktion der problem-und alle diese Dateien' text auch nicht kopieren-einfügen von PDF-Reader (Adobe Reader und FoxIt reader). Betrachten Sie in diesen Leser aktiviert ist, aber nach der Auswahl Ihrer Inhalte und kopieren in die Zwischenablage bekomme ich die gleichen falschen text (wie oben beschrieben - strings, die nicht semantisch korrekte chars oder strings von Ziffern und Buchstaben).

Könnte jemand mir helfen?????

  • Manchmal, Sie können nicht einfach bekommen Sie den text aus, ohne Rückgriff auf OCR (optical character recognition). Das klingt wie einer von Ihnen.
InformationsquelleAutor Michal_R | 2010-05-28
Schreibe einen Kommentar