Suche text in PDF-Dateien mit Python?

Problem
Ich bin versucht zu bestimmen, welche Art eines Dokuments (z.B. Flehen, Korrespondenz, Vorladungen, etc), die Sie durch die Suche durch seinen text, vorzugsweise mit python. Alle PDF-Dateien sind durchsuchbar, aber ich habe nicht gefunden, eine Lösung für das Parsen mit python und die Anwendung, ein Skript zu suchen (kurz von dem umwandeln in eine text-Datei zuerst, aber das könnte sein, ressourcenintensive für n Dokumente).

, Was ich bisher getan habe
Ich habe mir in pypdf, pdfminer, adobe pdf-Dokumentation, und alle Fragen, die ich hier finden konnte (obwohl keiner schien direkt dieses Problem zu lösen). PDFminer scheint das größte Potenzial, aber nach dem Lesen durch die Dokumentation bin ich auch nicht sicher, wo zu beginnen.

Gibt es eine einfache, effektive Methode für das Lesen von PDF-text, entweder durch Seite, Zeile oder das gesamte Dokument? Oder andere workarounds?

Ich war auf der Suche nach der gleichen Lösung. Das problem ist, dass PDF-Dokumente sind berüchtigt für das brechen den text in Stücke, die sind schwierig wieder zusammenzubauen. Es hängt davon ab, das Programm schrieb, dass die PDF-Datei. Ich landete mit PDFminer und eine Menge von "elif" - code zu Parsen von PDF-Dokumenten.
Nur ein Gedanke, vielleicht nicht der Praxis... Wenn Sie sind verzweifelt auf der Suche nach einer Abhilfe, die Sie könnten versuchen, den Aufruf pdfgrep (pdfgrep.sourceforge.net) zu tun, die suchen.

InformationsquelleAutor Insarov | 2013-06-13

Schreibe einen Kommentar