vergleichen Sie zwei pdf-Dateien (Ansatz) unter Verwendung der java
schreiben brauche ich eine java-Klasse, vergleicht zwei pdf-Dateien und zeigt die Unterschiede(Unterschiede in text/position/schriftart)
über irgendeine Art der Hervorhebung.
mein Erster Ansatz war die Verwendung pdfbox zum Parsen der Datei mit pdfbox und speichern Sie den extrahierten text mithilfe einiger Daten-Struktur, die mir helfen würde, zu vergleichen.
Gibt es eine java-Bibliothek, können extrahieren Sie den text,die Formatierung beibehalten werden,helfen Sie mir mit index und Vergleich.Kann ich mit tika/google-diff-Spiel für diese.
tika extrahiert text in form von xhtml, aber wie Vergleiche ich zwei xhtml-Dateien?
- github.com/red6/pdfcompare, eine weitere option zu bewerten.
Du musst angemeldet sein, um einen Kommentar abzugeben.
Hatte ich zu vergleichen Tonnen von pdf-Dateien in meinem Projekt. meine Anforderung war ein Vergleich der pdf-Dateien, indem Sie pixel für pixel. Nach viel googeln und ich konnte nicht finden, alles gute, ich landete meine eigene pdf-Dienstprogramm für diesen Zweck.
Bitte überprüfen Sie diesen blog für weitere details & jar download.
http://www.testautomationguru.com/introducing-pdfutil-to-compare-pdf-files-extract-resources/
Als Sie erwähnt, pdfbox um seinen Inhalt zu extrahieren und dann mithilfe google diff zu vergleichen.
Überprüfen Sie diese post auf den Vergleich von PDF-Dokumenten. Beachten Sie die Zeile;
Ich weiß nicht, ob Sie in der Lage waren, Ihr problem zu lösen. Hier ist mein Ansatz, um dieses Problem zu lösen.
Zuerst konvertieren Sie PDFs in HTMLs mit Pdf2dom und verwenden Sie dann daisydiff zu generieren Vergleichs-Bericht im HTML-Format. Wenn Sie möchten, eine PDF-Datei und wandeln Sie dann auf HTML-Bericht in PDF. Aber Bedenken Sie, dass die PDF-zu-HTML-Konvertierung ist nicht 100% genau aufgrund der Komplexität im PDF-Format. Sie können auch versuchen einen anderen Ansatz der Umwandlung von PDFs in Bilder und vergleichen von pixel zu pixel und generiert einen PDF-Bericht. Sie können versuchen, PDFcompare Bibliothek. Es sieht vielversprechend aus für mich. Lassen Sie mich wissen, ob schon jemand dies ausprobiert.
Beziehen sich die unten angegebenen Beispiel-code für die pdf-Vergleich.
zeonpad zur Verfügung gestellt, die freien java-api für den pdf-Vergleich.