Wie vergleichen zwei PDF-Dokumenten auf Basis von visual Unterschiede programmgesteuert?

Brauche ich, um zu vergleichen und erhalten Sie alle visuellen Unterschiede in den beiden PDF-Dateien. Ich weiß, es gibt einige Fragen, die im Zusammenhang mit diesem auf stack overflow, aber Sie sind nicht die Erfüllung meiner not.

Ich bin derzeit mit PDFBox zum generieren von Bildern für die Seiten im PDF und vergleicht die bytes der Bilder.

Durch diese Herangehensweise bin ich in der Lage zu wissen, dass insbesondere Seite unterscheiden.

Aber ich muss wissen einige mehr feine details wie Schrift-Größe von text, für sagen, - "Der text" ist, die sich in die Seite, Anzahl, sagen wir 6 in die PDF-Dateien.

Nicht nur für text, aber ich brauche, um zu kümmern sich um all die visuellen Unterschiede wie Bilder, text-charts etc.

Bitte schlagen Sie mich irgendwie zu erreichen.

PS: ich habe versucht mit Apache Tika, aber ich bin immer in dem Sinne, dass es könnte verwendet werden, um strukturierte Texte, die in XHTML und Metadaten. Aber ich sehe die feinen details wie Schriftgröße, schriftart, acht ist nicht angezeigt, in strukturiertem text. Bitte korrigieren Sie mich wenn ich bin falsch verstanden haben.

"...nicht nur für text, aber ich brauche zu kümmern sich um alle visuellen Unterschiede wie Bilder, text-charts, etc...". Auch ein OCR-ist nicht genug für Sie. Sind Sie SICHER ist das machbar? Wirklich SICHER???
Sicher nicht. Okay es auf diese Weise, in der die bytes des Bildes der PDF-Seite ist nicht erzählte mir etwas, wo der Unterschied ist. Jetzt muss ich etwas mehr wissen als die Seite unterscheidet, was tatsächlich unterscheiden. Ich weiß nicht, in welcher Tiefe die unterschiedlichen details, die wir bekommen können. Macht es Sinn?
Ja, wenn Sie PDF-oder Bild, können Sie zumindest geben die Seitenzahl, sondern zu sagen, was anders ist (text oder visuelle Merkmale) naja...das ist IMO wirklich zu Komplex, um Sie machbar
Ist es machbar, durch Umwandlung von PDF in Bild, verwandeln das Bild in ein array von Pixeln, dann tun Sie das gleiche auf einem anderen PDF-Dokument und bei der Iteration durch das array des ersten Bildes, vergleichen Sie die pixel Ihre Farbe, um genauer zu sein) in dieser position, mit den Pixeln in der gleichen position in der zweiten Reihe.
Es gibt tatsächlich software, die diese unterstützt - ich habe bisher gearbeitet mit mindestens einem kommerziellen software-Dienstleister, der software automatisch zu vergleichen, die große Chargen von PDF-Dateien generiert durch die software zur Rechnungsstellung, und Sie waren in der Lage zu lokalisieren, änderungen an der schriftart, Farbe, Veränderungen, etc... in ganz genau im detail. Dies ist jedoch ziemlich Komplex zu schreiben, und wahrscheinlich wäre es ein guter start für die Liste genau, welche änderungen Sie erwarten und wie Sie diese änderungen verursacht werden könnten. Das könnte helfen, festzustellen, ob Sie verwenden können, die Seite, die Beschreibung der Struktur zu suchen, änderungen zum Beispiel.
können Sie mir sagen, den Namen, die kommerzielle software? Ich bin auf der Suche, etwas ähnliches zu tun pdf-Zeichnung-Vergleich und fusionieren einige der highlights/Notizen auf das neue Dokument.

InformationsquelleAutor Prakhar | 2014-01-23

2

PDF-zu-Bild mit Java

Konvertieren von PDF thumbnail-Bild in Java (das ist ein Beispiel von pdf-renderer verwenden hier)

https://www.google.com.br/search?q=PixelGraber&ie=utf-8&oe=utf-8&rls=org.mozilla:pt-BR:official&client=firefox-a&gws_rd=cr&ei=K1PhUqD2Jei0sQTQs4DoAw

Eine gute Bibliothek für die Umwandlung von PDF zu TIFF?

Konvertieren Sie jpeg/png in ein array von Pixeln in java

int Pixel-array zu bmp in java

Suche nach pixel-position

Pixel-Farbe um das Bild herum

Für die Extraktion von text mithilfe der PDFBox: Extrahieren von text aus PDF-Datei mit pdfbox

Gibt es Klassen, in PDFBox für das erkennen von schriftart, position, Typ, Größe und vielleicht (nicht Suche tiefer) andere Einstellungen. (Links unten) könnte Man dann, extrahieren von text aus beiden PDF-Dateien vergleichen, um zu überprüfen, wenn die Texte gleich sind, dann - wenn Sie gleich sind - vergleichen Sie Ihr format. Wenn es etwas anderes, Zeichen für die Anzeige in einem anderen text -, Bild-oder PDF.

http://pdfbox.apache.org/docs/1.8.3/javadocs/org/apache/pdfbox/util/TextPosition.html

http://pdfbox.apache.org/docs/1.8.2/javadocs/org/apache/pdfbox/pdmodel/graphics/PDFontSetting.html
- Ich habe einige hands-on mit PDFTextStripper Klasse zum extrahieren von text und Charakter-level-Formatierung Informationen. Die Sache ist, es ist sehr Komplex, zu vergleichen, in Charakter-level-Formatierung Optionen (viele von Ihnen sind es) für zwei PDF-Dateien. Auch nicht in der Lage zu finden, jeder Weg, um die visuelle Unterschiede in Bildern in PDF-Dateien.
- Vielleicht ist es weniger Komplex ist die Verwendung der Techniken, die ich beschrieben, das heißt, genau das tun, was Sie wollen "von hand". Das könnte auch Ihnen mehr Kontrolle über die Funktionalität. Oder, wenn es wirklich komplexer ist, definieren Sie ein bestimmtes format, das Sie möchten, wie "das richtige format" (ich nehme an, jeder eine eindeutige ID oder name) und vergleichen Sie Ihre IDs oder-Namen. PDFont Klasse hat methot getBaseFont() gibt die PostScript-Namen der Schrift (String). PDFontSetting hat Methode getFontSize() gibt die Größe der schriftart (float).
InformationsquelleAutor rsb2097
0

Überprüfen Sie heraus dieses Java-Paket: https://java.net/projects/pdf-renderer

Können Sie konvertieren Sie die pdf in ein Bild und dann das Bild durchqueren, als ein 2D-array und vergleichen die Unterschiede ähnlich.
- Und in diesem Paket ist, dass alle Sachen oder nur die Umstellung?
- Haben Sie wirklich gelesen und verstanden die Frage?
- Ja. Er versucht, zu vergleichen zwei PDF-Dateien. Sie können alles tun, dieses Bild basiert.
- Die Logik ist die transformation von zwei PDF-Dateien in ein array von Pixeln für jede Datei, die dann die iteration durch die Pixel und schließlich der Vergleich der Farbe mit dem pixel der gleichen position in den anderen arrays. Richtig? Dann könnte es die Anzeige der unterschiedlichen Pixel zwischen den beiden PDF-Dateien mit 100% Deckkraft in der gleichen Datei (und unterschiedlichen Farben für jede PDF-Datei) und die entsprechenden Pixel mit weniger Deckkraft (etwa 50%).
- Du hast es drauf.
InformationsquelleAutor mjkaufer

Schreibe einen Kommentar

Du musst angemeldet sein, um einen Kommentar abzugeben.