Wie vergleichen zwei PDF-Dokumenten auf Basis von visual Unterschiede programmgesteuert?
Brauche ich, um zu vergleichen und erhalten Sie alle visuellen Unterschiede in den beiden PDF-Dateien. Ich weiß, es gibt einige Fragen, die im Zusammenhang mit diesem auf stack overflow, aber Sie sind nicht die Erfüllung meiner not.
Ich bin derzeit mit PDFBox zum generieren von Bildern für die Seiten im PDF und vergleicht die bytes der Bilder.
Durch diese Herangehensweise bin ich in der Lage zu wissen, dass insbesondere Seite unterscheiden.
Aber ich muss wissen einige mehr feine details wie Schrift-Größe von text, für sagen, - "Der text" ist, die sich in die Seite, Anzahl, sagen wir 6 in die PDF-Dateien.
Nicht nur für text, aber ich brauche, um zu kümmern sich um all die visuellen Unterschiede wie Bilder, text-charts etc.
Bitte schlagen Sie mich irgendwie zu erreichen.
PS: ich habe versucht mit Apache Tika, aber ich bin immer in dem Sinne, dass es könnte verwendet werden, um strukturierte Texte, die in XHTML und Metadaten. Aber ich sehe die feinen details wie Schriftgröße, schriftart, acht ist nicht angezeigt, in strukturiertem text. Bitte korrigieren Sie mich wenn ich bin falsch verstanden haben.
- "...nicht nur für text, aber ich brauche zu kümmern sich um alle visuellen Unterschiede wie Bilder, text-charts, etc...". Auch ein OCR-ist nicht genug für Sie. Sind Sie SICHER ist das machbar? Wirklich SICHER???
- Sicher nicht. Okay es auf diese Weise, in der die bytes des Bildes der PDF-Seite ist nicht erzählte mir etwas, wo der Unterschied ist. Jetzt muss ich etwas mehr wissen als die Seite unterscheidet, was tatsächlich unterscheiden. Ich weiß nicht, in welcher Tiefe die unterschiedlichen details, die wir bekommen können. Macht es Sinn?
- Ja, wenn Sie PDF-oder Bild, können Sie zumindest geben die Seitenzahl, sondern zu sagen, was anders ist (text oder visuelle Merkmale) naja...das ist IMO wirklich zu Komplex, um Sie machbar
- Ist es machbar, durch Umwandlung von PDF in Bild, verwandeln das Bild in ein array von Pixeln, dann tun Sie das gleiche auf einem anderen PDF-Dokument und bei der Iteration durch das array des ersten Bildes, vergleichen Sie die pixel Ihre Farbe, um genauer zu sein) in dieser position, mit den Pixeln in der gleichen position in der zweiten Reihe.
- Es gibt tatsächlich software, die diese unterstützt - ich habe bisher gearbeitet mit mindestens einem kommerziellen software-Dienstleister, der software automatisch zu vergleichen, die große Chargen von PDF-Dateien generiert durch die software zur Rechnungsstellung, und Sie waren in der Lage zu lokalisieren, änderungen an der schriftart, Farbe, Veränderungen, etc... in ganz genau im detail. Dies ist jedoch ziemlich Komplex zu schreiben, und wahrscheinlich wäre es ein guter start für die Liste genau, welche änderungen Sie erwarten und wie Sie diese änderungen verursacht werden könnten. Das könnte helfen, festzustellen, ob Sie verwenden können, die Seite, die Beschreibung der Struktur zu suchen, änderungen zum Beispiel.
- können Sie mir sagen, den Namen, die kommerzielle software? Ich bin auf der Suche, etwas ähnliches zu tun pdf-Zeichnung-Vergleich und fusionieren einige der highlights/Notizen auf das neue Dokument.
Du musst angemeldet sein, um einen Kommentar abzugeben.
PDF-zu-Bild mit Java
Konvertieren von PDF thumbnail-Bild in Java (das ist ein Beispiel von pdf-renderer verwenden hier)
https://www.google.com.br/search?q=PixelGraber&ie=utf-8&oe=utf-8&rls=org.mozilla:pt-BR:official&client=firefox-a&gws_rd=cr&ei=K1PhUqD2Jei0sQTQs4DoAw
Eine gute Bibliothek für die Umwandlung von PDF zu TIFF?
Konvertieren Sie jpeg/png in ein array von Pixeln in java
int Pixel-array zu bmp in java
Suche nach pixel-position
Pixel-Farbe um das Bild herum
Für die Extraktion von text mithilfe der PDFBox: Extrahieren von text aus PDF-Datei mit pdfbox
Gibt es Klassen, in PDFBox für das erkennen von schriftart, position, Typ, Größe und vielleicht (nicht Suche tiefer) andere Einstellungen. (Links unten) könnte Man dann, extrahieren von text aus beiden PDF-Dateien vergleichen, um zu überprüfen, wenn die Texte gleich sind, dann - wenn Sie gleich sind - vergleichen Sie Ihr format. Wenn es etwas anderes, Zeichen für die Anzeige in einem anderen text -, Bild-oder PDF.
http://pdfbox.apache.org/docs/1.8.3/javadocs/org/apache/pdfbox/util/TextPosition.html
http://pdfbox.apache.org/docs/1.8.2/javadocs/org/apache/pdfbox/pdmodel/graphics/PDFontSetting.html
Überprüfen Sie heraus dieses Java-Paket: https://java.net/projects/pdf-renderer
Können Sie konvertieren Sie die pdf in ein Bild und dann das Bild durchqueren, als ein 2D-array und vergleichen die Unterschiede ähnlich.