Wie vergleichen zwei PDF-Dokumenten auf Basis von visual Unterschiede programmgesteuert?

Brauche ich, um zu vergleichen und erhalten Sie alle visuellen Unterschiede in den beiden PDF-Dateien. Ich weiß, es gibt einige Fragen, die im Zusammenhang mit diesem auf stack overflow, aber Sie sind nicht die Erfüllung meiner not.

Ich bin derzeit mit PDFBox zum generieren von Bildern für die Seiten im PDF und vergleicht die bytes der Bilder.

Durch diese Herangehensweise bin ich in der Lage zu wissen, dass insbesondere Seite unterscheiden.

Aber ich muss wissen einige mehr feine details wie Schrift-Größe von text, für sagen, - "Der text" ist, die sich in die Seite, Anzahl, sagen wir 6 in die PDF-Dateien.

Nicht nur für text, aber ich brauche, um zu kümmern sich um all die visuellen Unterschiede wie Bilder, text-charts etc.

Bitte schlagen Sie mich irgendwie zu erreichen.

PS: ich habe versucht mit Apache Tika, aber ich bin immer in dem Sinne, dass es könnte verwendet werden, um strukturierte Texte, die in XHTML und Metadaten. Aber ich sehe die feinen details wie Schriftgröße, schriftart, acht ist nicht angezeigt, in strukturiertem text. Bitte korrigieren Sie mich wenn ich bin falsch verstanden haben.

  • "...nicht nur für text, aber ich brauche zu kümmern sich um alle visuellen Unterschiede wie Bilder, text-charts, etc...". Auch ein OCR-ist nicht genug für Sie. Sind Sie SICHER ist das machbar? Wirklich SICHER???
  • Sicher nicht. Okay es auf diese Weise, in der die bytes des Bildes der PDF-Seite ist nicht erzählte mir etwas, wo der Unterschied ist. Jetzt muss ich etwas mehr wissen als die Seite unterscheidet, was tatsächlich unterscheiden. Ich weiß nicht, in welcher Tiefe die unterschiedlichen details, die wir bekommen können. Macht es Sinn?
  • Ja, wenn Sie PDF-oder Bild, können Sie zumindest geben die Seitenzahl, sondern zu sagen, was anders ist (text oder visuelle Merkmale) naja...das ist IMO wirklich zu Komplex, um Sie machbar
  • Ist es machbar, durch Umwandlung von PDF in Bild, verwandeln das Bild in ein array von Pixeln, dann tun Sie das gleiche auf einem anderen PDF-Dokument und bei der Iteration durch das array des ersten Bildes, vergleichen Sie die pixel Ihre Farbe, um genauer zu sein) in dieser position, mit den Pixeln in der gleichen position in der zweiten Reihe.
  • Es gibt tatsächlich software, die diese unterstützt - ich habe bisher gearbeitet mit mindestens einem kommerziellen software-Dienstleister, der software automatisch zu vergleichen, die große Chargen von PDF-Dateien generiert durch die software zur Rechnungsstellung, und Sie waren in der Lage zu lokalisieren, änderungen an der schriftart, Farbe, Veränderungen, etc... in ganz genau im detail. Dies ist jedoch ziemlich Komplex zu schreiben, und wahrscheinlich wäre es ein guter start für die Liste genau, welche änderungen Sie erwarten und wie Sie diese änderungen verursacht werden könnten. Das könnte helfen, festzustellen, ob Sie verwenden können, die Seite, die Beschreibung der Struktur zu suchen, änderungen zum Beispiel.
  • können Sie mir sagen, den Namen, die kommerzielle software? Ich bin auf der Suche, etwas ähnliches zu tun pdf-Zeichnung-Vergleich und fusionieren einige der highlights/Notizen auf das neue Dokument.

InformationsquelleAutor Prakhar | 2014-01-23
Schreibe einen Kommentar