Die Kodierung der PDF-text string

Arbeite ich auf parser für PDF-Datei (text-Extraktion).

Wenn Seite Flate-Decodiert (von zlib-Kompression), mein code ist in der Lage, zu Dekomprimieren, "streams", und dann habe ich die Ausgabe (stream-Objekt), so etwas wie unten:

BT
56.8 721.3 Td 
/F2 12 Tf
[<01>2<0203>2<04>-10<0503>2<04>-2<0506070809>2<0A>1<0B>]TJ
ET

Ich bin interessiert in das string-array (operand TJ).

Wie es scheint, gibt es mehrere hex-codierte strings enthalten, in das array, sondern die entsprechenden hex-Werte nicht sinnvoll. Stattdessen erscheint eine Sequenz wie 010203... irgendwie lz77-Komprimierung.

  • Tun PDF-Dateien haben mehrere Ebenen der Kompression?
  • Wie kann ich get plain text aus dem oben genannten string-array?

InformationsquelleAutor Abhishek K | 2015-04-06

Schreibe einen Kommentar