Unicode in PDF

Mein Programm erzeugt eine relativ einfache PDF-Dokumente auf Anfrage, aber ich habe Probleme mit unicode-Zeichen, wie kanji oder ungerade mathematische Symbole. Zu schreiben, die einen normalen string in PDF, platzieren Sie Sie in Klammern:

(something)

Gibt es auch die Möglichkeit, zu entkommen, ein Zeichen mit oktal-codes:

(\527)

aber das geht nur bis zu 512 Zeichen. Wie kann man codieren, oder die Flucht höheres Zeichen? Ich habe gesehen, Verweise auf byte-streams und hex-codierte strings, aber keine der Referenzen, die ich gelesen habe, scheinen bereit zu sein, sagen Sie mir, wie Sie es tatsächlich tun.

Edit: Alternativ, zeigen Sie mir eine gute Java PDF-Bibliothek, die nicht den job für mich. Die, die ich bin derzeit mit ist eine version des gnujpdf (das habe ich einige bugs behoben, die seit der original-Autor zu haben scheint, gone AWOL), können Sie das Programm gegen eine AWT-Grafik-Schnittstelle, und idealerweise Ersatz sollte das gleiche tun.

Alternativen zu sein scheinen, entweder HTML -> PDF-Datei, oder eine programmatische Modell basiert auf Absätze und Felder, die fühlt sich sehr ähnlich wie HTML. iText ist ein Beispiel für die letztere. Dies würde bedeuten, umschreiben, meinen bestehenden code, und ich bin nicht davon überzeugt, Sie würde mir die gleiche Flexibilität bei der Verlegung aus.

Edit 2: ich wusste nicht vor, aber die iText-Bibliothek verfügt über ein Graphics2D-API und scheint den Umgang mit unicode-perfekt, also das ist, was ich verwenden werde. Obwohl es nicht eine Antwort auf die Frage gebeten, es löst das problem für mich.

Edit 3: iText funktioniert gut für mich. Ich denke, die Lektion ist, wenn Sie mit etwas konfrontiert werden, scheint sinnlos schwer, suchen Sie sich jemanden, der mehr darüber weiß als Sie.

InformationsquelleAutor der Frage Marcus Downing | 2008-09-24

11

Die einfache Antwort ist, dass es keine einfache Antwort. Wenn Sie einen Blick auf die PDF-Spezifikation, sehen Sie ein ganzes Kapitel — und eine lang — widmet sich den Mechanismen der text-Anzeige. Implementiert habe ich alle PDF-Unterstützung für mein Unternehmen, und der Umgang mit text war mit Abstand der komplexeste Teil der übung. Die Lösung, die Sie vor — verwenden Sie eine 3rd-party-Bibliothek, um die Arbeit für Sie — ist wirklich die beste Wahl, es sei denn, Sie haben sehr spezifische, spezielle-Zweck-Voraussetzungen für Ihre PDF-Dateien.

InformationsquelleAutor der Antwort Derek Clegg
30

In der PDF-Referenz in Kapitel 3, das ist, was Sie sagen, über Unicode:

Text-strings kodiert
entweder PDFDocEncoding oder Unicode-Zeichenkodierung. PDFDocEncoding ist ein
Obermenge der ISO-Latin-1-Codierung und ist dokumentiert in Anhang D. Unicode
beschrieben wird in den Unicode-Standard, der vom Unicode-Konsortium (siehe die Bibliographie).
Für text-Zeichenfolgen in Unicode kodiert, die ersten zwei bytes sein muss, 254, gefolgt von
255. Diese beiden bytes stellen die Unicode-byte-order-Markierung, U+FEFF, die angibt,
dass sich der string wird kodiert in UTF-16BE (big-endian) - Codierungsschema angegeben
im Unicode-standard. (Dieser Mechanismus schließt Anfang einer Zeichenfolge verwenden
PDFDocEncoding mit den beiden Zeichen Dorn ydieresis, was unwahrscheinlich ist,
einen sinnvollen Anfang eines Wortes oder einer phrase).

InformationsquelleAutor der Antwort plinth
7

Algoman Antwort ist falsch in vielen Dingen. Sie kann PDF-Dokumente mit unicode in es', und es ist kein Hexenwerk, aber es braucht etwas Arbeit.
Ja er hat Recht, die Nutzung von mehr als 255 Zeichen in einer schriftart, die Sie haben, erstellen Sie ein composite-Schrift (CIDFont) pdf-Objekt.
Dann nimmt man einfach erwähnen, die eigentliche TrueType-schriftart, die Sie verwenden möchten, als DescendatFont Eintrag von CIDFont.
Der trick ist, dass nach, dass Sie haben zu verwenden Symbolindizes einer schriftart, die statt des Zeichencodes. Um diese Indizes anzeigen, die Sie analysieren cmap Abschnitt einer Schrift - Holen Sie sich den Inhalt der Schrift mit GetFontData Funktion und nehmen Sie die Hände auf TTF-Spezifikation.
Und das ist es! Habe ich gerade getan, und jetzt habe ich eine unicode-pdf!

Beispielcode für parsing - cmap Abschnitt ist hier: https://support.microsoft.com/en-us/kb/241020

Und ja, nicht vergessen /ToUnicode-Eintrag wie @user2373071 darauf hingewiesen, oder der Benutzer nicht in der Lage, suchen Sie Ihre PDF-Datei oder kopieren Sie text aus.

InformationsquelleAutor der Antwort dredkin
3

Siehe Anhang D (Seite 995) mit der PDF-Spezifikation. Es gibt eine begrenzte Anzahl von Schriftarten und Zeichensätze vordefinierte in einer PDF-consumer-Anwendung. Die Darstellung anderer Zeichen, die Sie benötigen, um eine schriftart einbinden, die Sie enthält. Außerdem ist es vorzuziehen, einbetten, nur eine Teilmenge der schriftart, darunter nur erforderlich, Zeichen ein, um die Dateigröße zu verringern. Ich arbeite auch auf die Anzeige von Unicode-Zeichen in PDF und es ist ein großer Aufwand.

Check-out PDFBox oder iText.

http://www.adobe.com/devnet/pdf/pdf_reference.html

InformationsquelleAutor der Antwort jm4
3

Als dredkin darauf hingewiesen, benutzen Sie den glyph-Indizes statt der Unicode-Zeichen-Wert in den Inhalt der Seite stream. Dies ist ausreichend, um anzeigen von Unicode-text im PDF-Format, aber der Unicode-text würde nicht durchsucht werden. Um den text durchsuchbar oder kopieren/einfügen zu arbeiten, werden Sie auch brauchen, um ein /ToUnicode-stream. Dieser stream sollte übersetzen jedes Zeichen in dem Dokument, um den eigentlichen Unicode-Zeichen.

InformationsquelleAutor der Antwort user2373071
2

Ich gearbeitet habe mehrere Tage an diesem Thema und zu dem, was ich gelernt habe ist, dass unicode ist (so gut wie) unmöglich, in der pdf-Datei. Mit 2-byte-Zeichen, die Art und Weise der Plinthe beschrieben funktioniert nur mit CID-Fonts.

scheinbar, CID-Fonts sind im pdf-internen Konstrukt-und Sie sind nicht wirklich Schriftarten in diesem Sinne, Sie scheinen mehr zu werden wie Grafik-Subroutinen, die aufgerufen werden können durch die Auseinandersetzung (mit 16-bit-Adressen).

Also die Verwendung von unicode im pdf - direkt
1. Sie konvertieren müsste normal-fonts CID-Fonts, die ist wohl sehr schwer - man müsste zum generieren der Grafik-Routinen aus der ursprünglichen Schrift(?), extrahieren Sie den Charakter von Metriken etc.
2. Sie nicht verwenden können, CID-Fonts wie normale Schriftarten - Sie können nicht laden oder skalieren Sie so, wie Sie laden und skalieren der normalen Schriftarten
3. auch 2-byte-Zeichen nicht einmal decken den gesamten Unicode-Raum
IMHO, diese Punkte machen es absolut unmöglich für die Verwendung der unicode direkt.

Was ich Tue, sondern jetzt ist mit dem Zeichen indirekt in der folgenden Weise:
Für jede schriftart, Generiere ich eine codepage (und eine lookup-Tabelle für die schnelle lookups) - in c++ ist dies so etwas wie
```
std::map<std::string, std::vector<wchar_t> > Codepage;
std::map<std::string, std::map<wchar_t, int> > LookupTable;
```
dann, Wann ich will, um einige unicode-Zeichenfolge auf eine Seite, die ich Durchlaufen den Charakteren, sehen Sie in der lookup-Tabelle und - wenn Sie neu sind, ich füge Sie zu der code-Seite wie diese:
```
for(std::wstring::const_iterator i = str.begin(); i != str.end(); i++)
{                
    if(LookupTable[fontname].find(*i) == LookupTable[fontname].end())
    {
        LookupTable[fontname][*i] = Codepage[fontname].size();
        Codepage[fontname].push_back(*i);
    }
}
```
dann Erzeuge ich einen neuen string, wo Sie die Zeichen aus dem ursprünglichen string ersetzt werden durch Ihre Positionen in der Zeichentabelle wie diese:
```
static std::string hex = "0123456789ABCDEF";
std::string result = "<";
for(std::wstring::const_iterator i = str.begin(); i != str.end(); i++)
{                
    int id = LookupTable[fontname][*i] + 1;
    result += hex[(id & 0x00F0) >> 4];
    result += hex[(id & 0x000F)];
}
result += ">";
```
beispielsweise "H€llo World!", könnte sich die <01020303040506040703080905>
und jetzt können Sie legen Sie einfach die Zeichenfolge in das pdf-Dokument und haben es gedruckt, mit dem Tj-operator wie gewohnt...

aber Sie haben jetzt ein problem: die pdf nicht wissen, dass Sie bedeuten, dass "H" durch ein 01. Um dieses problem zu lösen Sie auch die Zeichentabelle in der pdf-Datei. Dies geschieht, indem ein /Codierung auf das Font-Objekt und die Einstellung seiner Unterschiede

Für die "H€llo World!" - Beispiel, das Font-Objekt funktionieren würde:
```
5 0 obj 
<<
    /F1
    <<
        /Type /Font
        /Subtype /Type1
        /BaseFont /Times-Roman
        /Encoding
        <<
          /Type /Encoding
          /Differences [ 1 /H /Euro /l /o /space /W /r /d /exclam ]
        >>
    >> 
>>
endobj 
```
Generiere ich es mit diesem code:
```
ObjectOffsets.push_back(stream->tellp()); //xrefs entry
(*stream) << ObjectCounter++ << " 0 obj \n<<\n";
int fontid = 1;
for(std::list<std::string>::iterator i = Fonts.begin(); i != Fonts.end(); i++)
{
    (*stream) << "  /F" << fontid++ << " << /Type /Font /Subtype /Type1 /BaseFont /" << *i;

    (*stream) << " /Encoding << /Type /Encoding /Differences [ 1 \n";
    for(std::vector<wchar_t>::iterator j = Codepage[*i].begin(); j != Codepage[*i].end(); j++)
        (*stream) << "    /" << GlyphName(*j) << "\n";
    (*stream) << "  ] >>";

    (*stream) << " >> \n";
}
(*stream) << ">>\n";
(*stream) << "endobj \n\n";
```
Beachten Sie, dass ich eine Globale schriftart-registrieren - ich benutze den gleichen font-Namen, /F1, /F2,... das ganze pdf-Dokument. Die gleiche schriftart-register Objekt wird in der /Ressourcen Eintrag von allen Seiten. Wenn Sie dies tun, anders (z.B. Sie verwenden eine schriftart-register pro Seite) - Sie möglicherweise anpassen müssen, um den code für Ihre situation zu erhalten...

Also wie finden Sie die Namen der Glyphen (/Euro für "€", /exclam für "!" etc.)? In dem obigen code, dies geschieht einfach durch Aufruf von "GlyphName(*j)". Ich habe generiert diese Methode mit einem BASH-Skript aus der Liste, die in

http://www.jdawiseman.com/papers/trivia/character-entities.html

und es sieht so aus
```
const std::string GlyphName(wchar_t UnicodeCodepoint)
{
    switch(UnicodeCodepoint)
    {
        case 0x00A0: return "nonbreakingspace";
        case 0x00A1: return "exclamdown";
        case 0x00A2: return "cent";
        ...
    }
}
```
Einen großes problem habe ich offen gelassen ist, dass diese funktioniert nur so lange, wie man Sie bei den meisten 254 verschiedene Charaktere aus der gleichen Schrift. Verwenden Sie mehr als 254 verschiedene Zeichen, die Sie erstellen müssen mehrere codepages für die gleiche schriftart.

Innerhalb der pdf, die unterschiedliche codepages sind vertreten durch verschiedene Schriften, so zum Umschalten zwischen codepages, Sie hätten die Schriften wechseln, die theoretisch Blasen Sie Ihre pdf-up noch ein wenig, aber ich kann damit Leben...

InformationsquelleAutor der Antwort Algoman
-1

Ich bin kein PDF-Experte, und (wie Ferruccio sagte) die PDF-Spezifikationen bei Adobe sollte dir alles sagen, aber ein Gedanke kam mir in den Sinn:

Sind Sie sicher, dass Sie eine schriftart, die alle Zeichen unterstützt, die Sie benötigen?

In unserer Anwendung, die wir erstellen, PDF aus HTML-Seiten (mit einem Drittanbieter-Bibliothek), und wir hatten dieses problem mit kyrillischen Zeichen...

InformationsquelleAutor der Antwort Filini

Schreibe einen Kommentar

Du musst angemeldet sein, um einen Kommentar abzugeben.