pdfbox-header version info Fehler

Ich PDFbox verwendet für die Analyse, das pdf-Dokument.Es wirft Ausnahme, die sagt, dass es nicht finden können, header version info . Irgendeine Idee?

Ich denke, die version ist 1.3 ich sah es, als ich gegossen, jedes byte zu char .
link ist http://www.selab.isti.cnr.it/ws-mate/example.pdf

hier die codes der Methode und Ausgabe:

 public String PDFtest(String textLink) throws IOException{
        PDFParser parser;
        String parsedText = null;
        PDFTextStripper pdfStripper;
        PDDocument pdDoc;
        COSDocument cosDoc;
        PDDocumentInformation pdDocInfo;


    StringBuilder sd=new StringBuilder();
    URL link;
    try {
        link = new URL(textLink);
        URLConnection urlConn = link.openConnection();
        BufferedInputStream in = null;
        in = new BufferedInputStream(urlConn.getInputStream());
        byte data[] = new byte[1024];
        in.read(data, 0, 1024);

    parser = new PDFParser(in);
    parser.parse();
    cosDoc = parser.getDocument();
    pdfStripper = new PDFTextStripper();
    pdDoc = new PDDocument(cosDoc);
    parsedText = pdfStripper.getText(pdDoc);
    } catch (MalformedURLException ex) {
        Logger.getLogger(HTMLhelper.class.getName()).log(Level.SEVERE, null, ex);
    }
    catch (NumberFormatException e){
        System.out.println("hata");
    }

    return parsedText;



}

Ausnahme:

Exception in thread "main" java.io.IOException: Error: Header doesn't contain versioninfo
    at org.apache.pdfbox.pdfparser.PDFParser.parseHeader(PDFParser.java:317)
    at org.apache.pdfbox.pdfparser.PDFParser.parse(PDFParser.java:173)
    at ParsingMachine.HTMLhelper.PDFtest(HTMLhelper.java:99)
    at ParsingMachine.tester.main(tester.java:18)
Java Result: 1

InformationsquelleAutor user2638084 | 2013-09-25

5

Müssen Sie eine Datei Zusammenführen, die nicht in das pdf-format. Bitte überprüfen Sie sorgfältig, wenn Sie eine Datei in der Liste andere dann pdf.

InformationsquelleAutor asraniinfo
0

Ihnen, Lesen Sie zuerst die führenden kilobyte an Daten in ein byte-array:
```
in.read(data, 0, 1024);
```
und dann erwartet Sie PDFBox, um zusammen mit der restlichen bytes
```
parser = new PDFParser(in);
parser.parse();
```
Wahrscheinlich die eigentliche PDF-header enthalten ist, in die führenden bytes, die Sie gehalten von der PDFBox-parser.

So einfach, dass PDFBox alle Daten Lesen.

Ich änderte alle 1024 mit.verfügbar, um alle Daten, sondern Fehler wieder Auftritt.Interessant ist auch, dass die Größe des byte-Arrays ändert sich jedesmal, wenn ich das Programm starte
Warum liest du alle Daten aus in an alle, bevor PDFBox zu analysieren stream? Einfach nicht!

InformationsquelleAutor mkl

Schreibe einen Kommentar

Du musst angemeldet sein, um einen Kommentar abzugeben.