pdfbox-header version info Fehler
Ich PDFbox verwendet für die Analyse, das pdf-Dokument.Es wirft Ausnahme, die sagt, dass es nicht finden können, header version info . Irgendeine Idee?
Ich denke, die version ist 1.3 ich sah es, als ich gegossen, jedes byte zu char .
link ist http://www.selab.isti.cnr.it/ws-mate/example.pdf
hier die codes der Methode und Ausgabe:
public String PDFtest(String textLink) throws IOException{
PDFParser parser;
String parsedText = null;
PDFTextStripper pdfStripper;
PDDocument pdDoc;
COSDocument cosDoc;
PDDocumentInformation pdDocInfo;
StringBuilder sd=new StringBuilder();
URL link;
try {
link = new URL(textLink);
URLConnection urlConn = link.openConnection();
BufferedInputStream in = null;
in = new BufferedInputStream(urlConn.getInputStream());
byte data[] = new byte[1024];
in.read(data, 0, 1024);
parser = new PDFParser(in);
parser.parse();
cosDoc = parser.getDocument();
pdfStripper = new PDFTextStripper();
pdDoc = new PDDocument(cosDoc);
parsedText = pdfStripper.getText(pdDoc);
} catch (MalformedURLException ex) {
Logger.getLogger(HTMLhelper.class.getName()).log(Level.SEVERE, null, ex);
}
catch (NumberFormatException e){
System.out.println("hata");
}
return parsedText;
}
Ausnahme:
Exception in thread "main" java.io.IOException: Error: Header doesn't contain versioninfo
at org.apache.pdfbox.pdfparser.PDFParser.parseHeader(PDFParser.java:317)
at org.apache.pdfbox.pdfparser.PDFParser.parse(PDFParser.java:173)
at ParsingMachine.HTMLhelper.PDFtest(HTMLhelper.java:99)
at ParsingMachine.tester.main(tester.java:18)
Java Result: 1
InformationsquelleAutor user2638084 | 2013-09-25
Du musst angemeldet sein, um einen Kommentar abzugeben.
Müssen Sie eine Datei Zusammenführen, die nicht in das pdf-format. Bitte überprüfen Sie sorgfältig, wenn Sie eine Datei in der Liste andere dann pdf.
InformationsquelleAutor asraniinfo
Ihnen, Lesen Sie zuerst die führenden kilobyte an Daten in ein byte-array:
und dann erwartet Sie PDFBox, um zusammen mit der restlichen bytes
Wahrscheinlich die eigentliche PDF-header enthalten ist, in die führenden bytes, die Sie gehalten von der PDFBox-parser.
So einfach, dass PDFBox alle Daten Lesen.
Warum liest du alle Daten aus
in
an alle, bevor PDFBox zu analysieren stream? Einfach nicht!InformationsquelleAutor mkl