Lesen einer Tabelle oder Zelle mit Wert in einer pdf-Datei mit java?

Ich durchgemacht habe Java und PDF-Foren zu extrahieren, die einen text-Wert aus der Tabelle in einer pdf-Datei, aber konnte Sie nicht finden keine Lösung, außer JPedal (Es ist nicht opensource und lizenziert).

So, ich würde gerne wissen, jede opensource API ' s wie pdfbox, itext, um das gleiche Ergebnis zu erzielen wie JPedal.

Ref. Beispiel:

Ich erinnere mich, mit einer kostenlosen Bibliothek mit dem Namen iText vor vielen Monden... itextpdf.com
iText lizensiert als open source zu. Siehe Ist iText-Java-Bibliothek, die kostenlos oder irgendwelche Gebühren zu zahlen? für mehr info. Nachdem dies gesagt ist, müssen Sie die Antwort auf diese Gegenfrage, bevor jemand Ihnen helfen kann: ist das PDF ein Tagged PDF ist oder nicht? Wenn nicht, es gibt keine Tabelle in der PDF-Datei. Uhr dieses video um mehr zu erfahren über die Struktur. Wo Ihre menschlichen Augen können sehen, ein Tisch, eine Maschine kann nur sehen, Linien und Zeichen, ohne irgendeine Struktur.
Wie Sie den text mit dem Wert aus der Tabelle in einer pdf-Datei?
Indem wir die X-und Y-Koordinaten, auf diese Weise JPedal implementiert die Logik.
Das ist möglich für andere auch.

InformationsquelleAutor sgelle | 2015-02-02

6

In den Kommentaren der OP erklärte, dass er sucht den text-Wert aus der Tabelle in einer pdf-Datei er will-Extrakt

Indem wir die X-und Y-Koordinaten

So, während die Frage zunächst Klang wie eine generische Extraktion von tabellarischen Daten aus PDF-Dateien (die schwierig sein kann, zumindest), es ist eigentlich im wesentlichen über die Extraktion von text aus einem rechteckigen Bereich auf einer Seite gegeben, die durch Koordinaten.

Dies ist möglich mit einer der beiden Bibliotheken, die Sie erwähnt (und sicherlich andere auch).

iText

Beschränken, die region, aus der Sie wollen, um text zu extrahieren, können Sie die RegionTextRenderFilter im FilteredTextRenderListener, z.B.:
```
/**
 * Parses a specific area of a PDF to a plain text file.
 * @param pdf the original PDF
 * @param txt the resulting text
 * @throws IOException
 */
public void parsePdf(String pdf, String txt) throws IOException {
    PdfReader reader = new PdfReader(pdf);
    PrintWriter out = new PrintWriter(new FileOutputStream(txt));
    Rectangle rect = new Rectangle(70, 80, 490, 580);
    RenderFilter filter = new RegionTextRenderFilter(rect);
    TextExtractionStrategy strategy;
    for (int i = 1; i <= reader.getNumberOfPages(); i++) {
        strategy = new FilteredTextRenderListener(new LocationTextExtractionStrategy(), filter);
        out.println(PdfTextExtractor.getTextFromPage(reader, i, strategy));
    }
    out.flush();
    out.close();
    reader.close();
}
```
(ExtractPageContentArea Probe von iText in Action, 2nd edition)

Beachten Sie aber, iText extrahiert text basiert auf den grundlegenden text-chunks, die in den content-stream, basiert nicht auf jede einzelne Glyphe in einem solchen Stück. So das ganze Stück verarbeitet wird, wenn nur der kleinste Teil davon ist in der Gegend.

Dies kann oder kann nicht zu Ihnen passen.

Wenn Sie laufen in das problem, das mehr gewonnen wird, als Sie wollten, Sie sollten, teilen Sie die Stücke in Ihrer konstituierenden Glyphen vorher. Diese stackoverflow-Antwort erklärt, wie das zu tun.

PDFBox

Beschränken, die region, aus der Sie wollen, um text zu extrahieren, können Sie die PDFTextStripperByArea, z.B.:
```
PDDocument document = PDDocument.load( args[0] );
if( document.isEncrypted() )
{
    document.decrypt( "" );
}
PDFTextStripperByArea stripper = new PDFTextStripperByArea();
stripper.setSortByPosition( true );
Rectangle rect = new Rectangle( 10, 280, 275, 60 );
stripper.addRegion( "class1", rect );
List allPages = document.getDocumentCatalog().getAllPages();
PDPage firstPage = (PDPage)allPages.get( 0 );
stripper.extractRegions( firstPage );
System.out.println( "Text in the area:" + rect );
System.out.println( stripper.getTextForRegion( "class1" ) );
```
(ExtractTextByArea aus der PDFBox 1.8.8 Beispiele)
- Hi mkl, mit dieser Lösung werden Leerzeichen abgeschnitten aufgrund dieser nicht in der Lage zu finden, welches Daten bezeichnet, auf die Spalte. Gibt es eine Möglichkeit zu behalten Leerzeichen?
- Für iText Blick auf die Antwort, die erläutert, wie Sie einen text-Extraktion-Strategie basiert auf der LocationTextExtractionStrategy versucht, reflektieren die horizontale layout der PDF-Datei durch einfügen von Leerzeichen, wo nötig. Gleichwertige Techniken sollte möglich sein, für PDFBox.
- href="http://stackoverflow.com/a/28370692/1729265">Die Antwort erklärt, wie Sie mit PDFBox text-Extraktion in einer Weise, die versucht, reflektieren die horizontale layout der PDF-Datei durch einfügen von Leerzeichen, wo nötig.
InformationsquelleAutor mkl

Versuchen PDFTextStream. Zumindest bin ich in der Lage zu identifizieren, die die Werte in der Spalte. Früher war ich mit iText und stecken in der Definition von Strategie. Es schwer ist.

Diese api trennt Spalte Zellen, indem Sie mehr Räume. Seine Feste. Sie können mit Logik. (diese fehlten in iText).

import com.snowtide.PDF;
import com.snowtide.pdf.Document;
import com.snowtide.pdf.OutputTarget;

public class PDFText {
    public static void main(String[] args) throws java.io.IOException {
        String pdfFilePath = "xyz.pdf";

        Document pdf = PDF.open(pdfFilePath);
        StringBuilder text = new StringBuilder(1024);
        pdf.pipe(new OutputTarget(text));
        pdf.close();
        System.out.println(text);
   }
}

Frage gestellt wurde im Zusammenhang mit diesem auf stackoverflow!

InformationsquelleAutor Darpan27

Schreibe einen Kommentar

Du musst angemeldet sein, um einen Kommentar abzugeben.

iText

PDFBox