Wie kann ich mit der HTML-parser mit Apache Tika in Java extrahiert alle HTML-tags?

Ich download tika-core und Tikka-parser-Bibliotheken, aber ich konnte nicht finden die Beispiel-codes zu Parsen von HTML-Dokumenten zu string. Ich habe, um loszuwerden, alle html-tags von der Quelle einer web-Seite. Was kann ich tun? Wie kann ich das code unter Verwendung von Apache Tika?

werfen Sie einen Blick auf das Beispiel, es kann Ihnen helfen, blog.jeroenreijn.com/2010/04/...

InformationsquelleAutor lkalay | 2011-03-25

Wollen Sie eine nur-text-version einer html-Datei? Wenn dem so ist, alles, was Sie brauchen, ist etwas wie:

        InputStream input = new FileInputStream("myfile.html");
        ContentHandler handler = new BodyContentHandler();
        Metadata metadata = new Metadata();
        new HtmlParser().parse(input, handler, metadata, new ParseContext());
        String plainText = handler.toString();

Den BodyContentHandler, wenn Sie mit keinen Konstruktor Argumente oder mit einem Zeichen-Grenze, erfassen Sie den text (nur) der Körper der html-und schicken es zurück.

Es wordked, danke.

InformationsquelleAutor Gagravarr

Können Sie auch Sie Tika AutoDetectParser zu analysieren, jede Art von Dateien wie HTML.
Hier ist ein einfaches Beispiel dazu:

    try {
        InputStream input = new FileInputStream(new File(path));
        ContentHandler textHandler = new BodyContentHandler();
        Metadata metadata = new Metadata();
        AutoDetectParser parser = new AutoDetectParser();
        ParseContext context = new ParseContext();
        parser.parse(input, textHandler, metadata, context);
        System.out.println("Title: " + metadata.get(metadata.TITLE));
        System.out.println("Body: " + textHandler.toString());
    } catch (FileNotFoundException e) {
        e.printStackTrace();
    } catch (IOException e) {
        e.printStackTrace();
    } catch (SAXException e) {
        e.printStackTrace();
    } catch (TikaException e) {
        e.printStackTrace();
    }

InformationsquelleAutor UserNeD

Schreibe einen Kommentar

Du musst angemeldet sein, um einen Kommentar abzugeben.