Wie kann ich mit der HTML-parser mit Apache Tika in Java extrahiert alle HTML-tags?
Ich download tika-core und Tikka-parser-Bibliotheken, aber ich konnte nicht finden die Beispiel-codes zu Parsen von HTML-Dokumenten zu string. Ich habe, um loszuwerden, alle html-tags von der Quelle einer web-Seite. Was kann ich tun? Wie kann ich das code unter Verwendung von Apache Tika?
- werfen Sie einen Blick auf das Beispiel, es kann Ihnen helfen, blog.jeroenreijn.com/2010/04/...
Du musst angemeldet sein, um einen Kommentar abzugeben.
Wollen Sie eine nur-text-version einer html-Datei? Wenn dem so ist, alles, was Sie brauchen, ist etwas wie:
Den BodyContentHandler, wenn Sie mit keinen Konstruktor Argumente oder mit einem Zeichen-Grenze, erfassen Sie den text (nur) der Körper der html-und schicken es zurück.
Können Sie auch Sie Tika AutoDetectParser zu analysieren, jede Art von Dateien wie HTML.
Hier ist ein einfaches Beispiel dazu: