Tag: html-parsing

HTML-parsing wird der Prozess der Verzehr einer Serialisierung eines HTML-Dokuments und die Herstellung einer Darstellung, dass mit dem Sie arbeiten können programmgesteuert — z.B., um zu extrahieren von Daten aus es. Die HTML-Spezifikation definiert einen standard-Algorithmus zum Parsen von HTML, die Anwendung in allen gängigen Browsern.

eine Suche auf einer Website, die über java

Anzahl der Antworten 3 Antworten
Ich Frage mich, wie kann ich machen eine Suche auf einer website, die über java. Ich will zuerst Suche ein Wort auf der web-site. Die web-site ist wieder mir ein paar links. Ich möchte auf diese links

Extrahieren string von HTML-tags mit RegExp (Ruby)

Anzahl der Antworten 3 Antworten
Möchte ich extrahieren "toast" aus einem string <h1>test</h1><div>toast</div>. Was den regulären Ausdruck könnte isolieren, so ein string? Edit: Danke an den user, wer korrigiert die Formatierung. Weitere Infos: Es wird immer nur eine Instanz des div-Tags, die

How to get Inhalt von einem div mit regex

Anzahl der Antworten 1 Antworten
Habe ich Strings wie : <div class="fck_detail"> <table align="center" border="0" cellpadding="3" cellspacing="0" class="tplCaption" width="1"> <tbody> <tr><td> <img alt="nole-1375196668_500x0.jpg" src="http://l.f1.img.vnexpress.net/2013/07/30/nole-1375196668_500x0.jpg" width="500"> </td></tr> <tr><td class="Image"> Djokovic hậm hực với các đàn anh. Ảnh: <em>Livetennisguide.</em> </td></tr> </tbody> </table> <p>Riêng với

HTML5: W3C vs WHATWG. Gibt die maßgebliche spec?

Anzahl der Antworten 5 Antworten
Bin ich auf halbem Weg über einen html-parser gefunden und html5 definiert explizit die Faustregel für die Analyse schlecht gebildet html. (Und ich verwendet, um zu folgern, Sie von DTDs, seufz) Ich Liebe die Tatsache, ich weiß

Tutorial für NodeJS ist htmlparser?

Anzahl der Antworten 1 Antworten
Ich nicht wirklich verstehen, die readme htmlparser.. und ich suchte über das internet aber nicht finden können, eine richtige Anleitung (oder andere NodeJS-Parser). Ich glaube, für die meisten der Zeit, wenn es gibt keine Anleitung für eine

Wie kann ich mit iText zum konvertieren von HTML mit Bildern und hyperlinks in PDF?

Anzahl der Antworten 2 Antworten
Ich versuche zu konvertieren HTML zu PDF mit iTextSharp in einem ASP.NET web-Anwendung, die sowohl MVC, und web-Formulare. Die <img> und <a> Elemente haben absolut und relative URLs, und einige der <img> Elemente sind base64. Typische Antworten

Beispiel für das Parsen von (X)Html mit libxml2 in iOS

Anzahl der Antworten 2 Antworten
Neulich habe ich angefangen zu spielen, um mit der libxml2-lib innerhalb einer iOS-iPhone-Projekt. Ich Lesen Sie einige nützliche links, wie: http://laurentparenteau.com/blog/2009/12/parsing-xhtml-in-c-a-libxml2-tutorial/ sowie einige sehr nette post hier: http://bill.dudney.net/roller/objc/entry/libxml2_push_parsing Habe ich es geschafft zum abrufen von remote-html (mit

Finden und entfernen von html-tags mit dem PHP Simple HTML DOM Parser

Anzahl der Antworten 3 Antworten
Dies ist der code den ich verwende: include 'simple_html_dom.php'; $html = file_get_html('index.html'); echo $html->find('tr', 15); So finden Sie die Zeile 15 der Tabelle. Was ich tun möchte, ist zu entfernen, die Zeile vollständig. Ich habe bereits versucht

Welches ist das beste HTML-tidy pack? Gibt es eine Möglichkeit in HTML-agility-pack um HTML-Webseite aufgeräumt?

Anzahl der Antworten 1 Antworten
Ich bin mit html-agility-pack zum analysieren von html - tabellarische Informationen. Nun gibt es einige html-Inhalt mit fehlenden Ende-tags oder von einer solchen Seite wegen der fehlenden Ende-tags html-agility-pack nicht analysieren, Informationen richtig.So möchte ich zum Ende-tags

Suche für ein PHP-script bereinigen kann, die schlechtes HTML

Anzahl der Antworten 6 Antworten
Ich bin in den Prozess des Schreibens ein PHP-Kommandozeilen-Skript zum konvertieren von Hunderten von HTML-snippets in Markdown mit der Markdownify Bibliothek. Allerdings habe ich über eine situation kommen, wo einige meiner HTML ist nicht strukturiert und gut

Holen Zeichenfolge abgestimmt html-tag mit Hilfe von xpath

Anzahl der Antworten 2 Antworten
Den html-code, der ist blind und Es enthält die Zeichenfolge "PREIS" in html. Dass teilweise string muss abgestimmt werden mit html-text.Wenn der text passt(teilweise übereinstimmung) mit Hilfe von xpath.Sollte es wieder die bestimmten html-Tags Weg. Hinweis: ich

Entfernen Sie alle HTML-tags aus einer Webseite

Anzahl der Antworten 4 Antworten
Ich bin dabei einige BASH-shell-scripting mit curl. Wenn mein curl Befehl gibt text, ich weiß ich habe einen Fehler. Dieser text zurückgegeben curl ist in der Regel in HTML. Ich dachte mir, dass wenn ich Streifen aus

Immer gereinigt HTML im text von HtmlCleaner

Anzahl der Antworten 3 Antworten
Möchte ich sehen, der gereinigt HTML, die wir erhalten von HTMLCleaner. Ich sehe, gibt es eine Methode namens serialisieren auf TagNode, aber nicht wissen, wie es zu benutzen. Hat jemand eine Beispielcode dafür? Dank Nayn InformationsquelleAutor Nayn

Wie man IMG-tag-code vom HTML-Dokument?

Anzahl der Antworten 1 Antworten
wie bekomme ich die img code von einem text? Jetzt bekomme ich den code und die URL, wenn der tag sieht wie folgt aus: text text <img src = "image.gif" />, aber wenn der code <img src

Holen Sie sich ein Liste aller urls in einer web-Seite

Anzahl der Antworten 3 Antworten
Was ist der beste Weg, um ein array von URLs in einer web-Seite? und wie würde ich es tun? Welche Art von url Verwendungen denkt Ihr? href auf links action auf Formen, src auf den Bildern, und

Auszug href-Werte in td-tags in jsoup

Anzahl der Antworten 2 Antworten
Habe ich <table class="table" > <tr> <td><a href="url">text1</a></td> <td>text2</td> </tr> <tr> <td><a href="url2">text</a></td> <td>text</td> </tr> und ich möchten, extrahieren Sie die url und den text für alle Zeilen Ich benutze Document doc = Jsoup.connect(url).get(); for (Element table

Web-Scraping (R?)

Anzahl der Antworten 2 Antworten
Möchte ich, um die Namen der Unternehmen in der mittleren Spalte der diese Seite (Fett geschrieben in blau), sowie die Standort-Anzeige der person, die Registrierung der Beschwerde (z.B. "Indien, Delhi", in grün geschrieben). Im Grunde will ich

JSoup.verbinden Sie wirft Fehler 403 beim apache.httpclient ist in der Lage zu Holen die Inhalte

Anzahl der Antworten 1 Antworten
Ich versuche zu Parsen von HTML-dump von einer bestimmten Seite. Ich verwendet HTML-Parser und auch versucht, JSoup für die Analyse. Fand ich nützliche Funktionen in Jsoup aber ich bin immer 403 Fehler beim Aufruf Document doc =

Web Scraping Rap-lyrics auf Rap Genius w/ Python

Anzahl der Antworten 5 Antworten
Ich bin etwas von einem coding-Anfänger, und ich habe versucht zu kratzen, Andre 3000 die lyrics aus Rap genius, http://genius.com/artists/Andre-3000, durch die Verwendung von Schönen Suppe (Eine Python-Bibliothek für das abrufen von Daten aus HTML-und XML-Dateien). Mein

Error: Call to a member function getElementsByTagName() on a non-object in

Anzahl der Antworten 1 Antworten
Ich versuche zu gehen zu einer bestimmten ul-tag (27 nach meiner Zählung), und dann analysieren Anker, href und seinen Wert. hier ist mein code $wrss = ("http://www.gazetaexpress.com/"); $dom = new DOMDocument(); $dom->loadHTML($wrss); $x=$dom->getElementsByTagName('ul'); $item_title=$x->item(26)->getElementsByTagName('a')->item(0)->childNodes->item(0)->nodeValue; echo $item_title; Dies

Parsing-Tabellen, Zellen, die mit Html-Beweglichkeit in C#

Anzahl der Antworten 2 Antworten
Ich brauche zum analysieren von Html-code. Genauer gesagt, zu analysieren jede Zelle alle Zeilen in allen Tabellen. Jede Zeile, die ein einzelnes Objekt und jede Zelle repräsentieren unterschiedliche Eigenschaften. Ich möchte analysieren, um in der Lage sein,

Python-schöne Suppe wählen Sie text

Anzahl der Antworten 2 Antworten
Der folgenden ist ein Beispiel für den HTML code, den ich will, zu analysieren: <html> <body> <td style="PADDING-LEFT: 5px"bgcolor="ffffff" class="style8"> Example BLAB BLAB BLAB </td> <td style="PADDING-LEFT: 5px"bgcolor="ffffff" class="style8"> BLAB BLAB BLAB </td> <td style="PADDING-LEFT: 5px"bgcolor="ffffff" class="style8">

HTML-Tabelle in PDF mit iText

Anzahl der Antworten 1 Antworten
Ich bin Parsen von html-code mit HTMLWorker in Java und dann einfügen in PDF mit iText. Ich erstelle Dokument, durch aufrufen new Document(PageSize.A4, 40, 40, 40, 40); sollte angeben 40px margin auf allen Seiten, aber wenn ich

Schaben eine Antwort von der ausgewählten option in der dropdown-Liste

Anzahl der Antworten 2 Antworten
Dies ist ein Beispiel einer Seite, die Listen baseball-Statistiken für den ausgewählten Spieler, den säumigen zu dem letzten Jahr (2014, bald 2015) http://www.koreabaseball.com/Record/Player/HitterDetail/Game.aspx?playerId=76325 Dem drop-down-Liste erlaubt dem Benutzer ausgewählte Jahre Jahr 2010, aber nicht ändern der angezeigten

HTML Tabelle in ein pandas Dataframe, nicht Liste der dataframe Objekte

Anzahl der Antworten 2 Antworten
Ich entschuldige mich wenn diese Frage beantwortet wurde, die anderswo aber ich war erfolglos bei der Suche nach einer zufriedenstellenden Antwort hier oder anderswo. Ich bin etwas neu auf python und pandas, und mit einigen Schwierigkeiten bei

Konvertieren von Html-String in HTMLDocument VBA

Anzahl der Antworten 2 Antworten
Ich Schreibe ein makro zu packen, mit dem aktuellen Wechselkurs aus yahoo aber ich habe Probleme beim konvertieren einer html-string in einem HTMLDocument, mir zu erlauben, um die Suche für die gewünschten element-id. Hier ist mein code

regulären Ausdruck übereinstimmen, wird der text in ein div, ignorieren aber die child-Elemente, falls vorhanden

Anzahl der Antworten 2 Antworten
Ich bin, der versucht, die Zeichenfolge enthalten ist, die innerhalb einer <div> das Problem ist ich muss ignorieren Sie alles, was in der child-Elemente innerhalb des div, ich kann nicht scheinen, um es zu passen, wie ich

Schöne Suppe und Tabelle Schaben - lxml vs html-parser

Anzahl der Antworten 1 Antworten
Ich versuche zu extrahieren den HTML-code eine Tabelle aus einer Webseite mit BeautifulSoup. <table class="facts_label" id="facts_table">...</table> Ich würde gerne wissen, warum der code Balg arbeitet mit der "html.parser" und prints zurück none wenn ich "html.parser" für "lxml".

Iterieren über Tisch und rückt die Daten innerhalb von <td> - Tags ohne Verwendung von id-Attribut der Tabelle in java

Anzahl der Antworten 4 Antworten
Ich weiß, es kann getan werden, indem getElementbyId(tableId), aber ich habe nicht id-Attribut hier. Die Tabelle ist wie <table> <tr> <td>data</td> </tr> <tr> <td>data5</td> </tr> <tr> <td>data1</td> <td>data2</td> </tr> </table> Ich bin mit Htmlunit. Gibt es eine

python-BeautifulSoup finde alle Eingaben für bestimmte form

Anzahl der Antworten 1 Antworten
Ich versuche zu verwenden BeautifulSoup zu extrahieren input-Felder für eine bestimmte form. Extrahieren Sie das Formular mit den folgenden: soup.find('form') Nun will ich extrahieren Sie alle Eingabefelder, die ein Kind, um das Formular nur. Wie kann ich

wie zu analysieren markdown via C#

Anzahl der Antworten 2 Antworten
Möchte ich parse ein markdown-Dokument und machen es als formatierte html, wie kann ich es tun bitte? Sollte ich dies von Grund auf, oder jede API kann gegründet werden? also danke. InformationsquelleAutor | 2011-09-05

Erstellen Sie ein array, aus dem Inhalt <div> - tags in php

Anzahl der Antworten 5 Antworten
Habe ich den Inhalt einer web-Seite, die einer Variablen zugewiesen $html Hier ist ein Beispiel für den Inhalt $html: <div class="content">something here</div> <span>something random thrown in <strong>here</strong></span> <div class="content">more stuff</div> Wie, mit PHP kann ich ein array

Ersetzen eines HTML-div-InnerText-tag mit HTML-Agility-Pack

Anzahl der Antworten 1 Antworten
Bin ich mit dem HTML-Agility-Pack zu manipulieren und Bearbeiten eines HTML-Dokuments. Ich möchte den text ändern, der im Feld wie diesem: <div id="Div1"><b>Some text here.</b><br></div> Ich bin auf der Suche zu aktualisieren, wird der text in diesem

Kann nicht mit dem Wert aus der textarea in PHP

Anzahl der Antworten 8 Antworten
Habe ich Probleme, immer den Wert der text-Bereich in PHP (immer undefined). Mein code ist ziemlich einfach. Mein HTML ist: <form name="contactform" method="POST" action="submit_form.php"> <input type="text" class="formInput" placeholder="Your Name" id="first_name" maxlength="50" size="20" /> <input type="text" class="formInput" placeholder="Email

Javascript: Prüfen, ob Seite enthält einen bestimmten div

Anzahl der Antworten 4 Antworten
Wie überprüfe ich mit javascript, wenn die Seite bin ich auf mit einer bestimmten div... e.g turtles turtles es ist eine id oder eine Klasse? Ich möchte prüfen, ob es entweder InformationsquelleAutor Skizit | 2011-02-01

Parsen von HTML-Inhalten in VBA

Anzahl der Antworten 2 Antworten
Ich habe eine Frage in Bezug auf HTML-parsing. Ich habe eine website mit einigen Produkten und ich fangen möchte den text innerhalb der Seite in meiner aktuellen Tabelle. Diese Tabelle ist ziemlich groß, enthält aber ItemNbr in

LXML: Cannot import etree

Anzahl der Antworten 2 Antworten
Ging ich zu dieser Seite heruntergeladen und die tar-Datei : http://pypi.python.org/pypi/lxml/2.3.4#downloads Kopiere ich dann die lxml-Ordner auf meine Python26/Lib-Ordner. Nun, wenn ich den interpreter und geben Sie from lxml import etree bekomme ich die Fehlermeldung: cannot import

Parse HTML-Code in objective C

Anzahl der Antworten 3 Antworten
Habe ich parse eine Html für meine iOS-app. Ich lese im Internet, dass ich nutzen soll die Xpath-und ich fand die Bibliothek TFHpple. Ich sehe, dass diese Bibliothek nutzt die XpathQuery <!DOCTYPE "html"> <html> <head> <meta property="og:site_name"

Wie man img/src oder/hrefs mit Html-Agility-Pack?

Anzahl der Antworten 5 Antworten
Will ich mit dem HTML agility pack Parsen Bild-und href-links aus einer HTML-Seite,aber ich weiß einfach nicht viel über XML oder XPath.Obwohl mit suchen helfen, Dokumente in vielen web-sites,ich kann das problem nicht lösen.Zusätzlich benutze ich C#

Extrahieren Sie Daten von der website via PHP

Anzahl der Antworten 6 Antworten
Ich bin versucht, zu erstellen eine einfache alert-app für einige Freunde. Grundsätzlich möchte ich in der Lage sein, Daten zu extrahieren "Preis" und "Verfügbarkeit" von einer Webseite wie folgende zwei: http://www.sparkfun.com/commerce/product_info.php?products_id=5 http://www.sparkfun.com/commerce/product_info.php?products_id=9279 Ich gemacht habe, die Warnmeldung

Wie zu minifizieren HTML-code?

Anzahl der Antworten 5 Antworten
Meine Idee ist, irgendwie verkleinern HTML-code in server-side, client erhalten weniger bytes. Was meine ich mit "verkleinern"? Nicht zippen. Mehr wie, zum Beispiel, jQuery-Schöpfer tun mit .min.js Versionen. In anderen Worten, ich brauche, um unnötige white-Leerzeichen und

Extrahieren von ausgewählten Spalten aus einer Tabelle mit BeautifulSoup

Anzahl der Antworten 3 Antworten
Ich versuche zum extrahieren der ersten und der Dritten Spalten von diese Daten Tabelle mit BeautifulSoup. Aus der Betrachtung der HTML-die erste Spalte hat eine <th> tag. Die andere Spalte der Interesse hat als <td> tag. In

Beschleunigung beautifulsoup

Anzahl der Antworten 1 Antworten
Bin ich mit einem Spachtel dieser Kurs website und ich Frage mich ob es einen schnelleren Weg zu kratzen, die Seite, sobald ich es in beautifulsoup. Es dauert viel länger, als ich erwartet hätte. Tipps? from selenium

Konvertieren von html in nur-text in VBA

Anzahl der Antworten 5 Antworten
Ich habe ein Excel-sheet mit Zellen, die mit html. Wie kann ich die batch konvertieren Sie Sie in Klartext? Im moment gibt es so viele sinnlose tags und styles. Ich schreiben wollen, es von Grund auf, aber

web scraping java-Anfänger

Anzahl der Antworten 2 Antworten
Ich bin neu in Java, ich möchte wirklich gut in web-scraping und analysieren von Daten Gibt es Websites, die für web-scraping, dass würde mir helfen zu verstehen, wie die APIs wie htmcleaner, web-harvest htmlparser Arbeit?? Bin ich

Wie funktioniert ein parser (z.B. HTML) zu arbeiten?

Anzahl der Antworten 5 Antworten
Für argument Willen vermuten lässt, ein HTML-parser. Habe ich gelesen, dass es tokenizes zuerst alles, und dann analysiert es. Was bedeutet die tokenisierung bedeuten? Funktioniert der parser Lesen jedem Charakter jeden, den Aufbau einer multi-dimensionalen Arrays um

erste Attribut-Wert aus Div-tag durch jSoup

Anzahl der Antworten 2 Antworten
Ich habe ein Div-tag als unten <div id="eventTTL" style="text-transform: uppercase; font-weight: 900;" eventTTL="4583476000">5 days 07:14:41</div> Wie bekomme ich den Wert von eventTTL? Ich möchte den Wert anzuzeigen, der eventTTL ie:) "4583476000". Was für ein Teil brauchen Sie

Einfache libxml2 HTML-parsing-Beispiel mit Objective-c, Xcode, und HTMLparser.h

Anzahl der Antworten 2 Antworten
Bitte kann jemand mir ein einfaches Beispiel analysieren einige HTML mit libxml. #import <libxml2/libxml/HTMLparser.h> NSString *html = @"<ul>" "<li><input type=\"image\" name=\"input1\" value=\"string1value\" /></li>" "<li><input type=\"image\" name=\"input2\" value=\"string2value\" /></li>" "</ul>" "<span class=\"spantext\"><b>Hello World 1</b></span>" "<span class=\"spantext\"><b>Hello World 2</b></span>";

Get (text) in XPath

Anzahl der Antworten 2 Antworten
Habe ich folgende DOM-Struktur, HTML -, ich will (nur üben...) die markierten Daten. Die, die unter dem h2-element. das div[@class="coordsAgence"] - element, einige div-Kinder unter und einige mehr h2 s.. so tun: div[@class="coordsAgence"] Erhalten, die den Wert,

schöne Suppe immer tag.id

Anzahl der Antworten 1 Antworten
Ich versuche, um eine Liste der div-ids von einer Seite. Wenn ich drucken Sie die Attribute, bekomme ich die ids aufgelistet. for tag in soup.find_all(class_="bookmark blurb group") : print(tag.attrs) Ergebnisse in: {'id': 'bookmark_8199633', 'role': 'article', 'class': ['bookmark',