Tag: html-parsing
HTML-parsing wird der Prozess der Verzehr einer Serialisierung eines HTML-Dokuments und die Herstellung einer Darstellung, dass mit dem Sie arbeiten können programmgesteuert — z.B., um zu extrahieren von Daten aus es. Die HTML-Spezifikation definiert einen standard-Algorithmus zum Parsen von HTML, die Anwendung in allen gängigen Browsern.
3
Antworten
Ich Frage mich, wie kann ich machen eine Suche auf einer website, die über java. Ich will zuerst Suche ein Wort auf der web-site. Die web-site ist wieder mir ein paar links. Ich möchte auf diese links
3
Antworten
Möchte ich extrahieren "toast" aus einem string <h1>test</h1><div>toast</div>. Was den regulären Ausdruck könnte isolieren, so ein string? Edit: Danke an den user, wer korrigiert die Formatierung. Weitere Infos: Es wird immer nur eine Instanz des div-Tags, die
1
Antworten
Habe ich Strings wie : <div class="fck_detail"> <table align="center" border="0" cellpadding="3" cellspacing="0" class="tplCaption" width="1"> <tbody> <tr><td> <img alt="nole-1375196668_500x0.jpg" src="http://l.f1.img.vnexpress.net/2013/07/30/nole-1375196668_500x0.jpg" width="500"> </td></tr> <tr><td class="Image"> Djokovic hậm hực với các đàn anh. Ảnh: <em>Livetennisguide.</em> </td></tr> </tbody> </table> <p>Riêng với
5
Antworten
Bin ich auf halbem Weg über einen html-parser gefunden und html5 definiert explizit die Faustregel für die Analyse schlecht gebildet html. (Und ich verwendet, um zu folgern, Sie von DTDs, seufz) Ich Liebe die Tatsache, ich weiß
1
Antworten
Ich nicht wirklich verstehen, die readme htmlparser.. und ich suchte über das internet aber nicht finden können, eine richtige Anleitung (oder andere NodeJS-Parser). Ich glaube, für die meisten der Zeit, wenn es gibt keine Anleitung für eine
2
Antworten
Ich versuche zu konvertieren HTML zu PDF mit iTextSharp in einem ASP.NET web-Anwendung, die sowohl MVC, und web-Formulare. Die <img> und <a> Elemente haben absolut und relative URLs, und einige der <img> Elemente sind base64. Typische Antworten
2
Antworten
Neulich habe ich angefangen zu spielen, um mit der libxml2-lib innerhalb einer iOS-iPhone-Projekt. Ich Lesen Sie einige nützliche links, wie: http://laurentparenteau.com/blog/2009/12/parsing-xhtml-in-c-a-libxml2-tutorial/ sowie einige sehr nette post hier: http://bill.dudney.net/roller/objc/entry/libxml2_push_parsing Habe ich es geschafft zum abrufen von remote-html (mit
3
Antworten
Dies ist der code den ich verwende: include 'simple_html_dom.php'; $html = file_get_html('index.html'); echo $html->find('tr', 15); So finden Sie die Zeile 15 der Tabelle. Was ich tun möchte, ist zu entfernen, die Zeile vollständig. Ich habe bereits versucht
1
Antworten
Ich bin mit html-agility-pack zum analysieren von html - tabellarische Informationen. Nun gibt es einige html-Inhalt mit fehlenden Ende-tags oder von einer solchen Seite wegen der fehlenden Ende-tags html-agility-pack nicht analysieren, Informationen richtig.So möchte ich zum Ende-tags
6
Antworten
Ich bin in den Prozess des Schreibens ein PHP-Kommandozeilen-Skript zum konvertieren von Hunderten von HTML-snippets in Markdown mit der Markdownify Bibliothek. Allerdings habe ich über eine situation kommen, wo einige meiner HTML ist nicht strukturiert und gut
2
Antworten
Den html-code, der ist blind und Es enthält die Zeichenfolge "PREIS" in html. Dass teilweise string muss abgestimmt werden mit html-text.Wenn der text passt(teilweise übereinstimmung) mit Hilfe von xpath.Sollte es wieder die bestimmten html-Tags Weg. Hinweis: ich
4
Antworten
Ich bin dabei einige BASH-shell-scripting mit curl. Wenn mein curl Befehl gibt text, ich weiß ich habe einen Fehler. Dieser text zurückgegeben curl ist in der Regel in HTML. Ich dachte mir, dass wenn ich Streifen aus
3
Antworten
Möchte ich sehen, der gereinigt HTML, die wir erhalten von HTMLCleaner. Ich sehe, gibt es eine Methode namens serialisieren auf TagNode, aber nicht wissen, wie es zu benutzen. Hat jemand eine Beispielcode dafür? Dank Nayn InformationsquelleAutor Nayn
1
Antworten
wie bekomme ich die img code von einem text? Jetzt bekomme ich den code und die URL, wenn der tag sieht wie folgt aus: text text <img src = "image.gif" />, aber wenn der code <img src
3
Antworten
Was ist der beste Weg, um ein array von URLs in einer web-Seite? und wie würde ich es tun? Welche Art von url Verwendungen denkt Ihr? href auf links action auf Formen, src auf den Bildern, und
2
Antworten
Habe ich <table class="table" > <tr> <td><a href="url">text1</a></td> <td>text2</td> </tr> <tr> <td><a href="url2">text</a></td> <td>text</td> </tr> und ich möchten, extrahieren Sie die url und den text für alle Zeilen Ich benutze Document doc = Jsoup.connect(url).get(); for (Element table
2
Antworten
Möchte ich, um die Namen der Unternehmen in der mittleren Spalte der diese Seite (Fett geschrieben in blau), sowie die Standort-Anzeige der person, die Registrierung der Beschwerde (z.B. "Indien, Delhi", in grün geschrieben). Im Grunde will ich
1
Antworten
Ich versuche zu Parsen von HTML-dump von einer bestimmten Seite. Ich verwendet HTML-Parser und auch versucht, JSoup für die Analyse. Fand ich nützliche Funktionen in Jsoup aber ich bin immer 403 Fehler beim Aufruf Document doc =
5
Antworten
Ich bin etwas von einem coding-Anfänger, und ich habe versucht zu kratzen, Andre 3000 die lyrics aus Rap genius, http://genius.com/artists/Andre-3000, durch die Verwendung von Schönen Suppe (Eine Python-Bibliothek für das abrufen von Daten aus HTML-und XML-Dateien). Mein
1
Antworten
Ich versuche zu gehen zu einer bestimmten ul-tag (27 nach meiner Zählung), und dann analysieren Anker, href und seinen Wert. hier ist mein code $wrss = ("http://www.gazetaexpress.com/"); $dom = new DOMDocument(); $dom->loadHTML($wrss); $x=$dom->getElementsByTagName('ul'); $item_title=$x->item(26)->getElementsByTagName('a')->item(0)->childNodes->item(0)->nodeValue; echo $item_title; Dies
2
Antworten
Ich brauche zum analysieren von Html-code. Genauer gesagt, zu analysieren jede Zelle alle Zeilen in allen Tabellen. Jede Zeile, die ein einzelnes Objekt und jede Zelle repräsentieren unterschiedliche Eigenschaften. Ich möchte analysieren, um in der Lage sein,
2
Antworten
Der folgenden ist ein Beispiel für den HTML code, den ich will, zu analysieren: <html> <body> <td style="PADDING-LEFT: 5px"bgcolor="ffffff" class="style8"> Example BLAB BLAB BLAB </td> <td style="PADDING-LEFT: 5px"bgcolor="ffffff" class="style8"> BLAB BLAB BLAB </td> <td style="PADDING-LEFT: 5px"bgcolor="ffffff" class="style8">
1
Antworten
Ich bin Parsen von html-code mit HTMLWorker in Java und dann einfügen in PDF mit iText. Ich erstelle Dokument, durch aufrufen new Document(PageSize.A4, 40, 40, 40, 40); sollte angeben 40px margin auf allen Seiten, aber wenn ich
2
Antworten
Dies ist ein Beispiel einer Seite, die Listen baseball-Statistiken für den ausgewählten Spieler, den säumigen zu dem letzten Jahr (2014, bald 2015) http://www.koreabaseball.com/Record/Player/HitterDetail/Game.aspx?playerId=76325 Dem drop-down-Liste erlaubt dem Benutzer ausgewählte Jahre Jahr 2010, aber nicht ändern der angezeigten
2
Antworten
Ich entschuldige mich wenn diese Frage beantwortet wurde, die anderswo aber ich war erfolglos bei der Suche nach einer zufriedenstellenden Antwort hier oder anderswo. Ich bin etwas neu auf python und pandas, und mit einigen Schwierigkeiten bei
2
Antworten
Ich Schreibe ein makro zu packen, mit dem aktuellen Wechselkurs aus yahoo aber ich habe Probleme beim konvertieren einer html-string in einem HTMLDocument, mir zu erlauben, um die Suche für die gewünschten element-id. Hier ist mein code
2
Antworten
Ich bin, der versucht, die Zeichenfolge enthalten ist, die innerhalb einer <div> das Problem ist ich muss ignorieren Sie alles, was in der child-Elemente innerhalb des div, ich kann nicht scheinen, um es zu passen, wie ich
1
Antworten
Ich versuche zu extrahieren den HTML-code eine Tabelle aus einer Webseite mit BeautifulSoup. <table class="facts_label" id="facts_table">...</table> Ich würde gerne wissen, warum der code Balg arbeitet mit der "html.parser" und prints zurück none wenn ich "html.parser" für "lxml".
4
Antworten
Ich weiß, es kann getan werden, indem getElementbyId(tableId), aber ich habe nicht id-Attribut hier. Die Tabelle ist wie <table> <tr> <td>data</td> </tr> <tr> <td>data5</td> </tr> <tr> <td>data1</td> <td>data2</td> </tr> </table> Ich bin mit Htmlunit. Gibt es eine
1
Antworten
Ich versuche zu verwenden BeautifulSoup zu extrahieren input-Felder für eine bestimmte form. Extrahieren Sie das Formular mit den folgenden: soup.find('form') Nun will ich extrahieren Sie alle Eingabefelder, die ein Kind, um das Formular nur. Wie kann ich
2
Antworten
Möchte ich parse ein markdown-Dokument und machen es als formatierte html, wie kann ich es tun bitte? Sollte ich dies von Grund auf, oder jede API kann gegründet werden? also danke. InformationsquelleAutor | 2011-09-05
5
Antworten
Habe ich den Inhalt einer web-Seite, die einer Variablen zugewiesen $html Hier ist ein Beispiel für den Inhalt $html: <div class="content">something here</div> <span>something random thrown in <strong>here</strong></span> <div class="content">more stuff</div> Wie, mit PHP kann ich ein array
1
Antworten
Bin ich mit dem HTML-Agility-Pack zu manipulieren und Bearbeiten eines HTML-Dokuments. Ich möchte den text ändern, der im Feld wie diesem: <div id="Div1"><b>Some text here.</b><br></div> Ich bin auf der Suche zu aktualisieren, wird der text in diesem
8
Antworten
Habe ich Probleme, immer den Wert der text-Bereich in PHP (immer undefined). Mein code ist ziemlich einfach. Mein HTML ist: <form name="contactform" method="POST" action="submit_form.php"> <input type="text" class="formInput" placeholder="Your Name" id="first_name" maxlength="50" size="20" /> <input type="text" class="formInput" placeholder="Email
4
Antworten
Wie überprüfe ich mit javascript, wenn die Seite bin ich auf mit einer bestimmten div... e.g turtles turtles es ist eine id oder eine Klasse? Ich möchte prüfen, ob es entweder InformationsquelleAutor Skizit | 2011-02-01
2
Antworten
Ich habe eine Frage in Bezug auf HTML-parsing. Ich habe eine website mit einigen Produkten und ich fangen möchte den text innerhalb der Seite in meiner aktuellen Tabelle. Diese Tabelle ist ziemlich groß, enthält aber ItemNbr in
2
Antworten
Ging ich zu dieser Seite heruntergeladen und die tar-Datei : http://pypi.python.org/pypi/lxml/2.3.4#downloads Kopiere ich dann die lxml-Ordner auf meine Python26/Lib-Ordner. Nun, wenn ich den interpreter und geben Sie from lxml import etree bekomme ich die Fehlermeldung: cannot import
3
Antworten
Habe ich parse eine Html für meine iOS-app. Ich lese im Internet, dass ich nutzen soll die Xpath-und ich fand die Bibliothek TFHpple. Ich sehe, dass diese Bibliothek nutzt die XpathQuery <!DOCTYPE "html"> <html> <head> <meta property="og:site_name"
5
Antworten
Will ich mit dem HTML agility pack Parsen Bild-und href-links aus einer HTML-Seite,aber ich weiß einfach nicht viel über XML oder XPath.Obwohl mit suchen helfen, Dokumente in vielen web-sites,ich kann das problem nicht lösen.Zusätzlich benutze ich C#
6
Antworten
Ich bin versucht, zu erstellen eine einfache alert-app für einige Freunde. Grundsätzlich möchte ich in der Lage sein, Daten zu extrahieren "Preis" und "Verfügbarkeit" von einer Webseite wie folgende zwei: http://www.sparkfun.com/commerce/product_info.php?products_id=5 http://www.sparkfun.com/commerce/product_info.php?products_id=9279 Ich gemacht habe, die Warnmeldung
5
Antworten
Meine Idee ist, irgendwie verkleinern HTML-code in server-side, client erhalten weniger bytes. Was meine ich mit "verkleinern"? Nicht zippen. Mehr wie, zum Beispiel, jQuery-Schöpfer tun mit .min.js Versionen. In anderen Worten, ich brauche, um unnötige white-Leerzeichen und
3
Antworten
Ich versuche zum extrahieren der ersten und der Dritten Spalten von diese Daten Tabelle mit BeautifulSoup. Aus der Betrachtung der HTML-die erste Spalte hat eine <th> tag. Die andere Spalte der Interesse hat als <td> tag. In
1
Antworten
Bin ich mit einem Spachtel dieser Kurs website und ich Frage mich ob es einen schnelleren Weg zu kratzen, die Seite, sobald ich es in beautifulsoup. Es dauert viel länger, als ich erwartet hätte. Tipps? from selenium
5
Antworten
Ich habe ein Excel-sheet mit Zellen, die mit html. Wie kann ich die batch konvertieren Sie Sie in Klartext? Im moment gibt es so viele sinnlose tags und styles. Ich schreiben wollen, es von Grund auf, aber
2
Antworten
Ich bin neu in Java, ich möchte wirklich gut in web-scraping und analysieren von Daten Gibt es Websites, die für web-scraping, dass würde mir helfen zu verstehen, wie die APIs wie htmcleaner, web-harvest htmlparser Arbeit?? Bin ich
5
Antworten
Für argument Willen vermuten lässt, ein HTML-parser. Habe ich gelesen, dass es tokenizes zuerst alles, und dann analysiert es. Was bedeutet die tokenisierung bedeuten? Funktioniert der parser Lesen jedem Charakter jeden, den Aufbau einer multi-dimensionalen Arrays um
2
Antworten
Ich habe ein Div-tag als unten <div id="eventTTL" style="text-transform: uppercase; font-weight: 900;" eventTTL="4583476000">5 days 07:14:41</div> Wie bekomme ich den Wert von eventTTL? Ich möchte den Wert anzuzeigen, der eventTTL ie:) "4583476000". Was für ein Teil brauchen Sie
2
Antworten
Bitte kann jemand mir ein einfaches Beispiel analysieren einige HTML mit libxml. #import <libxml2/libxml/HTMLparser.h> NSString *html = @"<ul>" "<li><input type=\"image\" name=\"input1\" value=\"string1value\" /></li>" "<li><input type=\"image\" name=\"input2\" value=\"string2value\" /></li>" "</ul>" "<span class=\"spantext\"><b>Hello World 1</b></span>" "<span class=\"spantext\"><b>Hello World 2</b></span>";
2
Antworten
Habe ich folgende DOM-Struktur, HTML -, ich will (nur üben...) die markierten Daten. Die, die unter dem h2-element. das div[@class="coordsAgence"] - element, einige div-Kinder unter und einige mehr h2 s.. so tun: div[@class="coordsAgence"] Erhalten, die den Wert,
1
Antworten
Ich versuche, um eine Liste der div-ids von einer Seite. Wenn ich drucken Sie die Attribute, bekomme ich die ids aufgelistet. for tag in soup.find_all(class_="bookmark blurb group") : print(tag.attrs) Ergebnisse in: {'id': 'bookmark_8199633', 'role': 'article', 'class': ['bookmark',