Tag: html-parsing

HTML-parsing wird der Prozess der Verzehr einer Serialisierung eines HTML-Dokuments und die Herstellung einer Darstellung, dass mit dem Sie arbeiten können programmgesteuert — z.B., um zu extrahieren von Daten aus es. Die HTML-Spezifikation definiert einen standard-Algorithmus zum Parsen von HTML, die Anwendung in allen gängigen Browsern.

eine Suche auf einer Website, die über java

3 Antworten

Ich Frage mich, wie kann ich machen eine Suche auf einer website, die über java. Ich will zuerst Suche ein Wort auf der web-site. Die web-site ist wieder mir ein paar links. Ich möchte auf diese links

html-parsing java

Extrahieren string von HTML-tags mit RegExp (Ruby)

3 Antworten

Möchte ich extrahieren "toast" aus einem string <h1>test</h1><div>toast</div>. Was den regulären Ausdruck könnte isolieren, so ein string? Edit: Danke an den user, wer korrigiert die Formatierung. Weitere Infos: Es wird immer nur eine Instanz des div-Tags, die

How to get Inhalt von einem div mit regex

1 Antworten

Habe ich Strings wie : <div class="fck_detail"> <table align="center" border="0" cellpadding="3" cellspacing="0" class="tplCaption" width="1"> <tbody> <tr><td> <img alt="nole-1375196668_500x0.jpg" src="http://l.f1.img.vnexpress.net/2013/07/30/nole-1375196668_500x0.jpg" width="500"> </td></tr> <tr><td class="Image"> Djokovic hậm hực với các đàn anh. Ảnh: <em>Livetennisguide.</em> </td></tr> </tbody> </table> <p>Riêng với

html-parsing php regex

HTML5: W3C vs WHATWG. Gibt die maßgebliche spec?

5 Antworten

Bin ich auf halbem Weg über einen html-parser gefunden und html5 definiert explizit die Faustregel für die Analyse schlecht gebildet html. (Und ich verwendet, um zu folgern, Sie von DTDs, seufz) Ich Liebe die Tatsache, ich weiß

html html-parsing html5 w3c

Tutorial für NodeJS ist htmlparser?

1 Antworten

Ich nicht wirklich verstehen, die readme htmlparser.. und ich suchte über das internet aber nicht finden können, eine richtige Anleitung (oder andere NodeJS-Parser). Ich glaube, für die meisten der Zeit, wenn es gibt keine Anleitung für eine

html-parsing node.js

Wie kann ich mit iText zum konvertieren von HTML mit Bildern und hyperlinks in PDF?

2 Antworten

Ich versuche zu konvertieren HTML zu PDF mit iTextSharp in einem ASP.NET web-Anwendung, die sowohl MVC, und web-Formulare. Die <img> und <a> Elemente haben absolut und relative URLs, und einige der <img> Elemente sind base64. Typische Antworten

html-agility-pack html-parsing itext pdf xmlworker

Beispiel für das Parsen von (X)Html mit libxml2 in iOS

2 Antworten

Neulich habe ich angefangen zu spielen, um mit der libxml2-lib innerhalb einer iOS-iPhone-Projekt. Ich Lesen Sie einige nützliche links, wie: http://laurentparenteau.com/blog/2009/12/parsing-xhtml-in-c-a-libxml2-tutorial/ sowie einige sehr nette post hier: http://bill.dudney.net/roller/objc/entry/libxml2_push_parsing Habe ich es geschafft zum abrufen von remote-html (mit

html-parsing ios libxml2 objective-c

Finden und entfernen von html-tags mit dem PHP Simple HTML DOM Parser

3 Antworten

Dies ist der code den ich verwende: include 'simple_html_dom.php'; $html = file_get_html('index.html'); echo $html->find('tr', 15); So finden Sie die Zeile 15 der Tabelle. Was ich tun möchte, ist zu entfernen, die Zeile vollständig. Ich habe bereits versucht

html html-parsing php

Welches ist das beste HTML-tidy pack? Gibt es eine Möglichkeit in HTML-agility-pack um HTML-Webseite aufgeräumt?

1 Antworten

Ich bin mit html-agility-pack zum analysieren von html - tabellarische Informationen. Nun gibt es einige html-Inhalt mit fehlenden Ende-tags oder von einer solchen Seite wegen der fehlenden Ende-tags html-agility-pack nicht analysieren, Informationen richtig.So möchte ich zum Ende-tags

c#html-agility-pack html-parsing htmltidy winforms

Suche für ein PHP-script bereinigen kann, die schlechtes HTML

6 Antworten

Ich bin in den Prozess des Schreibens ein PHP-Kommandozeilen-Skript zum konvertieren von Hunderten von HTML-snippets in Markdown mit der Markdownify Bibliothek. Allerdings habe ich über eine situation kommen, wo einige meiner HTML ist nicht strukturiert und gut

html-parsing php

Holen Zeichenfolge abgestimmt html-tag mit Hilfe von xpath

2 Antworten

Den html-code, der ist blind und Es enthält die Zeichenfolge "PREIS" in html. Dass teilweise string muss abgestimmt werden mit html-text.Wenn der text passt(teilweise übereinstimmung) mit Hilfe von xpath.Sollte es wieder die bestimmten html-Tags Weg. Hinweis: ich

html-parsing lxml python xpath

Entfernen Sie alle HTML-tags aus einer Webseite

4 Antworten

Ich bin dabei einige BASH-shell-scripting mit curl. Wenn mein curl Befehl gibt text, ich weiß ich habe einen Fehler. Dieser text zurückgegeben curl ist in der Regel in HTML. Ich dachte mir, dass wenn ich Streifen aus

bash html-parsing regex sed

Immer gereinigt HTML im text von HtmlCleaner

3 Antworten

Möchte ich sehen, der gereinigt HTML, die wir erhalten von HTMLCleaner. Ich sehe, gibt es eine Methode namens serialisieren auf TagNode, aber nicht wissen, wie es zu benutzen. Hat jemand eine Beispielcode dafür? Dank Nayn InformationsquelleAutor Nayn

html-parsing htmlcleaner

Wie man IMG-tag-code vom HTML-Dokument?

1 Antworten

wie bekomme ich die img code von einem text? Jetzt bekomme ich den code und die URL, wenn der tag sieht wie folgt aus: text text <img src = "image.gif" />, aber wenn der code <img src

html-parsing php

Holen Sie sich ein Liste aller urls in einer web-Seite

3 Antworten

Was ist der beste Weg, um ein array von URLs in einer web-Seite? und wie würde ich es tun? Welche Art von url Verwendungen denkt Ihr? href auf links action auf Formen, src auf den Bildern, und

c#html-parsing regex

Auszug href-Werte in td-tags in jsoup

2 Antworten

Habe ich <table class="table" > <tr> <td><a href="url">text1</a></td> <td>text2</td> </tr> <tr> <td><a href="url2">text</a></td> <td>text</td> </tr> und ich möchten, extrahieren Sie die url und den text für alle Zeilen Ich benutze Document doc = Jsoup.connect(url).get(); for (Element table

html-parsing java jsoup

Web-Scraping (R?)

2 Antworten

Möchte ich, um die Namen der Unternehmen in der mittleren Spalte der diese Seite (Fett geschrieben in blau), sowie die Standort-Anzeige der person, die Registrierung der Beschwerde (z.B. "Indien, Delhi", in grün geschrieben). Im Grunde will ich

html-parsing r web-scraping

JSoup.verbinden Sie wirft Fehler 403 beim apache.httpclient ist in der Lage zu Holen die Inhalte

1 Antworten

Ich versuche zu Parsen von HTML-dump von einer bestimmten Seite. Ich verwendet HTML-Parser und auch versucht, JSoup für die Analyse. Fand ich nützliche Funktionen in Jsoup aber ich bin immer 403 Fehler beim Aufruf Document doc =

html-parsing java jsoup

Web Scraping Rap-lyrics auf Rap Genius w/ Python

5 Antworten

Ich bin etwas von einem coding-Anfänger, und ich habe versucht zu kratzen, Andre 3000 die lyrics aus Rap genius, http://genius.com/artists/Andre-3000, durch die Verwendung von Schönen Suppe (Eine Python-Bibliothek für das abrufen von Daten aus HTML-und XML-Dateien). Mein

beautifulsoup html-parsing nltk python web-scraping

Error: Call to a member function getElementsByTagName() on a non-object in

1 Antworten

Ich versuche zu gehen zu einer bestimmten ul-tag (27 nach meiner Zählung), und dann analysieren Anker, href und seinen Wert. hier ist mein code $wrss = ("http://www.gazetaexpress.com/"); $dom = new DOMDocument(); $dom->loadHTML($wrss); $x=$dom->getElementsByTagName('ul'); $item_title=$x->item(26)->getElementsByTagName('a')->item(0)->childNodes->item(0)->nodeValue; echo $item_title; Dies

dom html-parsing php

Parsing-Tabellen, Zellen, die mit Html-Beweglichkeit in C#

2 Antworten

Ich brauche zum analysieren von Html-code. Genauer gesagt, zu analysieren jede Zelle alle Zeilen in allen Tabellen. Jede Zeile, die ein einzelnes Objekt und jede Zelle repräsentieren unterschiedliche Eigenschaften. Ich möchte analysieren, um in der Lage sein,

c#html-agility-pack html-parsing xml-parsing

Python-schöne Suppe wählen Sie text

2 Antworten

Der folgenden ist ein Beispiel für den HTML code, den ich will, zu analysieren: <html> <body> <td style="PADDING-LEFT: 5px"bgcolor="ffffff" class="style8"> Example BLAB BLAB BLAB </td> <td style="PADDING-LEFT: 5px"bgcolor="ffffff" class="style8"> BLAB BLAB BLAB </td> <td style="PADDING-LEFT: 5px"bgcolor="ffffff" class="style8">

beautifulsoup html-parsing python

HTML-Tabelle in PDF mit iText

1 Antworten

Ich bin Parsen von html-code mit HTMLWorker in Java und dann einfügen in PDF mit iText. Ich erstelle Dokument, durch aufrufen new Document(PageSize.A4, 40, 40, 40, 40); sollte angeben 40px margin auf allen Seiten, aber wenn ich

html-parsing itext java

Schaben eine Antwort von der ausgewählten option in der dropdown-Liste

2 Antworten

Dies ist ein Beispiel einer Seite, die Listen baseball-Statistiken für den ausgewählten Spieler, den säumigen zu dem letzten Jahr (2014, bald 2015) http://www.koreabaseball.com/Record/Player/HitterDetail/Game.aspx?playerId=76325 Dem drop-down-Liste erlaubt dem Benutzer ausgewählte Jahre Jahr 2010, aber nicht ändern der angezeigten

beautifulsoup drop-down-menu html-parsing python web-scraping

HTML Tabelle in ein pandas Dataframe, nicht Liste der dataframe Objekte

2 Antworten

Ich entschuldige mich wenn diese Frage beantwortet wurde, die anderswo aber ich war erfolglos bei der Suche nach einer zufriedenstellenden Antwort hier oder anderswo. Ich bin etwas neu auf python und pandas, und mit einigen Schwierigkeiten bei

dataframe html-parsing pandas python

Konvertieren von Html-String in HTMLDocument VBA

2 Antworten

Ich Schreibe ein makro zu packen, mit dem aktuellen Wechselkurs aus yahoo aber ich habe Probleme beim konvertieren einer html-string in einem HTMLDocument, mir zu erlauben, um die Suche für die gewünschten element-id. Hier ist mein code

dom excel excel-vba html-parsing vba

regulären Ausdruck übereinstimmen, wird der text in ein div, ignorieren aber die child-Elemente, falls vorhanden

2 Antworten

Ich bin, der versucht, die Zeichenfolge enthalten ist, die innerhalb einer <div> das Problem ist ich muss ignorieren Sie alles, was in der child-Elemente innerhalb des div, ich kann nicht scheinen, um es zu passen, wie ich

html-parsing regex

Schöne Suppe und Tabelle Schaben - lxml vs html-parser

1 Antworten

Ich versuche zu extrahieren den HTML-code eine Tabelle aus einer Webseite mit BeautifulSoup. <table class="facts_label" id="facts_table">...</table> Ich würde gerne wissen, warum der code Balg arbeitet mit der "html.parser" und prints zurück none wenn ich "html.parser" für "lxml".

beautifulsoup html-parsing lxml python web-scraping

Iterieren über Tisch und rückt die Daten innerhalb von <td> - Tags ohne Verwendung von id-Attribut der Tabelle in java

4 Antworten

Ich weiß, es kann getan werden, indem getElementbyId(tableId), aber ich habe nicht id-Attribut hier. Die Tabelle ist wie <table> <tr> <td>data</td> </tr> <tr> <td>data5</td> </tr> <tr> <td>data1</td> <td>data2</td> </tr> </table> Ich bin mit Htmlunit. Gibt es eine

html-parsing htmlunit iteration java javascript

python-BeautifulSoup finde alle Eingaben für bestimmte form

1 Antworten

Ich versuche zu verwenden BeautifulSoup zu extrahieren input-Felder für eine bestimmte form. Extrahieren Sie das Formular mit den folgenden: soup.find('form') Nun will ich extrahieren Sie alle Eingabefelder, die ein Kind, um das Formular nur. Wie kann ich

beautifulsoup forms html html-parsing python

wie zu analysieren markdown via C#

2 Antworten

Möchte ich parse ein markdown-Dokument und machen es als formatierte html, wie kann ich es tun bitte? Sollte ich dies von Grund auf, oder jede API kann gegründet werden? also danke. InformationsquelleAutor | 2011-09-05

c#c#-4.0 html-parsing markdown

Erstellen Sie ein array, aus dem Inhalt <div> - tags in php

5 Antworten

Habe ich den Inhalt einer web-Seite, die einer Variablen zugewiesen $html Hier ist ein Beispiel für den Inhalt $html: <div class="content">something here</div> <span>something random thrown in <strong>here</strong></span> <div class="content">more stuff</div> Wie, mit PHP kann ich ein array

arrays html-parsing parsing php

Ersetzen eines HTML-div-InnerText-tag mit HTML-Agility-Pack

1 Antworten

Bin ich mit dem HTML-Agility-Pack zu manipulieren und Bearbeiten eines HTML-Dokuments. Ich möchte den text ändern, der im Feld wie diesem: <div id="Div1"><b>Some text here.</b><br></div> Ich bin auf der Suche zu aktualisieren, wird der text in diesem

asp.net c#html-agility-pack html-parsing

Kann nicht mit dem Wert aus der textarea in PHP

8 Antworten

Habe ich Probleme, immer den Wert der text-Bereich in PHP (immer undefined). Mein code ist ziemlich einfach. Mein HTML ist: <form name="contactform" method="POST" action="submit_form.php"> <input type="text" class="formInput" placeholder="Your Name" id="first_name" maxlength="50" size="20" /> <input type="text" class="formInput" placeholder="Email

forms html-parsing php post

Javascript: Prüfen, ob Seite enthält einen bestimmten div

4 Antworten

Wie überprüfe ich mit javascript, wenn die Seite bin ich auf mit einer bestimmten div... e.g turtles turtles es ist eine id oder eine Klasse? Ich möchte prüfen, ob es entweder InformationsquelleAutor Skizit | 2011-02-01

html html-parsing javascript

Parsen von HTML-Inhalten in VBA

2 Antworten

Ich habe eine Frage in Bezug auf HTML-parsing. Ich habe eine website mit einigen Produkten und ich fangen möchte den text innerhalb der Seite in meiner aktuellen Tabelle. Diese Tabelle ist ziemlich groß, enthält aber ItemNbr in

excel-vba html-parsing parsing vba web-crawler

LXML: Cannot import etree

2 Antworten

Ging ich zu dieser Seite heruntergeladen und die tar-Datei : http://pypi.python.org/pypi/lxml/2.3.4#downloads Kopiere ich dann die lxml-Ordner auf meine Python26/Lib-Ordner. Nun, wenn ich den interpreter und geben Sie from lxml import etree bekomme ich die Fehlermeldung: cannot import

html-parsing lxml python python-import

Parse HTML-Code in objective C

3 Antworten

Habe ich parse eine Html für meine iOS-app. Ich lese im Internet, dass ich nutzen soll die Xpath-und ich fand die Bibliothek TFHpple. Ich sehe, dass diese Bibliothek nutzt die XpathQuery <!DOCTYPE "html"> <html> <head> <meta property="og:site_name"

html-parsing ios objective-c tfhpple xpath

Wie man img/src oder/hrefs mit Html-Agility-Pack?

5 Antworten

Will ich mit dem HTML agility pack Parsen Bild-und href-links aus einer HTML-Seite,aber ich weiß einfach nicht viel über XML oder XPath.Obwohl mit suchen helfen, Dokumente in vielen web-sites,ich kann das problem nicht lösen.Zusätzlich benutze ich C#

.net c#html html-agility-pack html-parsing

Extrahieren Sie Daten von der website via PHP

6 Antworten

Ich bin versucht, zu erstellen eine einfache alert-app für einige Freunde. Grundsätzlich möchte ich in der Lage sein, Daten zu extrahieren "Preis" und "Verfügbarkeit" von einer Webseite wie folgende zwei: http://www.sparkfun.com/commerce/product_info.php?products_id=5 http://www.sparkfun.com/commerce/product_info.php?products_id=9279 Ich gemacht habe, die Warnmeldung

curl html-parsing php regex

Wie zu minifizieren HTML-code?

5 Antworten

Meine Idee ist, irgendwie verkleinern HTML-code in server-side, client erhalten weniger bytes. Was meine ich mit "verkleinern"? Nicht zippen. Mehr wie, zum Beispiel, jQuery-Schöpfer tun mit .min.js Versionen. In anderen Worten, ich brauche, um unnötige white-Leerzeichen und

html html-parsing htmlpurifier min minify

Extrahieren von ausgewählten Spalten aus einer Tabelle mit BeautifulSoup

3 Antworten

Ich versuche zum extrahieren der ersten und der Dritten Spalten von diese Daten Tabelle mit BeautifulSoup. Aus der Betrachtung der HTML-die erste Spalte hat eine <th> tag. Die andere Spalte der Interesse hat als <td> tag. In

beautifulsoup html-parsing python

Beschleunigung beautifulsoup

1 Antworten

Bin ich mit einem Spachtel dieser Kurs website und ich Frage mich ob es einen schnelleren Weg zu kratzen, die Seite, sobald ich es in beautifulsoup. Es dauert viel länger, als ich erwartet hätte. Tipps? from selenium

beautifulsoup html-parsing python selenium web-scraping

Konvertieren von html in nur-text in VBA

5 Antworten

Ich habe ein Excel-sheet mit Zellen, die mit html. Wie kann ich die batch konvertieren Sie Sie in Klartext? Im moment gibt es so viele sinnlose tags und styles. Ich schreiben wollen, es von Grund auf, aber

html html-parsing parsing vba

web scraping java-Anfänger

2 Antworten

Ich bin neu in Java, ich möchte wirklich gut in web-scraping und analysieren von Daten Gibt es Websites, die für web-scraping, dass würde mir helfen zu verstehen, wie die APIs wie htmcleaner, web-harvest htmlparser Arbeit?? Bin ich

html-parsing htmlcleaner java web-scraping webharvest

Wie funktioniert ein parser (z.B. HTML) zu arbeiten?

5 Antworten

Für argument Willen vermuten lässt, ein HTML-parser. Habe ich gelesen, dass es tokenizes zuerst alles, und dann analysiert es. Was bedeutet die tokenisierung bedeuten? Funktioniert der parser Lesen jedem Charakter jeden, den Aufbau einer multi-dimensionalen Arrays um

browser html html-parsing parsing tokenize

erste Attribut-Wert aus Div-tag durch jSoup

2 Antworten

Ich habe ein Div-tag als unten <div id="eventTTL" style="text-transform: uppercase; font-weight: 900;" eventTTL="4583476000">5 days 07:14:41</div> Wie bekomme ich den Wert von eventTTL? Ich möchte den Wert anzuzeigen, der eventTTL ie:) "4583476000". Was für ein Teil brauchen Sie

html-parsing java jsoup

Einfache libxml2 HTML-parsing-Beispiel mit Objective-c, Xcode, und HTMLparser.h

2 Antworten

Bitte kann jemand mir ein einfaches Beispiel analysieren einige HTML mit libxml. #import <libxml2/libxml/HTMLparser.h> NSString *html = @"<ul>" "<li><input type=\"image\" name=\"input1\" value=\"string1value\" /></li>" "<li><input type=\"image\" name=\"input2\" value=\"string2value\" /></li>" "</ul>" "<span class=\"spantext\"><b>Hello World 1</b></span>" "<span class=\"spantext\"><b>Hello World 2</b></span>";

html-parsing libxml2 objective-c xcode

Get (text) in XPath

2 Antworten

Habe ich folgende DOM-Struktur, HTML -, ich will (nur üben...) die markierten Daten. Die, die unter dem h2-element. das div[@class="coordsAgence"] - element, einige div-Kinder unter und einige mehr h2 s.. so tun: div[@class="coordsAgence"] Erhalten, die den Wert,

dom html html-parsing xpath

schöne Suppe immer tag.id

1 Antworten

Ich versuche, um eine Liste der div-ids von einer Seite. Wenn ich drucken Sie die Attribute, bekomme ich die ids aufgelistet. for tag in soup.find_all(class_="bookmark blurb group") : print(tag.attrs) Ergebnisse in: {'id': 'bookmark_8199633', 'role': 'article', 'class': ['bookmark',

beautifulsoup html html-parsing python