XPath zum Auffinden einer Zelle mit einem bestimmten text Parsen von HTML-Tabellen

Hoffe jemand da draußen kann schnell zeigen Sie mich in die richtige Richtung mit meiner XPath Schwierigkeiten.

Aktuellen habe ich bis zu dem Punkt, wo ich bin, erkennen der richtigen Tabelle muss ich in meinen HTML-Quelltext habe ich dann aber verarbeiten müssen nur die Zeilen, die den text "Kapitel" irgendwo in der DOM.

Mein letzten Versuch war, dies zu tun :

//get the correct table
HtmlTable table = page.getFirstByXPath("//table[2]");

//now the failing bit....
def rows = table.getByXPath("*/td[contains(text(),'Chapter')]")

Dachte ich, dass der xpath-oben darstellen würde, kommen mir alle Elemente, die ein Folgendes Kind-element von 'td', dass irgendwo in seinen dom enthält den text 'Kapitel'

Ein Beispiel von eine übereinstimmende Zeile von meine Quelle ist :

<tr valign="top">
  <td nowrap="" align="Right">
   <font face="Verdana">
   <a href="index.cfm?a=1">Chapter 1</a>
   </font>
  </td>
  <td class="ChapterT">
    <font face="Verdana">DEFINITIONS</font>
  </td>
  <td>&nbsp;</td>
</tr>

Jede Hilfe /Zeiger sehr geschätzt.

Dank,

InformationsquelleAutor David Brown | 2012-03-10

16

Verwenden Sie diese XPath:
```
//td[contains(., 'Chapter')]
```
- Danke, das scheint zu funktionieren. Was bedeutet das". ' vertreten? Auch ich verstehe nicht, warum die 'reletive" Erkennung nicht funktioniert, z.B. haben Sie die // die so wie ich das verstehe bedeutet beginnen an der Wurzel?
- Du bist herzlich willkommen. . und // ist XPath verkürzte syntax. . wählt den Kontextknoten aus. //td wählt alle td Nachkommen des Dokument-root und damit wählt alle td Elemente im selben Dokument wie der Kontextknoten. Reference: w3.org/TR/xpath/#path-abbrev
InformationsquelleAutor Kirill Polishchuk
7

Sie möchten, dass alle tds unter dem aktuellen Knoten -- nicht - alle im Dokument als die derzeit akzeptierte Antwort wählt.

Verwenden:
```
.//td[.//text()[contains(., 'Chapter')]]
```
Diese wählt alle td Nachkommen des aktuellen Knotens mit dem Namen td mit mindestens einem text-Knoten Nachkomme, dessen string-Wert enthält die Zeichenfolge "Chapter".

, Wenn es im Voraus bekannt ist, dass jede td unter diesem table hat nur einen einzelnen text-Knoten, dieser kann vereinfacht werden, um nur:
```
.//td[contains(., 'Chapter')]
```
InformationsquelleAutor Dimitre Novatchev
2

Ihr auf dem richtigen "Weg".

Die contains () - Funktion ist begrenzt, die ein bestimmtes element, nicht Sie text in die Kinder. Versuchen Sie, diese XPath, die Sie Lesen konnte, wie folgt:
- Holen Sie sich jede tr/td mit jedem sub-element enthält den text 'Kapitel'
```
tr/td[contains(*,"Chapter")]
```
Glück
- Hi William, gab es eine zu gehen, aber konnte es nicht bekommen, etwas zurückzugeben. Was hat funktioniert, obwohl es scheint nicht die effizienteste ist ein single-liner von ' def chapterAnchors = Seite.Anker.findAll {HtmlAnchor a -> ein.asText().enthält('Kapitel')} '
InformationsquelleAutor William Walseth

Schreibe einen Kommentar

Du musst angemeldet sein, um einen Kommentar abzugeben.