Extrahieren string von HTML-tags mit RegExp (Ruby)

Möchte ich extrahieren "toast" aus einem string <h1>test</h1><div>toast</div>. Was den regulären Ausdruck könnte isolieren, so ein string?

Edit: Danke an den user, wer korrigiert die Formatierung.

Weitere Infos: Es wird immer nur eine Instanz des div-Tags, die Informationen im inneren kann sich ändern, aber es wird nie eine andere div-tag in die gleiche Zeichenfolge (die Zeichenfolge ist größer als die gegebene Stichprobe)

Dank!

basierend auf was? möchten Sie einfach allen text innerhalb div? dies ist wahrscheinlich am besten zu tun, mit einer Art von dom-parser anstatt regex.
sorry, habe ich Fix die Frage. Mein Chef verlangt, mich mit regex, also habe ich keine Wahl :/
Nokogiri ist das beste Werkzeug zum analysieren von HTML-und XML-stopft..
Wir brauchen mehr Informationen. Welcher Teil des Strings ist variabel? Zum Beispiel, eine naive Lösung wäre regex = /<h1>test<\/h1><div>([^<]*)<\/div>/
Nun, dies ist nur ein kleiner Teil der gesamten Zeichenfolge, so dass keine einfachen Lösungen funktionieren leider (ich habe versucht, diese, aber der regex ist viel zu klobig). Alle tags werden immer die gleichen bleiben, es ist der Inhalt, der im inneren (D. H. "toast"), das wird sich ändern
Ist es immer nur ein einzelnes div-Element innerhalb dieser Zeichenfolge? Mehr Kontext ist nötig, um eine genaue Antwort.
nicht verwenden reguläre Ausdrücke zum Parsen von HTML. Mit einem richtigen HTML-parsing-Modul. Sie können nicht zuverlässig Parsen von HTML mit regulären Ausdrücken, und Sie wird das Gesicht von Kummer und Frust auf der Straße. Sobald die HTML-änderungen von Ihren Erwartungen, Ihren code gebrochen. Siehe htmlparsing.com/ruby für Beispiele, wie Sie richtig zu analysieren, HTML, Ruby-Module, die bereits geschrieben wurden, getestet und debuggt werden.
Parsen von HTML mit regulären Ausdrücken Ladung Zalgo: stackoverflow.com/a/1732454/38765

InformationsquelleAutor John Dough | 2013-08-07

1

Dies ist wirklich nicht etwas, was in der Regel geschieht, mit einer regex... und für einen guten Grund, aber wenn es sein muss und da Sie sagte, es wird nie mehr als ein einziges div in... dies sollte für Sie arbeiten:
```
(?<=<div>).*(?=</div>)
```
- Dies isoliert die richtigen Informationen (toast), aber ich habe eine Frage - Wenn ich wollte, zu ihm zurückzukehren, was müsste ich verwenden, die auf die Zeichenfolge? Ich habe versucht, den string.split(/(?<=<div>).*(?=<\/div>")/) und string.scan(/(?<=<div>).*(?=<\/div>")/), aber weder korrekt sind.
- nur ein match
InformationsquelleAutor Dallas
5

Können Sie Nokogiri.
```
require 'nokogiri'

doc = Nokogiri::HTML::Document.parse("<div> test </div> <div> toast </div>")
doc.css('div').map(&:text)
# => [" test ", " toast "]
```
```
require 'nokogiri'

doc = Nokogiri::HTML::Document.parse("<h1>test</h1><div>toast</div>")
doc.at_css('div').text
# => "toast"
```
- Sorry, habe ich Fix die Frage. Dies sollte nicht sein, dass kompliziert, nicht wahr?
- Mit einem HTML-parser ist nicht kompliziert. Umgang mit änderungen in den Daten, die Sie nicht erwarten, aber sind immer noch perfekt gültigen HTML -, ist das, was kompliziert ist. Ein wenig Zeit verbrachte, vorne mit einem richtigen HTML-parser wird sparen Sie Stunden der Fehlersuche und Kummer die Straße hinunter.
InformationsquelleAutor Arup Rakshit
1

Brauchen wir mehr Informationen. Wenn die Zeichenfolge genau "<h1>test</h1><div>toast</div>" wird, dann ist etwas naiv wie
```
regex = /<h1>test<\/h1><div>([^<]*)<\/div>/
found = "<h1>test</h1><div>toast</div>".match(regex)[1]
# => "toast"
```
funktionieren würde. Meine beste Vermutung an dieser Stelle ist, dass Sie erwarten, dass
```
<h1>*</h1><div>*</div>
```
dann verwenden Sie diesen:
```
regex = /<h1>[^<]*<\/h1><div>([^<]*)<\/div>/
found = "<h1>any string can go here</h1><div>toast</div>".match(regex)[1]
# => "toast"
```
Beachten Sie, dass dieses bricht, wenn es irgendwelche verschachtelten Elemente in entweder-tag. Eine stabilere Lösung ist die Verwendung von Nokogiri. Sprechen Sie mit Ihrem Chef.

InformationsquelleAutor James Lim

Schreibe einen Kommentar

Du musst angemeldet sein, um einen Kommentar abzugeben.