Python-Aufteilung auf die neue-Zeile-Zeichen

Ich habe eine html-Datei, die ich abrufen nur der text

ich würde gerne drucken einer einzelnen Zeile

jetzt bin ich print

for line in newName.body(text=True):
    print line

dieser gibt mir alles, was in den Körper
was ich möchte ist, zu drucken, wie

for line in newName.body(text=True):
    print line[257:_____] # this is where i need help

statt __ oder wählen Sie eine andere Nummer zu Ende ich will, dass es die neue-Zeile-Zeichen
so wie es aussieht

for line in newName.body(text=True):
    print line[257:'\n']

jedoch, dass dosent Arbeit
wie kann ich machen, dass die Arbeit?

den text, mit denen ich arbeite, befindet sich in
Körper
pre
den text möchte ich
/pre
Körper - /

"ich würde gerne drucken einer einzelnen Zeile" tut print newName.body(text=True)[257] wie erwartet funktioniert?
Nein, das produziert eine Fehlermeldung "list index out of range"
falsch gepostet Fehlermeldung der richtige ist "ValueError: substring nicht gefunden"
Sind Sie sicher, dass mit einem regexp-wäre das nicht eine bessere Lösung ? Wie es scheint, Sie sind immer text der Körper eines HTML-Dokuments und zu versuchen, aus den 127 Zeichen bis '\n' - Sicherlich die Realität ist, diese bits von text sind wirklich ein Teil der Struktur des Dokuments, was bedeutet, Xpath oder ähnlich wäre eine bessere option sein - vielleicht wäre ein Ausschnitt aus der HTML-Seite, die Sie versuchen zu extrahieren sind.
der code ist so etwas wie " <pre> cptn cheesebox liebt cerial </pre>' diese sind alle onseparate Linien, aber ich coudlt herauszufinden, wie es erscheinen mag-code

InformationsquelleAutor The Spiteful Octopus | 2013-02-10

7

Könnten Sie .partition() Methode, um die erste Zeile:
```
first_line = newName.body.getText().partition("\n")[0]
```
vorausgesetzt newName ist ein BeautifulSoup Objekt. Es ist in der Regel den Namen soup.

Erhalten den text von der ersten <pre> - tag im html:
```
text = soup.pre.string
```
Um eine Liste von Zeilen im text:
```
list_of_lines = text.splitlines()
```
Wenn Sie möchten, um end-of-line-Marker in den text:
```
list_of_lines = text.splitlines(True)
```
Bekommen i-te Zeile aus der Liste:
```
ith_line = list_of_lines[i]
```
Hinweis: null-basierte Indizierung z.B. i = 2 entspricht der 3. Zeile.
- dies erzeugt Fehler "AttributeError: 'NoneType' - Objekt hat kein Attribut 'partition'"
- versuchen .getText(). Es sollte auch die Arbeit an alten BeautifulSoup Versionen.
- und das erzeugt IndexError: tuple index out of range
- ok, so jetzt, wenn ich first_line = newName.Körper.getText().partition('\n')[2] es gibt den text aus Zeile 257 an wie zuvor, aber jetzt drucken first_line[257:]
- Renditen 3-Tupel. Immer. Sie können nicht IndexError mit dem code aus meiner Antwort. Wenn Sie möchten, um eine Liste der Linien, die Sie nutzen könnten .splitlines(). Aber das extrahieren von Inhalt aus einer html Zeile Nummer ist sehr zerbrechlich. Aktualisieren Sie Ihre Frage das, was html-markup sehen Sie, um den text, den Sie extrahieren möchten.
- .splitlines() gearbeitet, um die zu entfernen '\n' ist, aber das Programm immer noch nicht einfach zu Ende, weiter geht es auf zu drucken, den rest der Datei, wo ich will nur diese eine Zeile
- um den text ist die pre /pre
- danke dir für deine Hilfe ich habe es endlich mit first_line = newName.Körper.getText().partition("\n")[2], gefolgt von FL2 = first_line.splitlines (), gefolgt von pprint.pprint(FL2[10:11]) ich kann Ihnen nicht genug danken für Ihre Hilfe, die ich wirklich zu schätzen
- noch eine Frage wie kann ich machen, dass ein string, also könnte ich es schreiben, um eine text-oder es verwenden, um die Datei zu speichern, da dieser name?
- Ich habe aktualisiert die Antwort, um zu zeigen, wie man Linien, die in <pre> tag. Jede Zeile ist string.
InformationsquelleAutor jfs
2

Gibt es keine Garantie, dass Ihre HTML-Datei mehr als eine Zeile. Die web-Seite kann festgelegt werden, in Linien, sondern die Struktur der Seite nicht mit der Struktur des markup und Umgekehrt.

Nur um sicher zu sein, versuchen Sie dies:

print len(newName.body(text=True).split('\n'))

Wenn der Wert >1 sind, dann sollten Sie in der Lage sein, um die Linie, die Sie brauchen, wie:

newName.body(text=True).split('\n')[257]

Vielleicht nicht die anmutige Weise, aber es funktioniert, wenn es in der Tat mehrere Zeilen.
- die erste Linie produziert attributeError: 'resultset' - Objekt hat kein Attribut split
InformationsquelleAutor Chris Johnson
2

Ist es, dass Sie wollen line[127:line.find('\n')] wie Sie sind sicher, dass es von 127 dann ebenso müssen Sie sicher sein, es ist ein \n.

InformationsquelleAutor sotapme

Schreibe einen Kommentar

Du musst angemeldet sein, um einen Kommentar abzugeben.