Kratzen HTML-Tabellen aus einer bestimmten URL in das CSV

Ich Suche ein tool, dass kann ausgeführt werden auf der Kommandozeile wie folgt:

tablescrape 'http://someURL.foo.com' [n]

Wenn n ist nicht angegeben und es gibt mehr als eine HTML-Tabelle auf der Seite, es sollte zusammenfassen (Kopfzeile, Anzahl der Zeilen) in eine nummerierte Liste.
Wenn n angegeben ist oder ob es nur eine Tabelle ist, sollte es analysiert die Tabelle und spucken es auf stdout als CSV-oder TSV.

Mögliche zusätzliche Merkmale:

Wirklich Lust Sie konnte Parsen einer Tabelle innerhalb einer Tabelle, aber für meine Zwecke -- abrufen von Daten von wikipedia-Seiten, und dergleichen-das ist overkill.
Eine option, um asciify jedes unicode-Zeichen.
Eine option, gelten ein beliebiger regex-Ersetzung für die Befestigung weirdnesses in der analysierten Tabelle.

Was würden Sie verwenden, um cobble so etwas zusammen?
Das Perl-Modul HTML::TableExtract könnte ein guter Ort, um zu starten und kann auch den Fall behandeln von verschachtelten Tabellen.
Dies könnte auch ein ziemlich kurzes Python-Skript mit BeautifulSoup.
Würde YQL ein guter Ausgangspunkt?
Oder, idealerweise, haben Sie geschrieben etwas ähnliches, und haben einen Zeiger darauf?
(Ich bin sicherlich nicht die erste person, die dies benötigen.)

Fragen:

Sorry @dreeves, aber Stack-Überlauf ist nicht eine "freie Programmierer-for-hire" - service.
Aber wo ist der Frage?
Bearbeiten Sie die Frage, wenn Sie möchten, zu formulieren, die es.
(erledigt; danke. beachten Sie, dass ich bitte in diesem Fall ein tool wie dieses existiert. und falls nicht, Schreibe ich es selbst und teilen es hier)

InformationsquelleAutor dreeves | 2010-04-09

Dies ist mein Erster Versuch:

http://yootles.com/outbox/tablescrape.py

Braucht es ein bisschen mehr Arbeit, wie eine bessere asciifying, aber es ist brauchbar. Zum Beispiel, wenn Sie es auf diese Liste der Olympischen records:

./tablescrape http://en.wikipedia.org/wiki/List_of_Olympic_records_in_athletics

er sagt dir, dass es 8 Tische zur Verfügung und es ist klar, dass die 2. und 3. diejenigen (Männer und Frauen records) sind die, die Sie wollen:

1: [  1 cols,   1 rows] Contents 1 Men's rec
2: [  7 cols,  25 rows] Event | Record | Name | Nation | Games | Date | Ref
3: [  7 cols,  24 rows] Event | Record | Name | Nation | Games | Date | Ref
[...]

Dann, wenn Sie es erneut ausführen, Fragen für die 2. Tabelle,

./tablescrape http://en.wikipedia.org/wiki/List_of_Olympic_records_in_athletics 2

Erhalten Sie eine angemessene Klartext-Daten Tabelle:

100 metres | 9.69 | Usain Bolt | Jamaica (JAM) | 2008 Beijing | August 16, 2008 | [ 8 ]
200 metres | 19.30 | Usain Bolt | Jamaica (JAM) | 2008 Beijing | August 20, 2008 | [ 8 ]
400 metres | 43.49 | Michael Johnson | United States (USA) | 1996 Atlanta | July 29, 1996 | [ 9 ]
800 metres | 1:42.58 | VebjÃ¸rn Rodal | Norway (NOR) | 1996 Atlanta | July 31, 1996 | [ 10 ]
1,500 metres | 3:32.07 | Noah Ngeny | Kenya (KEN) | 2000 Sydney | September 29, 2000 | [ 11 ]
5,000 metres | 12:57.82 | Kenenisa Bekele | Ethiopia (ETH) | 2008 Beijing | August 23, 2008 | [ 12 ]
10,000 metres | 27:01.17 | Kenenisa Bekele | Ethiopia (ETH) | 2008 Beijing | August 17, 2008 | [ 13 ]
Marathon | 2:06:32 | Samuel Wanjiru | Kenya (KEN) | 2008 Beijing | August 24, 2008 | [ 14 ]
[...]

Nettes script, danke! Ich brauchte genau das.

InformationsquelleAutor dreeves

Mit TestPlan produzierte ich ein grobes Skript. Angesichts der Komplexität von web-Tabellen es muss wahrscheinlich sein, abgestimmt auf alle Seiten.

Diesem ersten Skript listet die Tabellen auf der Seite:

# A simple table scraping example. It lists the tables on a page
#
# Cmds.Site = the URL to scan
default %Cmds.Site% http://en.wikipedia.org/wiki/List_of_Olympic_records_in_athletics
GotoURL %Cmds.Site%

set %Count% 1
foreach %Table% in (response //table)
    Notice Table #%Count%
    # find a suitable name, look back for a header
    set %Check% ./preceding::*[name()='h1' or name()='h2' or name()='h3'][1]
    if checkIn %Table% %Check%
        Notice (selectIn %Table% %Check%)
    end

    set %Count% as binOp %Count% + 1
end

Zweiten Skript extrahiert dann die Daten von einer Tabelle in eine CSV-Datei.

# Generic extract of contents of a table in a webpage
# Use list_tables to get the list of table and indexes
#
# Cmds.Site = the URL to scan
# Cmds.Index = Table index to scan
default %Cmds.Site% http://en.wikipedia.org/wiki/List_of_Olympic_records_in_athletics
default %Cmds.Index% 2

GotoURL %Cmds.Site%

set %Headers% //table[%Cmds.Index%]/tbody/tr[1]
set %Rows% //table[%Cmds.Index%]/tbody/tr[position()>1]

# Get an cleanup the header fields 
set %Fields% withvector
end
foreach %Header% in (response %Headers%/*)
    putin %Fields% (trim %Header%)
end
Notice %Fields%

# Create an output CSV
call unit.file.CreateDataFile with
    %Name% %This:Dir%/extract_table.csv
    %Format% csv
    %Fields% %Fields%
end
set %DataFile% %Return:Value%

# Now extract each row
foreach %Row% in (response %Rows%)
    set %Record% withvector
    end
    foreach %Cell% in (selectIn %Row% ./td)
        putin %Record% (trim %Cell%)
    end

    call unit.file.WriteDataFile with
        %DataFile% %DataFile%
        %Record% %Record%
    end
end

call unit.file.CloseDataFile with
    %DataFile% %DataFile%
end

Meine CSV-Datei sieht wie folgt aus. Beachten Sie, dass wikipedia-Informationen extrahieren, die in jeder Zelle. Es gibt viele Möglichkeiten, um es loszuwerden, aber nicht in einer generischen Weise.

Shot put,22.47 m,"Timmermann, UlfUlf Timmermann",East Germany (GDR),1988 1988 Seoul,"01988-09-23 September 23, 1988",[25]
Discus throw,69.89 m,"Alekna, VirgilijusVirgilijus Alekna",Lithuania (LTU),2004 2004 Athens,"02004-08-23 August 23, 2004",[26]
Hammer throw,84.80 m,"Litvinov, SergeySergey Litvinov",Soviet Union (URS),1988 1988 Seoul,"01988-09-26 September 26, 1988",[27]
Javelin throw,90.57 m,"Thorkildsen, AndreasAndreas Thorkildsen",Norway (NOR),2008 2008 Beijing,"02008-08-23 August 23, 2008",[28]

Danke! Das sieht gut aus. In der version, die ich schrieb ich landete setzen in besonderen Fällen zu entfernen, was, die Sie aufrufen wikipedia-Informationen extrahieren.

InformationsquelleAutor edA-qa mort-ora-y

Schreibe einen Kommentar

Du musst angemeldet sein, um einen Kommentar abzugeben.