Kratzen HTML-Tabellen aus einer bestimmten URL in das CSV

Ich Suche ein tool, dass kann ausgeführt werden auf der Kommandozeile wie folgt:

tablescrape 'http://someURL.foo.com' [n]

Wenn n ist nicht angegeben und es gibt mehr als eine HTML-Tabelle auf der Seite, es sollte zusammenfassen (Kopfzeile, Anzahl der Zeilen) in eine nummerierte Liste.
Wenn n angegeben ist oder ob es nur eine Tabelle ist, sollte es analysiert die Tabelle und spucken es auf stdout als CSV-oder TSV.

Mögliche zusätzliche Merkmale:

  • Wirklich Lust Sie konnte Parsen einer Tabelle innerhalb einer Tabelle, aber für meine Zwecke -- abrufen von Daten von wikipedia-Seiten, und dergleichen-das ist overkill.
  • Eine option, um asciify jedes unicode-Zeichen.
  • Eine option, gelten ein beliebiger regex-Ersetzung für die Befestigung weirdnesses in der analysierten Tabelle.

Was würden Sie verwenden, um cobble so etwas zusammen?
Das Perl-Modul HTML::TableExtract könnte ein guter Ort, um zu starten und kann auch den Fall behandeln von verschachtelten Tabellen.
Dies könnte auch ein ziemlich kurzes Python-Skript mit BeautifulSoup.
Würde YQL ein guter Ausgangspunkt?
Oder, idealerweise, haben Sie geschrieben etwas ähnliches, und haben einen Zeiger darauf?
(Ich bin sicherlich nicht die erste person, die dies benötigen.)

Fragen:

  • Sorry @dreeves, aber Stack-Überlauf ist nicht eine "freie Programmierer-for-hire" - service.
  • Aber wo ist der Frage?
  • Bearbeiten Sie die Frage, wenn Sie möchten, zu formulieren, die es.
  • (erledigt; danke. beachten Sie, dass ich bitte in diesem Fall ein tool wie dieses existiert. und falls nicht, Schreibe ich es selbst und teilen es hier)
InformationsquelleAutor dreeves | 2010-04-09
Schreibe einen Kommentar