Konvertieren von HTML-Tabelle in CSV-Datei von shell
ich versuche zu konvertieren eine Datei mit einer HTML-Tabelle in das CSV-format. Ein Auszug aus dieser Datei folgt:
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
<html xmlns="http://www.w3.org/1999/xhtml" >
<head id="Head1"><link rel="shortcut icon" href="favicon.ico" /><title>
Untitled Page
</title></head>
<body>
<form name="form1" method="post" action="mypricelist.aspx" id="form1">
<input type="hidden" name="__VIEWSTATE" id="__VIEWSTATE" value="/somethingrandom" />
<div>
<table id="price_list" border="0">
<tr>
<td>ProdCode</td><td>Description</td><td>Your Price</td>
</tr><tr>
<td>ab101</td><td>loruem</td><td>1.1</td>
</tr><tr>
<td>ab102</td><td>ipsum</td><td>0.1</td>
</tr><tr>
versuchte ich mit
xls2csv -x -c\; evprice.xls > evprice.csv
aber das gibt mir eine Fehlermeldung
evprice.xls is not OLE file or Error
Habe ich gegoogelt. es sagte, dass es war, weil die Datei nicht die richtige xls, sondern einfach nur html.
Wenn ich versuche
file evprice.xls
seine sagt seine html-fand so eine 'Lösung', die die Nutzung von libreoffice.
libreoffice --headless -convert-to csv ./evprice.xls
gut, das nicht ein Fehler sein, aber die csv-Ausgabe-Datei ist alles seltsam, wie das öffnen einer exe-Datei in Editor.
es enthält eine Menge von seltsamen Zeichen wie diese
—¬žþ9ü~ÆóXþK¢
jemand wissen, warum dies geschieht und habe eine funktionierende Lösung?
Ist die sample-Daten mit dem Sie arbeiten, öffentlich zugänglich? Ich weiß nicht, wie jemand in der Lage wären, etwas, das funktioniert mit einer Datei in einem unsicheren format, dessen Inhalt wir noch nie gesehen haben.
sorry, das ist nicht öffentlich. ich kann zwar einen Teil der Datei
Hinzugefügt xls-Datei.
Ich würde nicht wirklich beschreiben, als "XLS" - Datei an alle-es ist eine HTML-Tabelle, nix Excel oder XLS-bezogen auf alle.
...also, da, das sieht aus wie ein Duplikat von stackoverflow.com/questions/259091/... (obwohl die akzeptierte Antwort gibt es nicht automatisch auf alle, es gibt andere, die sind).
sorry, das ist nicht öffentlich. ich kann zwar einen Teil der Datei
Hinzugefügt xls-Datei.
Ich würde nicht wirklich beschreiben, als "XLS" - Datei an alle-es ist eine HTML-Tabelle, nix Excel oder XLS-bezogen auf alle.
...also, da, das sieht aus wie ein Duplikat von stackoverflow.com/questions/259091/... (obwohl die akzeptierte Antwort gibt es nicht automatisch auf alle, es gibt andere, die sind).
InformationsquelleAutor R. Leroi | 2014-02-25
Du musst angemeldet sein, um einen Kommentar abzugeben.
Ich gebaut habe, ein Python-Programm, das wandelt alle Tabellen in einer HTML-Datei in separaten CSV-Dateien.
Finden Sie es hier.
Den Kern des Skripts ist:
import sys; reload sys; sys.setdefaultencoding('utf-8')
. Die akzeptierte Antwort auf diese question was ich eigentlich Tat, und schlage vor, in diesem Kommentar.InformationsquelleAutor Richard