Finden Termine, die nicht zu analysieren, in R Lubridate

Als R-Neuling ich bin ziehen meine Haare aus versuchen zu Debuggen kryptische R Fehler. Ich habe die csv, die mit 150k Zeilen, die ich für das laden in ein data-frame mit dem Namen 'Datum'. Ich habe dann mit lubridate zu konvertieren, das Zeichen Spalte datetimes in der Hoffnung, min/max Datum.

  dates <- csv[c('datetime')]
  dates$datetime <- ymd_hms(dates$datetime)

Diesen code ausführen will, erhalte ich die folgende Fehlermeldung:

Warning message:
3 failed to parse.

Nehme ich dies als die CSV konnte einige kitschige dates in es und den nächsten Lauf:

min(dates$datetime) 
max(dates$datetime)

Beide zurück NA, was ich davon ausgehen ist, von den paar kaputte Daten immer noch gespeichert in dem Daten-frame. Ich habe gesucht, um für eine schnelle Lösung, und haben sogar versucht, den Aufbau einer foreach-Schleife um das problem zu identifizieren dates, aber kein Glück. Was wäre eine einfache Möglichkeit zur Ermittlung der 3 broken dates?

example date format: 2015-06-17 17:10:16 +0000

Sie können überprüfen, ob das format ist einheitlich. Überprüfen Sie auch ?guess_formats
Wenn Sie eine Sortierung auf die datetime-Vektor, würden die NA ' s werden entweder auf den Kopf oder den Schwanz?
Ich versuchte dies in excel importieren von csv-Dateien und überprüfung der Länge der einzelnen Zelle und Filter für alles, was aus der Stelle. Dies trifft nicht zu nichts, gibt es eine Möglichkeit, dies zu tun in R? Ich habe versucht, guess_formats & parse_date_time und beide sind gescheitert.
Das war es! Ich sortierte die ungeparsten roh-csv, dann Schwanz(Termine) angezeigt, die drei falsche Felder. Vielen Dank für die Hilfe!
Man könnte auch die Zeilen-Nummern der fehlenden Daten mit which(is.na(dates$datetime)).
das ist genau das was ich gesucht habe, einfach und schnell.

InformationsquelleAutor Korben Dallas | 2016-02-12

5

Kredit zu Rechtsanwalt und Stibu von oben Kommentare:
1. Ich zuerst sortiert die raw-csv-Spalte und hat einen Kopf() & tail() zu finden
  die 3 dates waren ärger
2. Alternativ which(is.na(dates$datetime)) war ein einfacher one-liner, um auch die Antwort zu finden.
- Das ist toll, aber nicht wirklich Antwort auf die Allgemeine Frage. Was ist, wenn das problem ist, dass das Zeichen 'purpleElephant' ist in Ihren Daten? Es ist nicht ein NA ist doch noch unparseable. Wir müssen noch einen Weg, um die Warnungen anzuzeigen, die gegeben sind durch Lubridate.
- Die Frage war, über die Identifizierung der drei gebrochene Termine und dieser erledigt das perfekt.
- Es ist aber nur erreicht, weil die 3 Termine, die zufällig NAs. Ich habe einen Vektor von 93 Termine/datetimes enthält ~17 NAs und bin immer "2 Fehler beim Parsen". Also diese Lösung löst nicht das generische problem, nur das problem in OP ' s Fall.
InformationsquelleAutor Korben Dallas

Schreibe einen Kommentar

Du musst angemeldet sein, um einen Kommentar abzugeben.