Finden Termine, die nicht zu analysieren, in R Lubridate

Als R-Neuling ich bin ziehen meine Haare aus versuchen zu Debuggen kryptische R Fehler. Ich habe die csv, die mit 150k Zeilen, die ich für das laden in ein data-frame mit dem Namen 'Datum'. Ich habe dann mit lubridate zu konvertieren, das Zeichen Spalte datetimes in der Hoffnung, min/max Datum.

  dates <- csv[c('datetime')]
  dates$datetime <- ymd_hms(dates$datetime)

Diesen code ausführen will, erhalte ich die folgende Fehlermeldung:

Warning message:
3 failed to parse. 

Nehme ich dies als die CSV konnte einige kitschige dates in es und den nächsten Lauf:

min(dates$datetime) 
max(dates$datetime)

Beide zurück NA, was ich davon ausgehen ist, von den paar kaputte Daten immer noch gespeichert in dem Daten-frame. Ich habe gesucht, um für eine schnelle Lösung, und haben sogar versucht, den Aufbau einer foreach-Schleife um das problem zu identifizieren dates, aber kein Glück. Was wäre eine einfache Möglichkeit zur Ermittlung der 3 broken dates?

example date format: 2015-06-17 17:10:16 +0000
  • Sie können überprüfen, ob das format ist einheitlich. Überprüfen Sie auch ?guess_formats
  • Wenn Sie eine Sortierung auf die datetime-Vektor, würden die NA ' s werden entweder auf den Kopf oder den Schwanz?
  • Ich versuchte dies in excel importieren von csv-Dateien und überprüfung der Länge der einzelnen Zelle und Filter für alles, was aus der Stelle. Dies trifft nicht zu nichts, gibt es eine Möglichkeit, dies zu tun in R? Ich habe versucht, guess_formats & parse_date_time und beide sind gescheitert.
  • Das war es! Ich sortierte die ungeparsten roh-csv, dann Schwanz(Termine) angezeigt, die drei falsche Felder. Vielen Dank für die Hilfe!
  • Man könnte auch die Zeilen-Nummern der fehlenden Daten mit which(is.na(dates$datetime)).
  • das ist genau das was ich gesucht habe, einfach und schnell.

Schreibe einen Kommentar