Matlab - Hilfe verwenden von text-scan, wie zu ignorieren, Kommentare und header-Spalten?

Ich brauche Hilfe mit text Scannen. Ich versuche, Daten zu Lesen, die Folgendes format hat:

# ---------------------------------- WARNING ----------------------------------------
# The data you have obtained from this automated U.S. Geological Survey database
# have not received Director's approval and as such are provisional and subject to
# revision.  The data are released on the condition that neither the USGS nor the
# United States Government may be held liable for any damages resulting from its use.
# Additional info: http://nwis.waterdata.usgs.gov/nwis/help/?provisional
#
# File-format description:  http://nwis.waterdata.usgs.gov/nwis/?tab_delimited_format_info
# Automated-retrieval info: http://nwis.waterdata.usgs.gov/nwis/?automated_retrieval_info
#
# Contact:   gs-w_support_nwisweb@usgs.gov
# retrieved: 2013-09-13 13:10:29 EDT       (nadww01)
#
# Data for the following 1 site(s) are contained in this file
#    USGS 08067074 CWA Canal at Thompson Rd nr Baytown, TX
# -----------------------------------------------------------------------------------
#
# Data provided for site 08067074
#    DD parameter   Description
#    01   00010     Temperature, water, degrees Celsius
#    02   00095     Specific conductance, water, unfiltered, microsiemens per centimeter at 25 degrees Celsius
#
# Data-value qualification codes included in this output: 
#     A  Approved for publication -- Processing and review completed.  
#     P  Provisional data subject to revision.  
# 
agency_cd   site_no datetime    tz_cd   01_00010    01_00010_cd 02_00095    02_00095_cd
5s  15s 20d 6s  14n 10s 14n 10s
USGS    08067074    2013-01-05 00:00    CST 10.3    A   391 A
USGS    08067074    2013-01-05 00:15    CST 10.3    A   391 A
USGS    08067074    2013-01-05 00:30    CST 10.3    A   391 A
USGS    08067074    2013-01-05 00:45    CST 10.3    A   391 A
USGS    08067074    2013-01-05 01:00    CST 10.3    A   391 A
USGS    08067074    2013-01-05 01:15    CST 10.3    A   391 A
USGS    08067074    2013-01-05 01:30    CST 10.3    A   391 A
USGS    08067074    2013-01-05 01:45    CST 10.3    A   391 A
USGS    08067074    2013-01-05 02:00    CST 10.3    A   391 A
USGS    08067074    2013-01-05 02:15    CST 10.3    A   391 A
USGS    08067074    2013-01-05 02:30    CST 10.3    A   391 A
USGS    08067074    2013-01-05 02:45    CST 10.2    A   391 A
USGS    08067074    2013-01-05 03:00    CST 10.2    A   391 A
USGS    08067074    2013-01-05 03:15    CST 10.2    A   391 A
USGS    08067074    2013-01-05 03:30    CST 10.2    A   391 A
USGS    08067074    2013-01-05 03:45    CST 10.2    A   391 A
USGS    08067074    2013-01-05 04:00    CST 10.2    A   391 A
USGS    08067074    2013-01-05 04:15    CST 10.2    A   392 A
USGS    08067074    2013-01-05 04:30    CST 10.2    A   391 A
USGS    08067074    2013-01-05 04:45    CST 10.2    A   391 A
USGS    08067074    2013-01-05 05:00    CST 10.2    A   391 A
USGS    08067074    2013-01-05 05:15    CST 10.2    A   391 A
USGS    08067074    2013-01-05 05:30    CST 10.2    A   391 A
USGS    08067074    2013-01-05 05:45    CST 10.2    A   391 A
USGS    08067074    2013-01-05 06:00    CST 10.2    A   391 A
USGS    08067074    2013-01-05 06:15    CST 10.1    A   391 A
USGS    08067074    2013-01-05 06:30    CST 10.1    A   391 A
USGS    08067074    2013-01-05 06:45    CST 10.1    A   391 A
USGS    08067074    2013-01-05 07:00    CST 10.1    A   391 A
USGS    08067074    2013-01-05 07:15    CST 10.1    A   391 A
USGS    08067074    2013-01-05 07:30    CST 10.1    A   390 A
USGS    08067074    2013-01-05 07:45    CST 10.0    A   391 A
USGS    08067074    2013-01-05 08:00    CST 10.0    A   390 A
USGS    08067074    2013-01-05 08:15    CST 10.0    A   391 A
USGS    08067074    2013-01-05 08:30    CST 10.0    A   391 A
USGS    08067074    2013-01-05 08:45    CST 10.0    A   390 A
USGS    08067074    2013-01-05 09:00    CST 10.0    A   390 A
USGS    08067074    2013-01-05 09:15    CST 10  A   390 A
USGS    08067074    2013-01-05 09:30    CST 10  A   390 A
USGS    08067074    2013-01-05 09:45    CST 10  A   390 A
USGS    08067074    2013-01-05 10:00    CST 10  A   390 A
USGS    08067074    2013-01-05 10:15    CST 10  A   390 A
USGS    08067074    2013-01-05 10:30    CST 10  A   390 A
USGS    08067074    2013-01-05 10:45    CST 10  A   390 A
USGS    08067074    2013-01-05 11:00    CST 10  A   390 A
USGS    08067074    2013-01-05 11:15    CST 10  A   390 A
USGS    08067074    2013-01-05 11:30    CST 10  A   390 A
USGS    08067074    2013-01-05 11:45    CST 10  A   389 A
USGS    08067074    2013-01-05 12:00    CST 10  A   389 A
USGS    08067074    2013-01-05 12:15    CST 10  A   389 A
USGS    08067074    2013-01-05 12:30    CST 10  A   389 A
USGS    08067074    2013-01-05 12:45    CST 10  A   389 A
USGS    08067074    2013-01-05 13:00    CST 10  A   389 A
USGS    08067074    2013-01-05 13:15    CST 10  A   389 A
USGS    08067074    2013-01-05 13:30    CST 10  A   389 A

Nur zwei Einträge, die ich bin besorgt, sind mit "Spezifischer Leitwert" und "Datum". (Spalten 3 und 7 beziehungsweise)

War ich in der Lage, dies zu tun auf einer konsequenten basis mit dem folgenden code:

%% 
% Collect conductance data
filename = 'conductivityData_Temp_File';


%%
% Determine length of data file 
fid = fopen('conductivityData_Temp_File','r');
fseek(fid, 0, 'eof');
chunksize = ftell(fid);
fseek(fid, 0, 'bof');
ch = fread(fid, chunksize, '*uchar');
N = sum(ch == sprintf('\n')); % number of lines
fclose(fid)

%% 
% Read conductivity data
fileconductID = fopen(filename);
waterConductivityData = textscan(fileconductID, '%s %d %s %s %f %s %f %s', N, 'delimiter', '\t', 'EmptyValue', 0, 'headerlines', 27);
fclose(fileconductID);

Jedoch fand ich heraus, dass Sie einfach können 'commentstyle' zu ignorieren, die Kommentare. Dies ist wichtig, da lese ich mehrere Dateien und gelegentlich werde ich auch eine Datei, die nicht genau 27 Kommentar-Zeilen. Das wird mein Programm wirft einen Fehler.

Kann mir jemand sagen wie ich einstellen kann, meine textscan-code, um den Kommentar zu ignorieren Zeilen und überspringen Sie die zwei header-Zeilen?

Ich entschuldige mich, wenn der Beispiel-code, den ich geliefert ist kompliziert, aber im Grunde ist mein Fehler befindet sich in diesem eine Zeile code:

waterConductivityData = textscan(fileconductID, '%s %d %s %s %f %s %f %s', N, 'delimiter', '\t', 'EmptyValue', 0, 'headerlines', 27);

(wenn Sie wollen downlad ein Beispiel tab-deliminated-Datei, mit zu arbeiten verwenden Sie diesen link: hier

Danke!

ANTWORT:

Danke TryHard, das war ein guter Ansatz, aber ich wollte näher zu dem, was ich war das tun vorher. Anscheinend ist mein Begrenzer deaktiviert wurden.

waterConductivityData = textscan(fileconductID,'%s %s %s %s %s %s %s %s %s ' , 'Delimiter', '\t', 'CommentStyle', '#');

dates = waterConductivityData{3}(3:end);
conductancesStr = waterConductivityData{7}(3:end);
temperaturesStr = waterConductivityData{5}(3:end);

conductances = str2double(conductancesStr);
temperatures = str2double(temperaturesStr);

InformationsquelleAutor John August | 2013-09-13

1

Ändern Sie Ihre textscan Linie zu diesem:
```
waterConductivityData = textscan(fileconductID, '%s %d %s %s %f %s %f %s', N, 'Delimiter', '\t', 'EmptyValue', 0, 'CommentStyle', '#');
```
Bekomme und dann die Spalten, die Sie wollte wie diese:
```
dates = waterConductivityData{3}(3:end)
conductances = waterConductivityData{7}(3:end)
```
- Ja, das ist, was ich Frage, aber deine Antwort nicht so, wie ich es erwartet hatte. Es gibt nur: 'agency_cd' [] [] [] [] [] [] []
- Ach, ich bin einfach davon ausgegangen das formatSpec tätig war. Halten und ich werde tatsächlich werfen Sie es in Matlab.
- Ich bearbeitet meine erste Antwort. Lassen Sie mich wissen, wenn das noch nicht die Ausgabe, die Sie erwartet hatten.
- Das funktionierte, nachdem ich die Trennzeichen geändert. Ich habe auch, Weg mit 'N'
InformationsquelleAutor Ben
0

Einen Weg, Sie zu umgehen variable header-Länge ist, die zum analysieren der Datei wie folgt:
```
fid=fopen(file);
str=textscan(fid,'%s')
fclose(fid)

str2=strvcat(str{1});
fst=strmatch('CST',str2);

dtstr = str2(fst(1)-2:9:end,:);   % date strings
timstr = str2(fst(1)-1:9:end,:);  % time strings
condctv = str2(fst(1)+3:9:end,:); % conductivity string
```
Findet das erste vorkommen der Zeichenfolge "CST" und analysiert, vorausgesetzt, die Daten-Linien organisiert werden, ebenso in allen Dateien, und es muss "CST" treten Sie in der ersten Datenzeile der Tabelle. Wenn das nicht eine Konstante in Ihren Daten-Dateien, dann ist die Idee, eine Büste. Aber Sie können möglicherweise verwenden Sie die anderen Saiten auf das Diagramm, Ihren Weg durch die Daten-Tabelle, vorausgesetzt, Sie sind einzigartig und immer an der gleichen Stelle. Im folgenden macht sich die letzten format-Bezeichner im format-string:
```
str2=strvcat(str{1});
fst=strmatch('10s',str2);
fst=fst(end);

dtstr = str2(fst+3:9:end,:);
timstr = str2(fst+4:9:end,:);
condctv = str2(fst+8:9:end,:);
```
Können Sie wandeln die Zeichenketten in condctv in numerische Daten mit str2num wie folgt:
```
condctv = str2num(conductv);
```
- Dies scheint nur Arbeit ist "cst" in der Datei. Ich habe versucht, es zu erhalten zu arbeiten, indem Sie finden "USGS" statt, da dies tritt in jeder Datei. Das andere Problem ist, dass ich brauche, um die Daten in arrays nicht als vertikal verkettet Zeichenfolgen.
- Mit USGS ist ein wenig mehr unsicher, weil es zeigt sich in den Kommentaren. Auf der anderen Seite kann man sich die letzten vorkommen einer Kommentar-marker #, aber das ist fast das gleiche wie die Alternative Antwort, die ich ändern kann, die Antwort zu verwenden, # wenn Sie es vorziehen(oder können Sie es herausfinden :). Die Daten können einfach konvertiert und in einer matrix. Zum Beispiel str2num(condctv) gibt einen Spalten-Vektor mit den leitfähigkeiten.
InformationsquelleAutor Buck Thorn

Schreibe einen Kommentar

Du musst angemeldet sein, um einen Kommentar abzugeben.