Lesen UTF-8-Dateien korrekt mit PowerShell

Folgende situation:

Ein PowerShell-Skript erstellt eine Datei mit UTF-8-Codierung
Der Benutzer kann oder kann nicht die Datei Bearbeiten, eventuell zu verlieren, die Stückliste, aber behalte die Codierung als UTF-8, und ändert dabei möglicherweise das line Separatoren
Das gleiche PowerShell-Skript liest die Datei ein, fügt etwas mehr Inhalt und schreibt ihn alle als UTF-8 wieder auf die gleiche Datei
Diese Durchlaufen werden können, viele Male

Mit Get-Content und Out-File -Encoding UTF8 ich habe Probleme beim Lesen es richtig. Es ist das stolpern über die BOM hat es geschrieben, bevor (Sie Sie in den Inhalt, brechen meine parsing, regex), nicht UTF-8-Codierung und sogar löscht Zeilenumbrüche im original content part.

Brauche ich eine Funktion, die Lesen können eine Datei mit UTF-8-Codierung, ignorieren und löschen Sie die Stückliste und nicht den Inhalt ändern. Was sollte ich verwenden?

Update

Ich habe soeben einen kleinen test-Skript, das zeigt, was ich versuche zu tun, und was passiert stattdessen.

# Read data if exists
$data = ""
$startRev = 1;
if (Test-Path test.txt)
{
    $data = Get-Content -Path test.txt
    if ($data -match "^[0-9-]{10} - r([0-9]+)")
    {
        $startRev = [int]$matches[1] + 1
    }
}
Write-Host Next revision is $startRev

# Define example data to add
$startRev = $startRev + 10
$newMsgs = "2014-04-01 - r" + $startRev + "`r`n`r`n" + `
    "Line 1`r`n" + `
    "Line 2`r`n`r`n"

# Write new data back
$data = $newMsgs + $data
$data | Out-File test.txt -Encoding UTF8

Nachdem Sie ein paar mal, neue Abschnitte Hinzugefügt werden sollte an den Anfang der Datei, die bestehenden Inhalte sollten nicht in irgendeiner Weise verändert werden (derzeit verliert Zeilenumbrüche) und keine neuen Zeilen Hinzugefügt werden sollte an das Ende der Datei (scheint manchmal zu passieren).

Statt, der zweite Lauf gibt mir eine Fehlermeldung.

Ich bin nicht groß mit der ganzen Codierung Thema, aber würden Sie nicht haben, zu re-injizieren der Stückliste, wenn es sich wieder entfernt, um ihn richtig Lesen? Ich bin ein wenig verwirrt von der Frage. Warum möchten Sie die UTF-8-BOM?
Mein text editor ist dumm, und entfernt es. Trotzdem weiß man nie, was text-Editoren, die mit UTF-8 Dateien. Mein script soll einfach nur intelligent genug sein, es zu handhaben. Wie die StreamReader-Klasse tut es ziemlich gut.

InformationsquelleAutor ygoe | 2014-04-01

24

Wenn die Datei sollte UTF8 sein, warum nicht Sie versuchen, es zu Lesen Dekodierung von UTF8 :
```
Get-Content -Path test.txt -Encoding UTF8
```
- Denn laut der offiziellen Dokumentation dieser parameter gar nicht existiert? Wie konnte ich es wissen? Ich werde es einmal versuchen.
- Es war nicht die richtige Antwort ?
- Sorry, 5 Jahre später, weiß ich nicht mehr. Ich habe nicht verwendet PS viel in eine Weile.
- der parameter existiert hat, seit mindestens PowerShell 3.0
InformationsquelleAutor JPBlanc
4

Wirklich JPBlanc richtig ist. Wenn Sie wollen, Lesen Sie es als UTF8 dann angeben, wenn die Datei gelesen wird.

On a side note, Sie verlieren die Formatierung, hier mit der [String]+[String] Zeug. Nicht zu schweigen von Ihrem regex-match funktioniert nicht. Überprüfen Sie heraus die regex-Suche änderungen, und die änderungen an den $newMsgs, und die Art und Weise bin ich die Ausgabe Ihrer Daten in die Datei.
```
# Read data if exists
$data = ""
$startRev = 1;
if (Test-Path test.txt)
{
    $data = Get-Content -Path test.txt #-Encoding UTF8
    if($data -match "\br([0-9]+)\b"){
        $startRev = [int]([regex]::Match($data,"\br([0-9]+)\b")).groups[1].value + 1
    }
}
Write-Host Next revision is $startRev

# Define example data to add
$startRev = $startRev + 10
$newMsgs = @"
2014-04-01 - r$startRev`r`n`r`n
    Line 1`r`n
    Line 2`r`n`r`n
"@

# Write new data back
$newmsgs,$data | Out-File test.txt -Encoding UTF8
```
- Das verbesserte es. Der regex an sich war gut, nur nicht so, wie ich es benutzt habe. Ich fand, dass irgendwo sonst... gibt es nicht eine Möglichkeit, ohne duplizieren der regex-string? Auch nicht, was das Komma im letzten Befehl zu tun? Ich sehe viele zusätzliche neue Linien Hinzugefügt, am Ende zunächst.
- Habe es gefunden, muss ein array sein. Leider sind die leeren $data für die erste Ausführung bewirkt zusätzlichen Linien. – Und warum macht der + - operator zwei strings ändern der eigentliche Inhalt? Das ist neu für mich in jeder Programmiersprache.
- Okay, es ist Get-Content's fault. Es gibt mir ein array von Zeilen, die nicht einem einzelnen mehrzeiligen string. Das bewirkt, dass alle Arten von chaos. Ich habe eingeschaltet, um [System.IO.File]::ReadAllText() und [System.IO.File]::WriteAllText() und jetzt bekomme ich viel mehr vorhersagbare Ergebnisse.
- Get-Content -raw gibt Ihnen die einzelne mehrzeilige Zeichenfolge, die Sie suchen.
InformationsquelleAutor TheMadTechnician

Get-Content scheint nicht zu behandeln UTF-Dateien ohne BOM (und lassen Sie die Encoding-flag). System.IO.Datei.ReadLines scheint zu sein, eine alternative, Beispiele:

PS C:\temp\powershellutf8> $a = Get-Content .\utf8wobom.txt
PS C:\temp\powershellutf8> $b = Get-Content .\utf8wbom.txt
PS C:\temp\powershellutf8> $a2 = Get-Content .\utf8wbom.txt -Encoding UTF8
PS C:\temp\powershellutf8> $a
ABCDEFGHIJKLMNOPQRSTUVWXYZÃ…Ã„Ã–  <== This doesnt seem to be right at all
PS C:\temp\powershellutf8> $b
ABCDEFGHIJKLMNOPQRSTUVWXYZÅÄÖ
PS C:\temp\powershellutf8> $a2
ABCDEFGHIJKLMNOPQRSTUVWXYZÅÄÖ
PS C:\temp\powershellutf8>
PS C:\temp\powershellutf8> $c = [IO.File]::ReadLines('.\utf8wbom.txt');
PS C:\temp\powershellutf8> $c
ABCDEFGHIJKLMNOPQRSTUVWXYZÅÄÖ
PS C:\temp\powershellutf8> $d = [IO.File]::ReadLines('.\utf8wobom.txt');
PS C:\temp\powershellutf8> $d
ABCDEFGHIJKLMNOPQRSTUVWXYZÅÄÖ <== Works!

InformationsquelleAutor Emil G

Schreibe einen Kommentar

Du musst angemeldet sein, um einen Kommentar abzugeben.