Entfernen Byte Order Mark aus der Datei.ReadAllBytes (byte[])

Ich habe einen HTTPHandler, dass sich der Lektüre in einem Satz von CSS-Dateien und Sie zu kombinieren und dann Gzip. Jedoch, einige der CSS-Dateien enthalten eine Byte Order Mark (durch einen bug im TFS 2005 auto merge) und im FireFox die Stückliste wird Lesen als Teil des eigentlichen Inhalts, so ist es vermasseln meiner Klasse Namen etc. Wie kann ich die Streifen aus dem BOM-Zeichen? Gibt es eine einfache Möglichkeit dies zu tun, ohne manuell gehen durch das byte-array auf der Suche nach "ï»¿"?

Ist die Stückliste, die in den eigentlichen text selbst, oder nur am Anfang? Ich wäre überrascht, wenn es irgendwo anders als am Anfang der Daten - in dem Fall einfach ignorieren die ersten 3 bytes (unter der Annahme UTF-8) sollte den trick tun.
FWIW, du könntest die Dateien öffnen in Notepad++, und speichern Sie Sie ohne die Byte Order Mark. Es ist, was ich tun musste, um in diese Frage.
Ich schrieb die folgenden Beitrag nach kommen über dieses Problem. Im wesentlichen Lesen, anstatt in die rohen bytes der Datei-Inhalt mit der BinaryReader Klasse, ich benutze die StreamReader-Klasse mit einem bestimmten Konstruktor, der entfernt automatisch die byte-order-mark-Zeichen von den textuellen Daten, die ich bin versucht zu Holen.

InformationsquelleAutor JC Grubbs | 2008-11-13

byte-order-mark c#

8

Erweiterung auf Jon ' s Kommentar mit einer Probe.
```
var name = GetFileName();
var bytes = System.IO.File.ReadAllBytes(name);
System.IO.File.WriteAllBytes(name, bytes.Skip(3).ToArray());
```
Zitat OP: Doch, einige der CSS-Dateien enthalten eine Byte Order Mark. .. * * * * .. also der code oben nicht überprüfen, ob es eine Stückliste, bevor er springt...

InformationsquelleAutor JaredPar

Ausbau JaredPar Probe recurse über sub-Verzeichnisse:

using System.Linq;
using System.IO;
namespace BomRemover
{
    ///<summary>
    ///Remove UTF-8 BOM (EF BB BF) of all *.php files in current & sub-directories.
    ///</summary>
    class Program
    {
        private static void removeBoms(string filePattern, string directory)
        {
            foreach (string filename in Directory.GetFiles(directory, file  Pattern))
            {
                var bytes = System.IO.File.ReadAllBytes(filename);
                if(bytes.Length > 2 && bytes[0] == 0xEF && bytes[1] == 0xBB && bytes[2] == 0xBF)
                {
                    System.IO.File.WriteAllBytes(filename, bytes.Skip(3).ToArray()); 
                }
            }
            foreach (string subDirectory in Directory.GetDirectories(directory))
            {
                removeBoms(filePattern, subDirectory);
            }
        }
        static void Main(string[] args)
        {
            string filePattern = "*.php";
            string startDirectory = Directory.GetCurrentDirectory();
            removeBoms(filePattern, startDirectory);            
        }       
    }
}

Ich hatte müssen, dass C# - code nach der Entdeckung, dass der UTF-8-BOM beschädigt-Datei, wenn Sie versuchen, führen Sie eine einfache PHP-Datei herunterladen.

InformationsquelleAutor Olivier de Rivoyre

3
```
var text = File.ReadAllText(args.SourceFileName);
var streamWriter = new StreamWriter(args.DestFileName, args.Append, new UTF8Encoding(false));
streamWriter.Write(text);
streamWriter.Close();
```
Suchen auf diesem code, im Idealfall sollte es funktionieren. Aber, ich bin überrascht, dass es beim speichern der Datei im ANSI-format.
new UTF8Encoding(false) der parameter zeigt an, ob die Stückliste oder nicht.

InformationsquelleAutor

Andere Weise, vorausgesetzt, UTF-8 zu ASCII.

File.WriteAllText(filename, File.ReadAllText(filename, Encoding.UTF8), Encoding.ASCII);

InformationsquelleAutor Tim Bailey

Für größere Dateien verwenden Sie den folgenden code, Speicher effizient!

StreamReader sr = new StreamReader(path: @"<Input_file_full_path_with_byte_order_mark>", 
                    detectEncodingFromByteOrderMarks: true);

StreamWriter sw = new StreamWriter(path: @"<Output_file_without_byte_order_mark>", 
                    append: false, 
                    encoding: new UnicodeEncoding(bigEndian: false, byteOrderMark: false));

var lineNumber = 0;
while (!sr.EndOfStream)
{
    sw.WriteLine(sr.ReadLine());
    lineNumber += 1;
    if (lineNumber % 100000 == 0)
        Console.Write("\rLine# " + lineNumber.ToString("000000000000"));
}

sw.Flush();
sw.Close();

InformationsquelleAutor Ashokan Sivapragasam

Schreibe einen Kommentar

Du musst angemeldet sein, um einen Kommentar abzugeben.