Erkennen EOL - - Typ mit PHP

Referenz: Dies ist ein selbst-beantwortete Frage. Es war dazu gedacht, die Kenntnisse zu teilen, F&Ein Stil.

Wie erkenne ich die Art der end-of-line Zeichen in PHP?

PS: ich habe das schreiben von Grund auf für zu lange jetzt, so dass ich beschloss, es zu teilen SO, außerdem bin ich sicher, dass jemand Wege finden zur Verbesserung.

InformationsquelleAutor Christian | 2012-06-16

8
```
/**
 * Detects the end-of-line character of a string.
 * @param string $str The string to check.
 * @param string $default Default EOL (if not detected).
 * @return string The detected EOL, or default one.
 */
function detectEol($str, $default=''){
    static $eols = array(
        "\0x000D000A", //[UNICODE] CR+LF: CR (U+000D) followed by LF (U+000A)
        "\0x000A",     //[UNICODE] LF: Line Feed, U+000A
        "\0x000B",     //[UNICODE] VT: Vertical Tab, U+000B
        "\0x000C",     //[UNICODE] FF: Form Feed, U+000C
        "\0x000D",     //[UNICODE] CR: Carriage Return, U+000D
        "\0x0085",     //[UNICODE] NEL: Next Line, U+0085
        "\0x2028",     //[UNICODE] LS: Line Separator, U+2028
        "\0x2029",     //[UNICODE] PS: Paragraph Separator, U+2029
        "\0x0D0A",     //[ASCII] CR+LF: Windows, TOPS-10, RT-11, CP/M, MP/M, DOS, Atari TOS, OS/2, Symbian OS, Palm OS
        "\0x0A0D",     //[ASCII] LF+CR: BBC Acorn, RISC OS spooled text output.
        "\0x0A",       //[ASCII] LF: Multics, Unix, Unix-like, BeOS, Amiga, RISC OS
        "\0x0D",       //[ASCII] CR: Commodore 8-bit, BBC Acorn, TRS-80, Apple II, Mac OS <=v9, OS-9
        "\0x1E",       //[ASCII] RS: QNX (pre-POSIX)
        //"\0x76",       //[?????] NEWLINE: ZX80, ZX81 [DEPRECATED]
        "\0x15",       //[EBCDEIC] NEL: OS/390, OS/400
    );
    $cur_cnt = 0;
    $cur_eol = $default;
    foreach($eols as $eol){
        if(($count = substr_count($str, $eol)) > $cur_cnt){
            $cur_cnt = $count;
            $cur_eol = $eol;
        }
    }
    return $cur_eol;
}
```
Hinweise:
- Zu überprüfen, Codierung
- ~~Muss irgendwie wissen, dass wir möglicherweise auf ein exotisches system wie ZX8x (ASCII x76 ist ein regulärer Brief)~~ @radu hob ein guter Punkt, in meinem Fall, es ist nicht der Mühe Wert, zu behandeln ZX8x Systeme schön.
- Sollte ich aufteilen der Funktion in zwei? mb_detect_eol() (multibyte) und detect_eol()
- Und die Quelle ist?
- Sie sind sicher über das mischen von Codierungen? Zumindest 0A erscheint zweimal. @Alexander Der Quelle verknüpft ist die Frage. Christian wollte nur eine Frage stellen, dass er will, um die Antwort selbst.
- Also, welches ist "/r/n"? Nicht die server haben einen Weg von der Pflege-je nachdem welche Umgebung Sie auf?
- Alexander, ich habe meine Frage selbst beantwortet. Siehe mein Hinweis in der wichtigsten Frage. KingCrunch um ehrlich Zu sein, ich glaube nicht, dass. Chibueze Opata \r\n ist ASCII CR+LF (Windows). Wenn es nicht klar, mein code soll zu finden EOL der eine beliebige Zeichenfolge, auch wenn es kam von einem anderen server -, client-oder eine remote-Datenbank. PHP ist völlig blind gegenüber dem, was Ihre client-browser als EOL.
- Was ist mit "gemischten Zeilenenden"? Für mich fühlt es sich nicht ungewöhnlich, wenn ein vertikaler Tabulator und eine regelmäßige line-feed wird in der gleichen Datei mit einem Absatz separator. Und dieses code-snippet, das stillschweigend davon ausgeht, dass jede Datei wohlgeformt ist
- Hmm, das ist ein guter Punkt. Es sollte gerecht für Fälle, in denen verschiedene EOL-Typen existieren könnten. Dann wieder, ich ' ll haben zu prüfen, welche von Ihnen sinnvoll zu co-existieren.
- auch Sie sind sicher 0x1E, 0x76 und 0x15 können nicht Teil eines multibyte-Zeichens? Vielleicht wäre es eine gute Idee sein, lassen Sie diese aus, wenn Sie nicht überzeugt sind, dass Sie gehen, um nützlich zu sein (die OSs erwähnt ganz schön alt Aussehen).
- Wikipedia scheint so Anspruch. Ich habe nicht einen IBM-mainframe noch ein Sinclair ZX8x zur hand um das zu überprüfen. 😀
- was ich meine ist, auch wenn Sie sind in der Tat EOL auf diesen Plattformen, die Sie vielleicht auch Teil einer UTF-8-Zeichen zum Beispiel. Also, wenn das Dokument enthält Zeichen, Sie würden fälschlicherweise feststellen, dass es enthält ein EOL, wenn in der Tat es nicht. Zum Beispiel gibt es das Unicode-Zeichen "latin capital letter sharp s", die den code hat U+1E9E. Wenn das Dokument enthalten würde, dieser Charakter, würde der code zu dem Schluss, es enthält ein EOL anstelle des "scharfen s" - Zeichen, denn Sie suchen 0x1E, die Teil des "scharfen s" - Zeichen.
- wenn diese (sehr) alte Systeme sind nicht eine primäre Sorge, Vorsicht ist besser als Nachsicht, denke ich. Ansonsten vielleicht versuchen, um zu bestimmen, der Dokument-Codierung vor der Anwendung dieser Methode.
InformationsquelleAutor Christian
6

Wäre es nicht einfacher einfach zu ersetzen alles außer die neuen Linien mit regex?

_{Der Punkt entspricht einem einzelnen Zeichen, ohne Sorge, was das Zeichen ist. Die einzige Ausnahme sind neue-Zeile-Zeichen.}

Mit, dass im Auge, wir tun etwas Magie:
```
$string = 'some string with new lines';
$newlines = preg_replace('/.*/', '', $string);
//$newlines is now filled with new lines, we only need one
$newline = substr($newlines, 0, 1);
```
Nicht sicher, ob wir Vertrauen können regex um all dies zu tun, aber ich habe nichts zum testen mit.
- Was, wenn Sie gemischte Inhalte? Zum Beispiel die ersten paar Zeilen enden mit CR+LF und der rest in den LF? Ich brauche etwas, das mir sagt, das Zeilenende ist in Erster Linie verwendet.
- Interessante Frage. Ich bin mir auch nicht sicher, ob meine Theorie funktioniert, aber wenn es funktioniert, könnte dies für Sie arbeiten, der Rückkehr am meisten verwendeten newline: $arr = array_count_values(str_split($newlines));arsort($arr);return key($arr);
- Sorry, es funktioniert nicht, wenn das gesamte Dokument hat CR+LF es zurück LF.
- Standardmäßig regex Auffassung 'newline' nur \n. (Dies kann geändert werden, mit build-Optionen). Allerdings habe ich einen regex, die Arbeit wird oben anstelle des '/.*/' und es ist '/(*ANYCRLF)./'. Es ist ein sehr guter Artikel über regex und Zeilenenden hier: nikic.github.io/2011/12/10/PCRE-and-newlines.html
InformationsquelleAutor ohaal

Den hier bereits gegebenen Antworten bieten dem Anwender genug Informationen.
Der folgende code (basierend auf dem bereits gegebenen anwers) könnte noch mehr helfen:

Es bietet eine Referenz des gefundenen EOL
Die Erkennung setzt auch eine Taste, die verwendet werden können, indem eine Anwendung auf diese Referenz.
Es zeigt, wie der Verweis in einer utility-Klasse.
Zeigt, wie es zur Entdeckung einer Datei, die die Rückgabe des Schlüssels name des gefundenen EOL.

Ich hoffe, dies ist der Verwendung von Ihnen allen.

/**
Newline characters in different Operating Systems
The names given to the different sequences are:
============================================================================================
NewL  Chars       Name     Description
----- ----------- -------- ------------------------------------------------------------------
LF    0x0A        UNIX     Apple OSX, UNIX, Linux
CR    0x0D        TRS80    Commodore, Acorn BBC, ZX Spectrum, TRS-80, Apple II family, etc
LFCR  0x0A 0x0D   ACORN    Acorn BBC and RISC OS spooled text output.
CRLF  0x0D 0x0A   WINDOWS  Microsoft Windows, DEC TOPS-10, RT-11 and most other early non-Unix
                          and non-IBM OSes, CP/M, MP/M, DOS (MS-DOS, PC DOS, etc.), OS/2,
----- ----------- -------- ------------------------------------------------------------------
*/
const EOL_UNIX    = 'lf';        //Code: \n
const EOL_TRS80   = 'cr';        //Code: \r
const EOL_ACORN   = 'lfcr';      //Code: \n \r
const EOL_WINDOWS = 'crlf';      //Code: \r \n

dann verwenden Sie den folgenden code in eine statische Utility-Klasse zu erkennen

/**
Detects the end-of-line character of a string.
@param string $str      The string to check.
@param string $key      [io] Name of the detected eol key.
@return string The detected EOL, or default one.
*/
public static function detectEOL($str, &$key) {
   static $eols = array(
     Util::EOL_ACORN   => "\n\r",  //0x0A - 0x0D - acorn BBC
     Util::EOL_WINDOWS => "\r\n",  //0x0D - 0x0A - Windows, DOS OS/2
     Util::EOL_UNIX    => "\n",    //0x0A -      - Unix, OSX
     Util::EOL_TRS80   => "\r",    //0x0D -      - Apple ][, TRS80
  );

  $key = "";
  $curCount = 0;
  $curEol = '';
  foreach($eols as $k => $eol) {
     if( ($count = substr_count($str, $eol)) > $curCount) {
        $curCount = $count;
        $curEol = $eol;
        $key = $k;
     }
  }
  return $curEol;
}  //detectEOL

dann für eine Datei:

/**
Detects the EOL of an file by checking the first line.
@param string  $fileName    File to be tested (full pathname).
@return boolean false | Used key = enum('cr', 'lf', crlf').
@uses detectEOL
*/
public static function detectFileEOL($fileName) {
   if (!file_exists($fileName)) {
     return false;
   }

   //Gets the line length
   $handle = @fopen($fileName, "r");
   if ($handle === false) {
      return false;
   }
   $line = fgets($handle);
   $key = "";
   <Your-Class-Name>::detectEOL($line, $key);

   return $key;
}  //detectFileEOL

Ändern Sie die Ihre-Class-Name in Ihrem Namen für die Implementierung der Klasse (alle static-member).

InformationsquelleAutor Harm

2

Meine Antwort, denn ich konnte weder ohaal's ein oder transilvlad's eine Arbeit ist:
```
function detect_newline_type($content) {
    $arr = array_count_values(
               explode(
                   ' ',
                   preg_replace(
                       '/[^\r\n]*(\r\n|\n|\r)/',
                       '\1 ',
                       $content
                   )
               )
           );
    arsort($arr);
    return key($arr);
}
```
Erklärung:

Die Allgemeine Vorstellung in der sowohl die vorgeschlagenen Lösungen ist gut, aber die Umsetzung details behindern den nutzen von den Antworten.

In der Tat, der Sinn dieser Funktion ist die Rückgabe der Art von Zeilenumbruch verwendet wird in einer Datei, und , dass newline können entweder ein oder zwei Zeichen lang.

Allein dies macht die Verwendung von str_split() falsch. Der einzige Weg, um schneiden Sie das Token korrekt ist die Verwendung einer Funktion, die schneidet einen string mit Variablen Längen, basierend auf Charakter-Erkennung statt. Das ist, wenn explode() ins Spiel kommt.

Sondern geben nützliche Marker zu explodieren, ist es notwendig, ersetzen Sie die richtigen Zeichen in der richtigen Menge, der richtigen match. Und die meisten der Magie passiert in dem regulären Ausdruck.

3 Punkte müssen berücksichtigt werden:
1. mit .* wie vorgeschlagen von ohaal wird nicht funktionieren. Während es wahr ist, dass . nicht entsprechen, werden Zeilenvorschub-Zeichen auf einem system, wo \r ist nicht ein newline-Zeichen, oder ein Teil einer neue-Zeile-Zeichen, . es passen wird falsch (Erinnerung: wir sind die Erkennung von Zeilenumbrüchen, denn Sie könnte anders sein als die, die auf unser system. Ansonsten gibt es keinen Punkt).
2. ersetzen /[^\r\n]*/ mit etwas "arbeiten", um den text verschwinden, wird aber ein Problem, sobald wir Sie haben wollen, einen separator (da wir entfernen Sie alle Zeichen, aber die Zeilenumbrüche, alle Zeichen, die nicht einem Zeilenumbruch wird ein Gültiger separator). Daher die Idee, ein Spiel mit dem newline, und verwenden Sie einen Rückverweis auf, dass match in den Ersatz.
3. Es ist möglich, dass die Inhalte, die mehrere Zeilenumbrüche werden in einer Zeile. Aber wir wollen nicht, um Sie zu gruppieren in diesem Fall, da Sie gesehen werden, indem der rest des Codes als verschiedene Arten von Zeilenumbrüchen. Deshalb ist die Liste der Zeilenumbrüche ist ausdrücklich in der übereinstimmung mit dem Rückverweis.
- Dieser arbeitete für mich. Um zu testen, ob ein Skript gespeichert wurde, die mit Windows-oder Unix-line-Kodierungen müssen Sie nur aufrufen von strlen() auf den string zurück gesendet, der von dieser Funktion (2 = Windows CR+LF, 1 = Unix-LF).
InformationsquelleAutor 7heo.tk
1

Basierend auf ohaal Antwort.

Diese zurückkehren können ein oder zwei Woerter für EOL-wie LF, CR+LF..
```
  $eols = array_count_values(str_split(preg_replace("/[^\r\n]/", "", $string)));
  $eola = array_keys($eols, max($eols));
  $eol = implode("", $eola);
```
- Interessantes Thema und interessante Diskussion. Neugierig, aber hätten wir einen Fall, wo die wirkliche EOL besteht aus zwei Zeichen (CR+LF zum Beispiel), aber ein einsamer CR oder LF ist an anderer Stelle im Dokument. Dann, diese einsame Charakter hat einen höheren auftreten zählen als die real-EOL. Sollten wir nicht in diesem Fall, eine Möglichkeit die Priorität zu geben, um die zwei-Zeichen-Lösung, auch wenn das einzelne Zeichen hat eine höhere Anzahl? Mich abzuschießen, wenn ich Weg Basis; ich habe Dicke Haut. 🙂
InformationsquelleAutor transilvlad

Schreibe einen Kommentar

Du musst angemeldet sein, um einen Kommentar abzugeben.

Erklärung: