Ersetzen Sie alle nicht Alpha-Numerischen Zeichen, Neue Zeilen und mehrere Leerzeichen mit einem Leerzeichen

Ich bin auf der Suche nach einem ordentlichen RegEx Lösung zu ersetzen

Alle nicht Alpha-Numerischen Zeichen
Alle Zeilenumbrüche
Alle mehrere Instanzen von white-space -

Mit einem einzigen Raum

Für diejenigen, die spielen zu Hause (der folgende Code funktioniert,)

text.replace(/[^a-z0-9]/gmi, " ").replace(/\s+/g, " ");

Mein denken ist RegEx ist vermutlich leistungsfähig genug, um dies zu erreichen in einer Anweisung. Die Komponenten die ich denke-id benötigen, sind

[^a-z0-9] - zum Entfernen von nicht Alpha-Numerischen Zeichen
\s+ - Spiel eine Sammlung von Leerzeichen
\r?\n|\r - match alle neuen Linie
/gmi - global, multi-line -, groß-und Kleinschreibung

Aber ich kann nicht scheinen, um Stil der regex in der richtigen Weise (das folgende funktioniert nicht)

text.replace(/[^a-z0-9]|\s+|\r?\n|\r/gmi, " ");

Eingang

234&^%,Me,2 2013 1080p x264 5 1 BluRay
S01(*&asd 05
S1E5
1x05
1x5

Gewünschte Ausgabe

234 Me 2 2013 1080p x264 5 1 BluRay S01 asd 05 S1E5 1x05 1x5

Wie genau funktioniert der Versuch nicht funktioniert? Was geht falsch?

InformationsquelleAutor TheGeneral | 2014-01-01

178

Sich bewusst sein, dass \W Blätter der Unterstrich. Eine kurze Entsprechung für [^a-zA-Z0-9] wäre [\W_]
```
text.replace(/[\W_]+/g," ");
```
\W ist die negation der Kurzform \w für [A-Za-z0-9_] Wort-Zeichen (einschließlich Unterstriche)

Beispiel bei regex101.com
- Das ist die tollste Antwort, so weit, dass ich denke, dass krank akzeptieren
- Überprüfen Sie es und testen Sie es, haben nicht viel Erfahrung in js-regex noch nicht :p Freut Euch gefällt es
- Funktioniert wie ein Charme, Dank
- Beachten Sie, dass \W wird auch erkennen, nicht-lateinische Zeichen als nicht-Wort-Zeichen.
- warum ist dies nicht die akzeptierte Antwort?
- für regex101.com
- Ich markierte diese Antwort richtig, nach all diesen Jahren, da schaute ich zurück und akzeptiert das nicht ausschließen, unterstreicht
InformationsquelleAutor Jonny 5
138

Jonny 5 mich zu schlagen. Ich würde vorschlagen, die \W+ ohne die \s wie in text.replace(/\W+/g, " "). Dies deckt weißen Raum als gut.
- Danke @T-CatSan für den Hinweis! Konnte es, und Saruman, du bist frei, zu ändern beste Antwort auf was auch immer 🙂 Aber es sollte \W+, nicht [W+] Gut, frohes neues Jahr alle!
- Danke, @Jonny5! Ich habe die änderung, die Sie vorgeschlagen. Ich hatte getestet mit den Klammern vor und jetzt sehe ich, es funktioniert ohne Sie. Frohes Neues Jahr auch für dich.
- Noch haben es falsch in der text.replace :p
- hey @T-CatSan gibt es eine Möglichkeit Ausnahmen hinzuzufügen? Ich will, dass Zeichen & und -. Irgendwelche Tipps?
- Dieser verwirrt mit Umlauten: regex101.com/r/lP8pG9/110
- Ich habe die folgende änderung /(\W+)|(_)/g zu ignorieren, _ auch. Aber nur Wundern, warum es nicht ignorieren in das erste Modell und ist meine regex ist die effiziente ein.
InformationsquelleAutor T-CatSan
11

Seit [^a-z0-9] Charakter-Klasse enthält alles, was nicht alnum, es enthält weiße Zeichen auch!
```
 text.replace(/[^a-z0-9]+/gi, " ");
```
InformationsquelleAutor Casimir et Hippolyte
5

Naja, ich denke, Sie müssen nur fügen Sie ein Quantifizierer auf jedes Muster. Auch die carriage-return-Sache ist ein wenig komisch:
```
text.replace(/[^a-z0-9]+|\s+/gmi, " ");
```
Bearbeiten Die \s Sache entspricht \r und \n zu.
- Ja es gab einige tom foolery in es die er von anderen Antworten zu dem Thema, aber das funktioniert Super danke!
InformationsquelleAutor Pointy
2

Einer sah einen anderen post, der hatte auch diakritische Zeichen, das ist toll,

s.replace(/[^a-zA-Z0-9À-ž\s]/g, "")

InformationsquelleAutor Dmitri R117

Dies ist eine alte post von mir, die akzeptierten Antworten sind gut für die meisten Teil. Allerdings habe ich beschlossen, einen benchmark für jede Lösung-und ein anderer offensichtlich eine (nur zum Spaß). Ich fragte mich, ob es einen Unterschied zwischen dem regex-Muster auf verschiedenen Browsern mit verschiedenen großen strings.

Also grundsätzlich habe ich verwendet jsPerf auf

Tests in Chrome 65.0.3325 /Windows 10 0.0.0
Prüfung im Rand 16.16299.0 /Windows 10 0.0.0

Den regex-Muster, die ich getestet habe waren

/[\W_]+/g
/[^a-z0-9]+/gi
/[^a-zA-Z0-9]+/g

Ich lud Sie mit einer string-Länge von zufälligen Zeichen

Länge 5000
Länge 1000
Länge 200

Beispiel javascript verwendet, ich var newstr = str.replace(/[\W_]+/g," ");

Jeder Lauf Bestand aus 50 oder mehr sample auf jeden regex, und ich Sie laufen 5 mal auf jedem browser.

Rennen können unsere Pferde!

Ergebnisse

                                Chrome                  Edge
Chars   Pattern                 Ops/Sec     Deviation   Op/Sec      Deviation
------------------------------------------------------------------------
5,000   /[\W_]+/g                19,977.80  1.09         10,820.40  1.32
5,000   /[^a-z0-9]+/gi           19,901.60  1.49         10,902.00  1.20
5,000   /[^a-zA-Z0-9]+/g         19,559.40  1.96         10,916.80  1.13
------------------------------------------------------------------------
1,000   /[\W_]+/g                96,239.00  1.65         52,358.80  1.41
1,000   /[^a-z0-9]+/gi           97,584.40  1.18         52,105.00  1.60
1,000   /[^a-zA-Z0-9]+/g         96,965.80  1.10         51,864.60  1.76
------------------------------------------------------------------------
  200   /[\W_]+/g               480,318.60  1.70        261,030.40  1.80
  200   /[^a-z0-9]+/gi          476,177.80  2.01        261,751.60  1.96
  200   /[^a-zA-Z0-9]+/g        486,423.00  0.80        258,774.20  2.15

Wahrheit bekannt ist, Regex in beiden Browsern (unter Berücksichtigung der Abweichung) waren fast nicht zu unterscheiden, aber ich denke, wenn es laufen sogar noch mal die Ergebnisse, würde ein wenig mehr Klarheit (aber nicht viel).

Theoretische Skalierung für 1 Charakter

                            Chrome                        Edge
Chars   Pattern             Ops/Sec     Scaled            Op/Sec    Scaled
------------------------------------------------------------------------
5,000   /[\W_]+/g            19,977.80  99,889,000       10,820.40  54,102,000
5,000   /[^a-z0-9]+/gi       19,901.60  99,508,000       10,902.00  54,510,000
5,000   /[^a-zA-Z0-9]+/g     19,559.40  97,797,000       10,916.80  54,584,000
------------------------------------------------------------------------

1,000   /[\W_]+/g            96,239.00  96,239,000       52,358.80  52,358,800
1,000   /[^a-z0-9]+/gi       97,584.40  97,584,400       52,105.00  52,105,000
1,000   /[^a-zA-Z0-9]+/g     96,965.80  96,965,800       51,864.60  51,864,600
------------------------------------------------------------------------

  200   /[\W_]+/g           480,318.60  96,063,720      261,030.40  52,206,080
  200   /[^a-z0-9]+/gi      476,177.80  95,235,560      261,751.60  52,350,320
  200   /[^a-zA-Z0-9]+/g    486,423.00  97,284,600      258,774.20  51,754,840

Ich würde nicht zu viel in diese Ergebnisse als dies ist nicht wirklich eine signifikante Unterschiede, alle können wir wirklich sagen, ist edge langsamer ist 😮 . Darüber hinaus, war ich super langweilig.