Perl: Wie zum extrahieren einen string zwischen Klammern

Ich habe eine Datei in der moin moin-text-format:

* [[  Virtualbox Guest Additions]] (2011/10/17 15:19)
* [[  Abiword Wordprocessor]] (2010/10/27 20:17)
* [[  Sylpheed E-Mail]] (2010/03/30 21:49)
* [[   Kupfer]] (2010/05/16 20:18)

All den Worten, zwischen den '[[' und ']]' sind die kurz-Beschreibung des Eintrags. Brauch ich zu extrahieren der ganze Eintrag, aber nicht jedes einzelne Wort.

Fand ich eine Antwort für eine ähnliche Frage hier: https://stackoverflow.com/a/2700749/819596
aber nicht verstehen kann, ist die Antwort: "my @array = $str =~ /( \{ (?: [^{}]* | (?0) )* \} )/xg;"

Alles, was funktioniert, wird akzeptiert, aber Erklärungen helfen würde, stark, sprich: was (?0) oder /xg tut.

vielen Dank für die Antworten gonna take ein nap und versuchen, die Antworten!

InformationsquelleAutor marinara | 2012-09-04

matching perl

Den code wird wahrscheinlich so Aussehen:

use warnings; 
use strict;

my @subjects; # declaring a lexical variable to store all the subjects
my $pattern = qr/ 
  \[ \[    # matching two `[` signs
  \s*      # ... and, if any, whitespace after them
  ([^]]+) # starting from the first non-whitespace symbol, capture all the non-']' symbols
  ]]
/x;

# main processing loop:
while (<DATA>) { # reading the source file line by line
  if (/$pattern/) {      # if line is matched by our pattern
    push @subjects, $1;  # ... push the captured group of symbols into our array
  }
}
print $_, "\n" for @subjects; # print our array of subject line by line

__DATA__
* [[  Virtualbox Guest Additions]] (2011/10/17 15:19)
* [[  Abiword Wordprocessor]] (2010/10/27 20:17)
* [[  Sylpheed E-Mail]] (2010/03/30 21:49)
* [[   Kupfer]] (2010/05/16 20:18)

Als ich sehe, was Sie benötigen, kann wie folgt beschrieben werden: in jeder Zeile der Datei versuchen zu finden, diese Folge von Symbolen,...

[[, an opening delimiter, 
then 0 or more whitespace symbols,
then all the symbols that make a subject (which should be saved),
then ]], a closing delimiter

Als Sie sehen, dass diese Beschreibung ganz natürlich übersetzt in eine regex. Die einzige Sache, die wahrscheinlich nicht notwendig ist /x regex-modifier, die mir erlaubt ausgiebig zu Kommentar es. )

InformationsquelleAutor raina77ow

2

Wenn der text nie enthalten ], können Sie einfach den folgenden wie bereits empfohlen:
```
/\[\[ ( [^\]]* ) \]\]/x
```
Folgendes ermöglicht ] aus dem enthaltenen text, aber ich empfehle, gegen die Einbeziehung in ein größeres Muster:
```
/\[\[ ( .*? ) \]\]/x
```
Folgendes ermöglicht ] in den enthaltenen text, und ist das robusteste Lösung:
```
/\[\[ ( (?:(?!\]\]).)* ) \]\]/x
```
Beispielsweise
```
if (my ($match) = $line =~ /\[\[ ( (?:(?!\]\]).)* ) \]\]/x) {
   print "$match\n";
}
```
oder
```
my @matches = $file =~ /\[\[ ( (?:(?!\]\]).)* ) \]\]/xg;
```
- /x: Ignore whitespace-Zeichen im Muster. Erlaubt Leerzeichen werden Hinzugefügt, um das Muster lesbar, ohne änderung der Bedeutung der Muster. Dokumentiert in perlre.
- /g: Hier finden Sie alle Spiele. Dokumentiert in perlop.
- (?0) wurde verwendet, um die Muster rekursiv, da die verlinkten Knoten zu tun hatte mit beliebiger Verschachtelung von curlies. * /g: Hier finden Sie alle Spiele. Dokumentiert in perlre.
InformationsquelleAutor ikegami
1
```
\[\[(.*)]]
```
\[ ist eine wörtliche [,
] ist ein literal ],
.* bedeutet, dass jeder Folge von 0 oder mehr Zeichen,
etwas, was in Klammern eingeschlossen ist eine Aufnahme der Gruppe, damit Sie darauf zugreifen können, später im Skript mit $1 (oder $2 .. $9 je nachdem, wie viele Gruppen Sie haben).

Setzen Sie alle zusammen, Sie wird mit zwei [ dann alles bis zum letzten vorkommen von zwei aufeinander folgenden ]

Update
Auf einem zweiten Lesen deiner Frage habe ich plötzlich verwirrt sind, müssen Sie den Inhalt zwischen [[ und ]], oder die ganze Zeile - in diesem Fall lassen Sie die Klammern vollständig und einfach testen, ob das Muster passt, keine Notwendigkeit zu erfassen.

InformationsquelleAutor pulven
1

Die Antwort, die Sie gefunden haben, ist für die recursive-pattern-matching, dass ich glaube, Sie brauchen nicht.
- /x erlaubt die Verwendung bedeutungsloser Leerzeichen und Kommentare in der regexp.
- /g läuft die regexp, die durch den string. Ohne Sie läuft nur noch bis zum ersten match.
- /xg ist /x und /g kombiniert.
- (?0) läuft die regexp mal wieder selbst (Rekursion)
Wenn ich verstehe, ok, man braucht so etwas wie dieses:
```
$text="* [[  Virtualbox Guest Additions]] (2011/10/17 15:19)
* [[  Abiword Wordprocessor]] (2010/10/27 20:17)
* [[  Sylpheed E-Mail]] (2010/03/30 21:49)
* [[   Kupfer]] (2010/05/16 20:18)
";

@array=($text=~/\[\[([^\]]*)\]\]/g);
print join(",",@array);

# this prints "  Virtualbox Guest Additions,  Abiword Wordprocessor,  Sylpheed E-Mail,   Kupfer"
```
InformationsquelleAutor lalborno
1

Ich würde empfehlen, mit "extract_bracketed" oder "extract_delimited" aus dem Modul Text::Balanced - siehe hier: http://perldoc.perl.org/Text/Balanced.html

InformationsquelleAutor Helen Craigman

perl -pe 's/.*\[\[(.*)\]\].*/\1/g' temp

getestet unter:

> cat temp
        * [[  Virtualbox Guest Additions]] (2011/10/17 15:19)
        * [[  Abiword Wordprocessor]] (2010/10/27 20:17)
        * [[  Sylpheed E-Mail]] (2010/03/30 21:49)
        * [[   Kupfer]] (2010/05/16 20:18)
>
> perl -pe 's/.*\[\[(.*)\]\].*/\1/g' temp
  Virtualbox Guest Additions
  Abiword Wordprocessor
  Sylpheed E-Mail
   Kupfer
>

s/.[[(.)]].*/\1/g
.*[[->passt zu jeder charater bis [[
(.*)]] speichern Sie alle charater nach der Zeichenfolge "[[" bis "]]" in \1
.*->passend zum rest der Linie.

dann, da haben wir unsere Daten in \1 wir können einfach verwenden Sie es für den Druck auf der Konsole.

InformationsquelleAutor Vijay

0
```
my @array = $str =~ /( \{ (?: [^{}]* | (?0) )* \} )/xg;
```
Den " x " - flag bedeutet, dass whitespace wird ignoriert regex, damit ein lesbarer Ausdruck. Die " g " - flag bedeutet, dass das Ergebnis eine Liste aller Spiele von Links nach rechts (match *g*lobally).

Den (?0) stellt den regulären Ausdruck innerhalb der ersten Gruppe von Klammern. Es ist eine rekursive reguläre Ausdrücke äquivalent zu einem Satz von Regeln, wie:
```
E := '{' ( NoBrace | E) '}'
NoBrace := [^{}]* 
```
InformationsquelleAutor chepner

Schreibe einen Kommentar

Du musst angemeldet sein, um einen Kommentar abzugeben.