Wie verwende ich sed / grep, um Text zwischen zwei Wörtern zu extrahieren?

Ich versuche die Ausgabe einer Zeichenfolge, die enthält alles, was zwischen zwei Wörtern eines Strings:

Eingang:

"Here is a String"

Ausgabe:

"is a"

Mit:

sed -n '/Here/,/String/p'

umfasst die Endpunkte, aber ich will nicht, Sie sind.

InformationsquelleAutor der Frage user1190650 | 2012-11-06

67
```
sed -e 's/Here$.*$String/\1/'
```
InformationsquelleAutor der Antwort Brian Campbell
114

Einfaches grep unterstützt auch positive & negative look-ahead - & Blick-zurück:
Für deinen Fall würde der Befehl sein:
```
 echo "Here is a string" | grep -o -P '(?<=Here).*(?=string)'
```
InformationsquelleAutor der Antwort anishsane

Können Sie strip strings in Bash allein:

$ foo="Here is a String"
$ foo=${foo##*Here }
$ echo "$foo"
is a String
$ foo=${foo%% String*}
$ echo "$foo"
is a
$

Und wenn Sie ein GNU-grep enthält PCREdie Sie verwenden können, eine null-Breite assertion:

$ echo "Here is a String" | grep -Po '(?<=(Here )).*(?= String)'
is a

InformationsquelleAutor der Antwort ghoti

25

Akzeptiert die Antwort nicht entfernen von text, der sein könnte, bevor Here oder nach String. Dies wird:
```
sed -e 's/.*Here$.*$String.*/\1/'
```
Der Hauptunterschied ist die Zugabe von .* unmittelbar vor Here und nach String.

InformationsquelleAutor der Antwort wheeler

Durch GNU awk,

$ echo "Here is a string" | awk -v FS="(Here|string)" '{print $2}'
 is a

grep mit -P(die perl-regexp -) parameter unterstützt \Kdie hilft, das verwerfen der zuvor übereinstimmenden Zeichen. In unserem Fall , die zuvor abgestimmt string war Here so wurde es verworfen aus der letzten Ausgabe.

$ echo "Here is a string" | grep -oP 'Here\K.*(?=string)'
 is a 
$ echo "Here is a string" | grep -oP 'Here\K(?:(?!string).)*'
 is a

Wenn Sie möchten, dass die Ausgabe is a dann könnten Sie versuchen, die unten

$ echo "Here is a string" | grep -oP 'Here\s*\K.*(?=\s+string)'
is a
$ echo "Here is a string" | grep -oP 'Here\s*\K(?:(?!\s+string).)*'
is a

InformationsquelleAutor der Antwort Avinash Raj

17

Wenn Sie eine längere Datei mit vielen multi-line vorkommen, ist es sinnvoll, zunächst den Druck Anzahl Zeilen:
```
cat -n file | sed -n '/Here/,/String/p'
```
InformationsquelleAutor der Antwort alemol
7

Könnte dies für Sie arbeiten (GNU sed):
```
sed '/Here/!d;s//&\n/;s/.*\n//;:a;/String/bb;$!{n;ba};:b;s//\n&/;P;D' file 
```
Diese stellt jede Darstellung von text zwischen zwei Markierungen (in diesem Fall Here und String) auf eine neue Zeile und bewahrt Zeilenumbrüche innerhalb des Textes.

InformationsquelleAutor der Antwort potong

Alle oben genannten Lösungen haben Mängel, wo die Letzte Suche-string wiederholt sich an anderer Stelle in der Zeichenfolge. Ich fand es am besten zu schreiben, eine bash-Funktion.

    function str_str {
      local str
      str="${1#*${2}}"
      str="${str%%$3*}"
      echo -n "$str"
    }

    # test it ...
    mystr="this is a string"
    str_str "$mystr" "this " " string"

InformationsquelleAutor der Antwort Gary Dean

2

Können Sie \1 (siehe http://www.grymoire.com/Unix/Sed.html#uh-4):
```
echo "Hello is a String" | sed 's/Hello$.*$String/\1/g'
```
Den Inhalt, der innerhalb der Klammern werden so gespeichert, wie Sie \1.

InformationsquelleAutor der Antwort mvairavan

Problem. Meine gespeicherten Claws Mail-Nachrichten verpackt sind wie folgt, und ich bin versucht, extrahieren Sie die Betreff-Zeilen:

Subject: [SLC38A9 lysosomal arginine sensor; mTORC1 pathway] Key molecular
 link in major cell growth pathway: Findings point to new potential
 therapeutic target in pancreatic cancer [mTORC1 Activator SLC38A9 Is
 Required to Efflux Essential Amino Acids from Lysosomes and Use Protein as
 a Nutrient] [Re: Nutrient sensor in key growth-regulating metabolic pathway
 identified [Lysosomal amino acid transporter SLC38A9 signals arginine
 sufficiency to mTORC1]]
Message-ID: <20171019190902.18741771@VictoriasJourney.com>

Pro A2 in diesem thread, Wie verwenden von sed/grep extrahieren von text zwischen zwei Wörtern? der erste Ausdruck,, unten "funktioniert", solange der übereinstimmende text nicht enthalten ist ein Zeilenumbruch:

grep -o -P '(?<=Subject: ).*(?=molecular)' corpus/01

[SLC38A9 lysosomal arginine sensor; mTORC1 pathway] Key

Jedoch, trotz des Versuchs, die Vielzahl von Varianten (.+?; /s; ...), konnte ich nicht bekommen, diese arbeiten:

grep -o -P '(?<=Subject: ).*(?=link)' corpus/01
grep -o -P '(?<=Subject: ).*(?=therapeutic)' corpus/01
etc.

Lösung 1.

Pro Extrahieren von text zwischen zwei strings in verschiedenen Zeilen

sed -n '/Subject: /{:a;N;/Message-ID:/!ba; s/\n//g; s/\s\s*//g; s/.*Subject: \|Message-ID:.*//g;p}' corpus/01

gibt

[SLC38A9 lysosomal arginine sensor; mTORC1 pathway] Key molecular link in major cell growth pathway: Findings point to new potential therapeutic target in pancreatic cancer [mTORC1 Activator SLC38A9 Is Required to Efflux Essential Amino Acids from Lysosomes and Use Protein as a Nutrient] [Re: Nutrient sensor in key growth-regulating metabolic pathway identified [Lysosomal amino acid transporter SLC38A9 signals arginine sufficiency to mTORC1]]

Lösung 2.*

Pro Wie kann ich ersetzen ein newline (\n) mit sed?

sed ':a;N;$!ba;s/\n//g' corpus/01

ersetzt Zeilenumbrüche durch ein Leerzeichen.

Verkettung, die mit A2 in Wie verwenden von sed/grep extrahieren von text zwischen zwei Wörtern?erhalten wir:

sed ':a;N;$!ba;s/\n//g' corpus/01 | grep -o -P '(?<=Subject: ).*(?=Message-ID:)'

gibt

[SLC38A9 lysosomal arginine sensor; mTORC1 pathway] Key molecular  link in major cell growth pathway: Findings point to new potential  therapeutic target in pancreatic cancer [mTORC1 Activator SLC38A9 Is  Required to Efflux Essential Amino Acids from Lysosomes and Use Protein as  a Nutrient] [Re: Nutrient sensor in key growth-regulating metabolic pathway  identified [Lysosomal amino acid transporter SLC38A9 signals arginine  sufficiency to mTORC1]]

Dieser Variante entfernt doppelte Leerzeichen:

sed ':a;N;$!ba;s/\n//g; s/\s\s*//g' corpus/01 | grep -o -P '(?<=Subject: ).*(?=Message-ID:)'

geben

[SLC38A9 lysosomal arginine sensor; mTORC1 pathway] Key molecular link in major cell growth pathway: Findings point to new potential therapeutic target in pancreatic cancer [mTORC1 Activator SLC38A9 Is Required to Efflux Essential Amino Acids from Lysosomes and Use Protein as a Nutrient] [Re: Nutrient sensor in key growth-regulating metabolic pathway identified [Lysosomal amino acid transporter SLC38A9 signals arginine sufficiency to mTORC1]]

InformationsquelleAutor der Antwort Victoria Stuart

Schreibe einen Kommentar

Du musst angemeldet sein, um einen Kommentar abzugeben.