Tag: text-processing

Mechanizing die Erstellung oder manipulation von elektronischen text.

Batch-Datei zum Lesen txt-Datei mit dem Datei-Namen, dann Suche nach dieser Datei und kopieren in Ordner

Anzahl der Antworten 2 Antworten
Was ich brauche, ist eine batch-Datei, liest partielle Dateinamen in eine txt-Datei. Jeder Dateiname steht auf einer eigenen Zeile. Dann muss es die Suche nach dieser Datei in einem bestimmten Ordner (einschließlich Unterordner) und wenn die Datei

Split eine text-Datei in PHP

Anzahl der Antworten 6 Antworten
Wie kann ich das teilen einer großen text-Datei in separate Dateien, indem Sie die Anzahl der Zeichen mit PHP? Also ein 10.000-Zeichen-Datei aufgeteilt, jedes 1000 Zeichen würde aufgeteilt werden in 10 Dateien. Weiter, ich kann split nur

Entfernen von text nach bestimmten Wort

Anzahl der Antworten 2 Antworten
Habe ich dynamische Verknüpfung erstellen aus variable : /Klingeln/Matt/BlackHyper/Black/Gunmetal Wie kann ich Sie entfernen allen text nach Wert der variable "BlackHyper" zu werden: "/Klingeln/Matt/BlackHyper" Ich versuche rtrim : $param="BlackHyper"; $str="/Klingeln/Matt/BlackHyper/Black/Gunmetal"; rtrim($str,$param); Kein Glück , entfernen Sie einige

TFIDF-Berechnung Verwirrung

Anzahl der Antworten 2 Antworten
Fand ich folgenden code im internet für die Berechnung der TFIDF: https://github.com/timtrueman/tf-idf/blob/master/tf-idf.py Fügte ich hinzu "1+" in der Funktion def idf(word, documentList), damit ich nicht bekommen, geteilt durch 0 Fehler: return math.log(len(documentList) / (1 + float(numDocsContaining(word,documentList)))) Aber

Extrahieren Sie Wörter rund um einen Suchbegriff ein

Anzahl der Antworten 4 Antworten
Habe ich in diesem Skript wird eine Wortsuche im text. Die Suche geht Recht gut und die Ergebnisse wie erwartet funktionieren. Was ich versuche zu erreichen ist, extrahieren n Worten schließen, um das match. Zum Beispiel: Die

Wie kann ich suchen eine text-Datei, die für bestimmte Wörter, die mit matlab?

Anzahl der Antworten 1 Antworten
Schreiben brauche ich ein Programm in matlab, die Suche nach Schlüsselwörtern in einem text-Datei und liest dann die in dem, was kommt nach diesen Worten, dann weiter suchen.ich habe versucht, fscanf oder textscan, aber ich muss fehlt

Negation Umgang mit NLP

Anzahl der Antworten 1 Antworten
Ich bin derzeit an einem Projekt arbeiten, wo ich will, zu extrahieren, die Emotionen aus dem text. Als ich bin mit conceptnet5 (semantisches Netz), ich kann Sie aber nicht einfach Präfix Wörter in einem Satz, der eine

Extrahieren Sie den gewünschten text ein HTML-Dokument mit PHP

Anzahl der Antworten 4 Antworten
Ich weiß, es ist besser, verwenden Sie DOM für diesen Zweck, aber wir versuchen, extrahieren Sie den text in dieser Weise: <?php $html=<<<EOD <html> <head> </head> <body> <p>Some text</p> </body> </html> EOD; preg_match('/<body.*?>/', $html, $matches, PREG_OFFSET_CAPTURE); if

Welche Funktion soll ich verwenden zum Lesen von unstrukturierten text-Datei in R?

Anzahl der Antworten 1 Antworten
Dies ist meine erste Frage hier und ich bin neu zu R, zu versuchen, herauszufinden, meine erste Schritt, wie zu tun, Datenverarbeitung, bitte halten Sie es einfach : ) Frage ich mich, was wäre die beste Funktion

So laden Sie eine Textdatei in string mit VB6

Anzahl der Antworten 3 Antworten
Wie kann ich schnell laden Sie eine Textdatei in eine Zeichenfolge mit VB6? mögliche Duplikate von Wie kann ich Lesen Daten aus einer text-Datei mit VB6? InformationsquelleAutor CJ7 | 2011-11-21

Bestimmung der Frequenz eines Arrays in Python

Anzahl der Antworten 1 Antworten
Habe ich eine Beispiel-Datei gefüllt mit Gleitkomma-zahlen wie folgt: -0.02 3.04 3.04 3.02 3.02 3.06 3.04 3.02 3.04 3.02 3.04 3.02 3.04 3.02 3.04 3.04 3.04 3.02 3.04 3.02 3.04 3.02 3.04 3.02 3.06 3.02 3.04 3.02

Wie verarbeiten HIPAA 834 EDI-Datei?

Anzahl der Antworten 1 Antworten
Habe ich zu Parsen und zu validieren, HIPAA 834 EDI-Datei. Ich habe herausgefunden, ein Werkzeug "EDI-Validator" für diese. EDI-Validator Tool: http://www.etasoft.com/ev.htm Ich bin nicht in der Lage zu bekommen Probe HIPAA X12 834 EDI-Datei, die bearbeitet werden

Lesen von text-Werte in matlab-Variablen aus ASCII-Dateien

Anzahl der Antworten 3 Antworten
Betrachten Sie die folgende Datei var1 var2 variable3 1 2 3 11 22 33 Ich würde gerne laden Sie die zahlen in einer matrix, und die Spalte Titel in eine variable, das wäre äquivalent zu: variable_names =

Java-text-Klassifikation-problem

Anzahl der Antworten 4 Antworten
Habe ich eine Reihe von Büchern, Objekten, classs Buch ist wie folgt definiert : Class Book{ String title; ArrayList<tags> taglist; } Wo Titel ist der Titel des Buches, Beispiel : Javascript für dummies. und Taglisten ist eine

einfügen von text mit einem Zeilenumbruch/return in formatierten text

Anzahl der Antworten 2 Antworten
Möchte ich eine Spalte, die formatiert werden, um für E-Mail-Adresse und ich kann nicht die newline/Rücktransport oder <br/> zu arbeiten, wenn Sie eine neue Spalte. name = c("John Smith", "Patty Smith", "Sam Smith") address = c("111 Main

Ausbau der englischen Sprache Kontraktionen in Python

Anzahl der Antworten 7 Antworten
Die englische Sprache hat ein paar Kontraktionen. Zum Beispiel: you've -> you have he's -> he is Diese kann manchmal Kopfschmerzen verursachen, wenn Sie mit der Verarbeitung natürlicher Sprache. Gibt es eine Python-Bibliothek, die können erweitern diese

Umwandlung von a \u escaped Unicode-string zu ASCII

Anzahl der Antworten 7 Antworten
Nach der Lektüre alles über iconv und Encoding ich bin immer noch verwirrt. Ich bin kratzen die Quelle einer web-Seite ich habe einen string, der wie folgt aussieht: 'pretty\u003D\u003Ebig' (erscheint in der R Konsole als 'pretty\\\u003D\\\u003Ebig'). Ich

Entfernen Sie die Zeichen aus einem string nach einem bestimmten word - excel

Anzahl der Antworten 2 Antworten
Ive bekam eine Liste von importierten Daten, die formatiert ist wie folgt in ein excel /google-Tabelle. In Spalte A habe ich die vollständige Daten-und in B-im, der versucht zu entfernen, die Daten auf der linken Seite des

zählt die Anzahl der eindeutigen Wörter

Anzahl der Antworten 3 Antworten
Ich versuche zu zählen, die Anzahl der unterschiedlichen Wörter im text, die mit Java. Das Wort kann eine unigram, bigram-oder Trigramm Substantiv. Diese drei sind bereits gefunden, indem Der Stanford POS tagger, aber ich bin nicht in

Shell/Bash Parsen von text-Datei

Anzahl der Antworten 5 Antworten
Habe ich diese text Datei, die wie folgt aussieht Item: SubItem01 SubItem02 SubItem03 Item2: SubItem0201 SubItem0202 Item3: SubItem0301 ...etc... Und ich brauche, ist, um es wie folgt Aussehen: Item=>SubItem01 Item=>SubItem02 Item=>SubItem03 Item2=>SubItem0201 Item2=>SubItem0202 Item3=>SubItem0301 Ich bin der

Wie Schreibe ich ein Programm in python, das wird Prozess einem text-stream???

Anzahl der Antworten 3 Antworten
Ich bin sorry, wenn dies ist eine Wiederholung der Frage. Wie Schreibe ich ein python-script zum verarbeiten von Daten als ein Strom von Leitung? Ich muss dies tun, weil die Dateien, die ich bin-Verarbeitung sind riesig, und

Laden von text-Daten in Octave mit spezifischen format

Anzahl der Antworten 3 Antworten
Ich habe einen Datensatz, ich möchte, um speichern und laden zu können in die Oktave 18.0 8 307.0 130.0 3504. 12.0 70 1 "chevrolet chevelle malibu" 15.0 8 350.0 165.0 3693. 11.5 70 1 "buick skylark 320"

BLEU-score Umsetzung für Satz ähnlichkeit Erkennung

Anzahl der Antworten 5 Antworten
Ich brauche zu berechnen, BLEU-score zur Ermittlung, ob zwei Sätze, die ähnlich sind oder nicht.Ich habe einige Artikel, die sich meist über BLEU-score für die Messung der Genauigkeit der maschinellen übersetzung.Aber ich bin in der Notwendigkeit einer

Wie kann ich umwandeln mehrzeiligen text in eine Zeile?

Anzahl der Antworten 10 Antworten
Ich versuche eine txt-Datei mit einem generierten Schlüssel in die 1. Zeile. Beispiel: <----- key start -----> lkdjasdjskdjaskdjasdkj skdhfjlkdfjlkdsfjsdlfk kldshfjlsdhjfksdhfksdj jdhsfkjsdhfksdjfhskdfh jhdfkjsdhfkjsdhfkjsdhf <----- key stop -----> Ich soll es so Aussehen: lkdjasdjskdjaskdjasdkjskdhfjlkdfjlkdsfjsdlfkkldshfjlsdhjfksdhfksdjjdhsfkjsdhfksdjfhskdfhjhdfkjsdhfkjsdhfkjsdhf Bemerken möchte ich auch die

Wie effizient analysieren Sie große text-Dateien in Ruby

Anzahl der Antworten 3 Antworten
Schreibe ich ein import-script, dass eine Datei verarbeitet hat, dass potenziell Hunderte von tausenden von Linien (log-Datei). Mit einem sehr einfachen Ansatz (unten) nahmen sich genügend Zeit und Erinnerung, die ich fühlte, dass es würde mein MBP

Wie man eine Tasche von Worten aus textuellen Daten?

Anzahl der Antworten 6 Antworten
Arbeite ich an Vorhersage-problem mit einem großen textuellen Datenbestand. Ich bin Implementierung Bag of Words-Modell. Was sollte der beste Weg, um die Tasche der Wörter? Jetzt habe ich tf-idf der verschiedenen Wörter und die Anzahl der Wörter

Ausgabe-text-Datei mit dem Zeilenumbrüche in PHP

Anzahl der Antworten 9 Antworten
Ich versuche, öffnen Sie einen text-Datei und Ausgabe-seinen Inhalt mit dem code unten. Die text-Datei enthält Zeilenumbrüche, aber wenn ich echo die Datei seine unformatiert. Wie kann ich dieses Problem beheben? Dank. <html> <head> </head> <body> $fh

Perl-oder Python-Skript: Konvertiert Datum von dd/mm/yyyy auf yyyy-mm-dd

Anzahl der Antworten 8 Antworten
Ich habe viele Termine in einer Spalte in einer CSV-Datei, die ich konvertieren muss von dd/mm/yyyy auf yyyy-mm-dd format. Zum Beispiel 17/01/2010 umgewandelt werden soll, um 2010-01-17. Wie kann ich das in Perl oder Python? Es gibt

Python: Beste Weg, um entfernen Sie doppelte Zeichen aus string

Anzahl der Antworten 6 Antworten
Wie kann ich entfernen Sie doppelte Zeichen aus einem string in Python? Zum Beispiel, sagen wir, ich habe einen string: foo = "SSYYNNOOPPSSIISS" Wie kann ich den string: foo = SYNOPSIS Ich bin neu in python und

BufferedReader: Lesen mehrerer Zeilen in einen einzigen string

Anzahl der Antworten 7 Antworten
Ich lese zahlen aus einer txt-Datei mit BufferedReader für die Analyse. Den Weg werde ich über das jetzt ist -, eine Zeile zu Lesen mit .readline, teilen Sie diesen string in ein array von strings verwenden .split

Wie berechnen Sie die Anzahl der Zeiten, die Wort erschien in einer Datei oder in einem bestimmten Bereich

Anzahl der Antworten 2 Antworten
Manchmal möchte ich sehen, wie oft eine bestimmte Funktion aufgerufen wird, in eine Datei oder einen code-block. Wie machst du das? Ich bin mit Vim 7.2. Ich nehme an, Sie haben zu verwenden !wc oder so. InformationsquelleAutor

Hinzufügen eines prefix-Zeichenfolge zu Beginn jeder Zeile

Anzahl der Antworten 9 Antworten
Ich habe eine Datei wie folgt: line1 line2 line3 Und ich möchte erhalten: prefixline1 prefixline2 prefixline3 Ich könnte schreiben Sie ein Ruby-script, aber es ist besser, wenn ich nicht muss. prefix enthalten /. Es ist ein Weg,

Die Verwendung von SQL, um zu bestimmen, word count stats von einem text-Feld

Anzahl der Antworten 3 Antworten
Ich habe seit kurzem arbeite ich an der Datenbank-Suchfunktionen und wollte einige Informationen bekommen, wie die Durchschnittliche Wörter pro Dokument (z.B. text Feld in der Datenbank). Das einzige, was ich bis jetzt gefunden habe (ohne Verarbeitung in

Wie funktioniert uʍop-ǝpᴉsdn text arbeiten?

Anzahl der Antworten 6 Antworten
Hier ist eine website, die ich gefunden produzieren, die upside-down-Versionen der englische text. wie funktioniert es? nicht unicode-Kopf nach unten über die chars? Oder was? Wie ich kann, Schreibe meinen eigenen text flipping-Funktion? InformationsquelleAutor der Frage flybywire

So ersetzen Sie $ {} - Platzhalter in eine text-Datei?

Anzahl der Antworten 14 Antworten
Möchte ich pipe die Ausgabe eines "Vorlage" - Datei in MySQL, die Datei mit Variablen wie ${dbName} durchsetzt. Was ist das Befehlszeilen-Dienstprogramm zum ersetzen diese Instanzen und dump die Ausgabe auf der standard-Ausgabe? InformationsquelleAutor der Frage Dana

zusammenfassen von text-oder text vereinfachen

Anzahl der Antworten 7 Antworten
Gibt es eine Bibliothek, vorzugsweise in python, aber zumindest open source, das kann man zusammenfassen und vereinfachen natural-language text? InformationsquelleAutor der Frage captainandcoke | 2011-03-29

Entfernen Sie zuerst directory-Komponenten aus den Pfad oder die Datei

Anzahl der Antworten 5 Antworten
Ich entfernen müssen in einem Verzeichnis (ganz Links) von Variablen in der Bash. Ich habe Wege gefunden, wie kann ich entfernen Sie alle Pfad ein, oder verwenden dirname und andere, aber es war das entfernen aller oder

Verarbeitung von Text - Python vs. Perl-Leistung

Anzahl der Antworten 5 Antworten
Hier ist mein Perl-und Python-Skript zu tun, einige einfache text-Verarbeitung von über 21 log-Dateien, die jeweils etwa 300 KB bis 1 MB (max) x 5 mal wiederholt (insgesamt 125 Dateien, aufgrund der log 5 mal wiederholt). Python-Code (code modifiziert,

Eliminiere teilweise doppelte Zeilen nach Spalten und behalte die letzte

Anzahl der Antworten 4 Antworten
Ich habe eine Datei, die wie folgt aussieht: 2011-03-21 name001 line1 2011-03-21 name002 line2 2011-03-21 name003 line3 2011-03-22 name002 line4 2011-03-22 name001 line5 für jeden Namen, ich will nur seinen letzten Auftritt. So, ich erwarte das Ergebnis:

NLTK für Named Entity Recognition

Anzahl der Antworten 3 Antworten
Ich versuche, mit NLTK-toolkit zu erhalten, extrahieren Sie Ort, Datum und Zeit, von text-Nachrichten. Ich habe gerade das toolkit installiert auf meinem Rechner und ich schrieb diesen kurzen Ausschnitt um es zu testen: sentence = "Let's meet

Wie konvertiert man den gesamten Text in Kleinbuchstaben in Vim

Anzahl der Antworten 10 Antworten
Wie konvertieren Sie alle text im Vim-zu Kleinbuchstaben? Ist es überhaupt möglich? InformationsquelleAutor der Frage ksuralta | 2009-07-09

Entfernen Sie leere Zeilen in einer Textdatei über grep

Anzahl der Antworten 8 Antworten
FILE: hello world foo bar Wie kann, wenn alle entfernen die leere neue Zeilen in diesem FILE? Ausgabe des Befehls: FILE: hello world foo bar InformationsquelleAutor der Frage user191960 | 2009-10-23

Wie kann ich alle Zeilen löschen, die nicht mit bestimmten Zeichen beginnen?

Anzahl der Antworten 7 Antworten
Ich brauche, um herauszufinden, einen regulären Ausdruck zu löschen Sie alle Zeilen, die beginnen nicht mit entweder "+" oder "-". Will ich drucken Sie eine Papier-Kopie von einem großen diff-Datei, aber es zeigt 5 oder so Zeilen

Wie verwende ich sed, um nur das erste Vorkommen in einer Datei zu ersetzen?

Anzahl der Antworten 19 Antworten
Möchte ich zum aktualisieren einer großen Anzahl von C++ - Quelldateien mit einem zusätzlichen include-Direktive zuvor alle vorhandenen #enthält. Für diese Art von Aufgabe, die ich normalerweise mit einem kleinen bash-Skript mit sed zu neu-schreiben der Datei.

Gibt es noch einen Grund, AWK zu lernen?

Anzahl der Antworten 23 Antworten
Ich bin ständig am lernen von neuen tools, auch altmodisch, weil ich gern die richtige Lösung für das problem. Dennoch, ich Frage mich, ob es noch irgendeinen Grund zu lernen, einige von Ihnen. awk zum Beispiel ist

Wie wird mit der NLP-Aufgabe zum Erkennen von Absicht und Slots verfahren?

Anzahl der Antworten 3 Antworten
Wollte ich ein Programm schreiben, für Fragen über das Wetter. Was sind die algorithmen und Techniken, die ich sollte beginnen. ex: es ist sonnig dieses Wochenende in Chicago. Ich wollte wissen, die Absicht = Wetter Abfrage, Datum

Gibt es einen Bash-Befehl, der Dateien zählt?

Anzahl der Antworten 8 Antworten
Gibt es einen bash-Befehl zählt die Anzahl der Dateien, die einem Muster entsprechen? Zum Beispiel, ich möchte, um die Anzahl aller Dateien in einem Verzeichnis, die in das Muster passen: log* InformationsquelleAutor der Frage hudi | 2012-07-03

Wie finde ich Textdateien, die keinen Text auf Linux enthalten?

Anzahl der Antworten 2 Antworten
Wie finde ich die Dateien nicht mit etwas text auf Linux? Im Grunde bin ich auf der Suche für die inverse der folgenden find . -print | xargs grep -iL "somestring" InformationsquelleAutor der Frage eon | 2011-08-26

Algorithmen zum Erkennen von Phrasen und Schlüsselwörtern aus Text

Anzahl der Antworten 5 Antworten
Habe ich rund 100 Megabyte text ohne markup, aufgeteilt auf rund 10.000 Einträge. Ich würde gerne automatisch generieren 'tag' Liste. Das problem ist, dass es Wort-Gruppen (d.h. Phrasen), die nur Sinn machen, wenn Sie zusammen gruppiert werden.

Wie kann ich einen vorgegebenen Bereich von Zeilen aus einer Textdatei unter Unix extrahieren?

Anzahl der Antworten 21 Antworten
Habe ich eine ~23000 SQL-dump mit mehreren Datenbanken im Wert von Daten. Ich benötige zum extrahieren einen bestimmten Teil der Datei (D. H. die Daten für eine einzelne Datenbank) und legen Sie es in eine neue Datei.