Tag: tokenize

Tokenisierung ist die Handlung, mit der das aufteilen einer Zeichenkette in einzelne Elemente, genannt Token.

RegEx Tokenizer die Aufteilung von text in Wörter, Ziffern und Satzzeichen

1 Antworten

Was ich tun möchte, ist die Aufteilung von text in seine endgültige Elemente. Beispiel: from nltk.tokenize import * txt = "A sample sentences with digits like 2.119,99 or 2,99 are awesome." regexp_tokenize(txt, pattern='(?:(?!\d)\w)+|\S+') ['A','sample','sentences','with','digits','like','2.199,99','or','2,99','are','awesome','.'] Können Sie sehen,

Suche nach Namen(text) mit Leerzeichen in elasticsearch

3 Antworten

Suche nach Namen(text) mit Leerzeichen, verursacht problem für mich, Ich habe das mapping ähnlich wie "{"user":{"properties":{"name":{"type":"string"}}}}" Ideal, was es zurückgeben sollte, und Rang die Ergebnisse wie folgt 1) Bring on top names that exact match the search

analyzer elasticsearch search tokenize

Solr: Kann nicht bei der Suche nach zahlen gemischt mit Buchstaben

1 Antworten

Ich habe einige Artikel in meinem index (Solr. 4.4), die enthalten Namen wie Foobar 135g, wo die 135g bezieht sich auf einige GEWICHTE. Suche für foobar oder foobar 135 funktioniert, aber wenn ich versuche, die Suche nach

solr solr4 sunspot sunspot-solr tokenize

pySpark konvertieren einer Liste oder RDD element Wert (int)

1 Antworten

Ich bin mit pySpark zu zählen, Elemente in eine Token-RDD. Dies ist eines der Elemente: ('b00004tkvy', ['noah', 'ark', 'activity', 'center', 'jewel', 'case', 'ages', '3', '8', 'victory', 'multimedia']) Muss ich die Anzahl der Elemente in der voll RDD.

apache-spark pyspark python rdd tokenize

Was sind all die japanischen whitespace-Zeichen?

2 Antworten

Muss ich aufteilen einer Zeichenfolge extrahieren und Wörter getrennt durch Leerzeichen.Die Quelle kann in Englisch oder Japanisch. Englisch whitespace-Zeichen sind tab und space, und der japanische text verwendet, auch diese. (Wenn ich mich Recht erinnere, in allen

cjk text tokenize unicode whitespace

Lesen Sie die CSV-Datei und verwenden Sie StringTokenizer

4 Antworten

Dies ist eine einfache Hausaufgabe, das hat mich verrückt wurde für die letzten paar Tage. Wenn ich ein paar Arrays, die ich getan haben könnte es eine Weile her, aber mit der StringTokenizer macht mich verrückt. Das

csv java string tokenize

Kann eine Zeile von Python-code kennen, seinen Einzug nesting level?

5 Antworten

So etwas wie dieses: print(get_indentation_level()) print(get_indentation_level()) print(get_indentation_level()) Ich würde gerne so etwas wie dieses: 1 2 3 Kann den code Lesen, sich in dieser Weise? Alles was ich will ist die Ausgabe von mehr geschachtelte code-Teile mehr

indentation metaprogramming python reflection tokenize

tokenisierung eine Zeichenfolge zweimal in c mit strtok()

3 Antworten

Ich bin mit strtok() in c zu Parsen einer csv-string. Zuerst habe ich die tokenisierung es zu finden Sie einfach heraus, wie viele Zeichen gibt es, damit ich reservieren kann, eine Zeichenfolge in der richtigen Größe. Dann

c csv strtok tokenize

C++ tokenisierung einen string mit einem regulären Ausdruck

4 Antworten

Ich versuche zu lernen, selbst einige C++ von Grund auf im moment. Ich bin gut bewandert in python, perl, javascript, sondern habe nur festgestellt C++ - kurz, in einem Klassenzimmer in der Vergangenheit. Bitte entschuldigt die Naivität

c++regex split tokenize

Boost::tokenizer Komma voneinander getrennt (c++)

1 Antworten

Sollte ein leichtes für Euch..... Ich bin Herumspielen mit tokenizer mit Boost und ich möchten, erstellen Sie ein token, getrennt durch ein Komma. hier ist mein code: string s = "this is, , , a test"; boost::char_delimiters_separator<char>

boost boost-tokenizer c++tokenize

Wie funktioniert ein parser (z.B. HTML) zu arbeiten?

5 Antworten

Für argument Willen vermuten lässt, ein HTML-parser. Habe ich gelesen, dass es tokenizes zuerst alles, und dann analysiert es. Was bedeutet die tokenisierung bedeuten? Funktioniert der parser Lesen jedem Charakter jeden, den Aufbau einer multi-dimensionalen Arrays um

browser html html-parsing parsing tokenize

Solr: genaue phrase-query mit einer EdgeNGramFilterFactory

4 Antworten

In Solr (3.3), ist es möglich, ein Feld Brief-by-Brief suchbar durch eine EdgeNGramFilterFactory und auch empfindlich auf Satz Abfragen? Durch Beispiel, ich bin auf der Suche nach einem Feld, dass, wenn mit "contrat informatique", wird gefunden, wenn

phrase solr tokenize

Wie teilt eine Zeichenfolge mit durch Tabulatoren und Zeilenumbrüche?

1 Antworten

Bekam ich eine tab-getrennte Datei, die ich aufteilen will durch Tabulatoren und Zeilenumbrüche, wo eine Registerkarte repräsentiert das Trennzeichen zwischen Feldern und einem newline stellt ein neues Objekt erzeugt werden soll. Die Datei kann wie folgt Aussehen:

java tab-delimited tokenize

ORACLE-PL-SQL-Wie AUFTEILEN einer Zeichenfolge und gibt die Liste mit einer Funktion

2 Antworten

Wie teilt man die angegebene Zeichenfolge für die angegebene Trennzeichen. Ex: EINGANG String => '1,2,3,4,5' Delimiter => ',' AUSGABE 1 2 3 4 5 InformationsquelleAutor Keshan Fernando | 2015-09-03

function plsql split string tokenize

Java Lucene NGramTokenizer

4 Antworten

Ich versuche die tokenisierung strings in ngrams. Seltsam in der Dokumentation für die NGramTokenizer ich nicht sehen, eine Methode, mit der Rückkehr die individuelle ngrams wurden gesplittet. In der Tat sehe ich nur zwei Methoden in der

java lucene n-gram tokenize

Wie Sie am besten split csv-Zeichenfolgen in oracle 9i

5 Antworten

Ich möchte in der Lage sein, um split csv-Zeichenfolgen in Oracle 9i Habe ich folgende Artikel Lesen http://www.oappssurd.com/2009/03/string-split-in-oracle.html Aber ich Verstand nicht, wie diese Arbeit zu machen. Hier sind einige meiner Fragen, die es betreffen Würde diese

csv oracle tokenize

Elasticsearch wildcard-Suche auf not_analyzed Feld

4 Antworten

Habe ich ein index wie im folgenden beschriebenen Einstellungen und-mapping; { "settings":{ "index":{ "analysis":{ "analyzer":{ "analyzer_keyword":{ "tokenizer":"keyword", "filter":"lowercase" } } } } }, "mappings":{ "product":{ "properties":{ "name":{ "analyzer":"analyzer_keyword", "type":"string", "index": "not_analyzed" } } } } } Ich

elasticsearch lucene search tokenize

Tokenisierung und Sortieren mit XSLT 1.0

2 Antworten

Habe ich eine getrennte Strings (durch Leerzeichen getrennt in meinem Beispiel unten), ich brauche für die tokenisierung, Sortieren, und dann kommen Sie wieder zusammen und ich brauche, um all dies zu tun unter Verwendung von XSLT 1.0.

sorting tokenize xslt xslt-1.0

Split ein string mit Leerzeichen in Javascript?

6 Antworten

Ich brauche einen tokenizer, dass, gegeben eine Zeichenkette mit beliebigen Leerzeichen zwischen Worten erstellen Sie ein array von Wörtern, ohne leere sub-strings. Beispiel ein string: " I dont know what you mean by glory Alice said." Benutze

javascript tokenize

Matlab-split Zeichenfolge, die mehrere Trennzeichen

3 Antworten

Ich habe eine Zelle, die Liste von Zeichenfolgen wie diese: cellArr = 'folderName_fileName_no.jpg', 'folderName2_fileName2_no2.jpg' Ich will es so {folderName, fileName, no}, {folderName2, fileName2, no2} Wie es in matlab? Ich weiß, dass ich verwenden können, regexp(cellArr, '_', 'split'),

matlab regex split string tokenize

Die tokenisierung wird ein string mit einem Leerzeichen in java

11 Antworten

Möchte ich die tokenisierung ein string wie dieser String line = "a=b c='123 456' d=777 e='uij yyy'"; Ich kann nicht split-basiert wie dieser String words = line.split(" "); Irgendeine Idee, wie kann ich zu teilen, so

java tokenize

Was ist effizienter, eine switch-case oder eine std::map

6 Antworten

Ich denke über den tokenizer hier. Jeder token ruft eine andere Funktion innerhalb des parsers. Was ist effizienter: Eine Karte von std::Funktionen/boost::Funktionen Ein switch case InformationsquelleAutor the_drow | 2009-05-31

c++parsing tokenize

Wie zu analysieren / die tokenisierung einer SQL-Anweisung in Node.js

4 Antworten

Ich bin auf der Suche nach einem Weg, um zu analysieren /die tokenisierung SQL-Anweisung innerhalb einer Node.js Anwendung, um: Tokenisierung alle die "basics" SQL-Schlüsselwörter definiert, die in der ISO/IEC 9075 standard-oder hier. Validieren der SQL-syntax. Finden Sie

node.js parsing sql sql-parser tokenize

Unterschied zwischen WhitespaceTokenizerFactory und StandardTokenizerFactory

1 Antworten

Ich bin neu auf Solr. Durch das Lesen Solr wiki, ich verstehe nicht die Unterschiede zwischen WhitespaceTokenizerFactory und StandardTokenizerFactory. Was ist Ihr Unterschied? InformationsquelleAutor trillions | 2012-06-25

solr tokenize

wie konvertieren von csv-Tabelle in oracle

5 Antworten

Wie kann ich ein Paket, dass Ergebnisse, die in Tabelle format bestanden, wenn in der csv-Werte. select * from table(schema.mypackage.myfunction('one, two, three')) zurückkehren sollte one two three Habe ich versucht, etwas von Fragen tom aber das funktioniert

csv oracle plsql string tokenize

Splitting string in mehrere Zeilen in Oracle

13 Antworten

Ich weiß, das beantwortet bis zu einem gewissen Grad mit PHP und MYSQL, aber ich Frage mich, wenn jemand mir beibringen könnte die einfachste Vorgehensweise zum aufteilen einer Zeichenfolge (kommagetrennt) in mehrere Zeilen in Oracle 10g (vorzugsweise)

oracle plsql sql string tokenize

Mit boost::tokenizer mit string-Begrenzungszeichen

4 Antworten

Habe ich boost::tokenizer, und ich habe festgestellt, dass die Dokumentation ist sehr Dünn. Ist es möglich zu machen, die tokenisierung ein string wie "dolphin--Affe--Pavian" und jedes Wort ein token, sowie jedes double dash token? Aus den Beispielen

boost c++string tokenize

Wie die tokenisierung einer input-Datei in java

2 Antworten

mache ich tokenisierung eine text-Datei in java. Ich möchte zum Lesen einer Eingabedatei, die tokenisierung und schreiben einen bestimmten Charakter, der wurde gesplittet in eine Ausgabedatei. Dies ist, was ich bisher getan habe: Paket org.apache.lucene.Analyse; import

java tokenize

Die tokenisierung aus einer Textdatei Lesen und in ein array in C

4 Antworten

Wie Sie die tokenisierung, wenn Sie das Lesen aus einer Datei in C? Textdatei: PES 2009;Konami;DVD 3;500.25; 6 Assasins Creed, Ubisoft;DVD;598.25; 3 Inferno;EA;DVD 2;650.25; 7 char *tokenPtr; fileT = fopen("DATA2.txt", "r"); /* this will not work */

c file text tokenize

Wie Analysieren Sie ein logfile in powershell und schreiben Sie den gewünschten Ausgang

1 Antworten

Ich habe ein script, welches verwendet robocopy um Dateien zu übertragen und schreiben von logs in eine Datei "Logfile.txt" danach habe ich Parsen der Datei "LogFile.txt" weiter und überfliegen Sie die erforderlichen Daten ein, und schreiben Sie

logparser powershell powershell-v2.0 robocopy tokenize

XSL 1.0 - zur Verwendung der for-each über eine Token-string

2 Antworten

Mithilfe von XSL 1.0, fand ich ein nettes tokenisierung Funktion. Jetzt muss ich für jede über die daraus resultierenden Token. Ich bin ganz neu XSL. Dem php-äquivalent, was ich brauche: $in = 'a,b,c,d'; $tokens = explode (',',

foreach tokenize xslt xslt-1.0

Wie kann ich die tokenisierung ein string in C++?

30 Antworten

Java hat eine praktische split-Methode: String str = "The quick brown fox"; String results = str.split(" "); Gibt es eine einfache Möglichkeit in C++? Ich kann nicht glauben, dass diese routine-Aufgabe ist, solche Situationen in c++ Seine

c++split string tokenize

Python word_tokenize

1 Antworten

Ich bin ganz neu bei python. Ich bin versucht zu finden, Frequenz-Distributionen von meinem text. Hier ist der code, import nltk nltk.download() import os os.getcwd() text_file=open(r"ecelebi\1.txt","r") p = text_file.read() words = nltk.tokenize.word_tokenize(p) fdist= FreqDist(words) print(fdist) Das problem

nltk python tokenize

Die tokenisierung ein string in pl/sql und einzigartige Token?

1 Antworten

Habe ich eine Anforderung für die tokenisierung ein string in pl/sql und zurück nur einen einzigartigen Token. Ich habe schon Beispiele gesehen, wird die tokenisierung der Zeichenfolge, aber keine zurückgeben, einzigartige Token. Beispielsweise die Abfrage - select

oracle plsql sql token tokenize

Aufteilen einer Zeichenkette in tokens

2 Antworten

Ich würde gerne split einen String in tokens auf, die gespeichert sind in ein array. Jedoch glaube ich nicht glaube ich bin in der Lage, Trennzeichen als die Zeichenfolgen-information ist nicht getrennt von einem bestimmten Satz von

arrays delimiter java split tokenize

Analyse einer log-Datei in Java

4 Antworten

Alle, Habe ich eine log-Datei mit dem unten gezeigten Inhalt. Request from Centercord. 2010-12-14 12:42:13.724 [ 6796] **************************** 2010-12-14 12:42:13.724 [ 6796] 1111111111111111 2010-12-14 12:42:13.724 [ 6796]22222222222 Response from Centercord. 2010-12-14 12:42:21.802 [ 5960] 11111111111111 2010-12-14 12:42:21.802

java logging parsing tokenize

Tokenisierung Strings

3 Antworten

Ich habe rund 100 Zeilen text, die ich will für die tokenisierung, die gleich sind die folgenden: <word> <unknown number of spaces and tabs> <number> Ich habe Probleme bei der Suche die tokenisierung-Funktionen mit VBA. Was wäre

ms-word tokenize vba

Lucene - Exakt-string-matching

2 Antworten

Ich versuche zu schaffen, einen Lucene 4.10-index. Ich will einfach nur, um in den index die exakte Zeichenfolgen, die ich in das Dokument, ohne die tokenisierung. Ich bin mit dem StandardAnalyzer. Directory dir = FSDirectory.open(new File("myDire")); Analyzer

java lucene tokenize

Loswerden von stop-Wörter und Dokument tokenisierung mit NLTK

3 Antworten

Ich bin Schwierigkeiten eliminiert und eine tokenisierung .text-Datei mit nltk. Ich erhalte immer folgende Fehlermeldung: AttributeError: 'list' - Objekt hat kein Attribut 'unteren'. Ich kann einfach nicht herausfinden, was ich falsch mache, obwohl es mein erstes mal

nltk stop-words tokenize

Macht PL/SQL wird eine äquivalente Java-StringTokenizer?

4 Antworten

Verwende ich java.util.StringTokenizer für einfache Analyse der getrennten Zeichenfolgen in java. Ich habe ein Bedürfnis für die gleiche Art von Mechanismus in pl/sql. Ich könnte es schreiben, aber wenn es schon vorhanden ist, würde ich lieber die

oracle plsql sql stringtokenizer tokenize

Split string und iterieren für jeden Wert in einer gespeicherten Prozedur

2 Antworten

Habe ich eine Anforderung, die in Oracle, wo ich haben, um einen Komma-separierten string von Land-codes zu einer in Oracle gespeicherten Prozedur. Innerhalb einer gespeicherten Prozedur möchte ich split den string auf Komma und die Iteration für

oracle oracle11g stored-procedures tokenize

Split-Spalte, um mehrere Zeilen

4 Antworten

Ich habe Tabelle mit einer Spalte, die mehrere Werte enthält, getrennt durch Komma (,) und möchte es teilen, so bekomme ich uche Website auf seiner eigenen Zeile, aber mit der gleichen Anzahl vor. Also meine wählen würde,

oracle oracle10g sql tokenize

Die tokenisierung, entfernen von stop-Wörter, die mit Lucene mit Java

2 Antworten

Ich versuche, die tokenisierung und entfernen von stop-Wörter aus einer txt-Datei mit Lucene. Ich habe diese: public String removeStopWords(String string) throws IOException { Set<String> stopWords = new HashSet<String>(); stopWords.add("a"); stopWords.add("an"); stopWords.add("I"); stopWords.add("the"); TokenStream tokenStream = new StandardTokenizer(Version.LUCENE_43,

java lucene nlp stop-words tokenize

Die tokenisierung problem in Java mit Trennzeichen “. "

4 Antworten

Muss ich split einen text mit dem Trennzeichen ". ". Zum Beispiel möchte ich diesen string : Washington is the U.S Capital. Barack is living there. Werden in zwei Teile geschnitten: Washington is the U.S Capital. Barack

java string stringtokenizer tokenize

strsep() Verwendung und seine alternative

3 Antworten

#include <stdio.h> #include <string.h> int main() { char *slogan = "together{kaliya} [namak]"; char *slow_gun = strdup(slogan); char *token = strsep(&slow_gun, "{"); printf ("\n slow_gun: %s\n token: %s\n", slow_gun, token); return 0; } wenn ich es ausführen: $

c string strsep tokenize

Mit Boost-Tokenizer escaped_list_separator mit verschiedenen Parametern

3 Antworten

Hallo, ich wurde versuchen, einen tokenizer, um die Arbeit mit der boost-tokenizer-library-Klasse. Ich habe dieses tutorial auf die boost-Dokumentation: http://www.boost.org/doc/libs/1 _36 _0/libs/tokenizer/_list entkommen _separator.htm problem ist ich kann nicht das argument zu entkommen _list _separator("","",""); aber wenn

boost c++string tokenize

Wie kann ich die split ein Wort, die Buchstaben in ein Array in C#?

6 Antworten

Wie kann ich die split einen string in ein array von Zeichen in C#? Beispiel String Wort ist "Roboter". Sollte das Programm ausdrucken: r o b o t Den orginal-code-snippet: using System; using System.Collections.Generic; using System.Linq; using

.net c#string tokenize

Hinzufügen mehrwertigen Feld zu einem SolrInputDocument

4 Antworten

Sind wir mit einem Embedded solr-Instanz für Java SolrJ. Möchte ich hinzufügen, dass ein mehrwertiges Feld zu einem Dokument. Das mehrwertige Feld ist ein Koma getrennte Zeichenkette. In Java, die ich tun will: solrInputDocument.addField(Field1, "value1,value2,value3"); Die definition

java solrj tokenize

Tokenisierung von strings mit regulären Ausdruck in Javascript

6 Antworten

Angenommen, ich habe einen langen string mit Zeilenumbrüchen und Tabulatoren als: var x = "This is a long string.\n\t This is another one on next line."; Also, wie können wir teilen diesen string in-Token mittels regulärer Ausdruck?

javascript regex string stringtokenizer tokenize

Parsing-pipe-delimited-Zeichenfolge in den Spalten?

3 Antworten

Ich habe eine Spalte mit pipe getrennt Werte wie: '23/12.1| 450/30/9/78/82.5/92.1/120/185/52/11' Möchte ich analysieren, diese Spalte zu füllen eine Tabelle mit 12 entsprechenden Spalten: month1, month2, month3...month12. So month1 haben den Wert 23, Monat 2 der Wert

oracle plsql tokenize