Tag: tokenize

Tokenisierung ist die Handlung, mit der das aufteilen einer Zeichenkette in einzelne Elemente, genannt Token.

RegEx Tokenizer die Aufteilung von text in Wörter, Ziffern und Satzzeichen

Anzahl der Antworten 1 Antworten
Was ich tun möchte, ist die Aufteilung von text in seine endgültige Elemente. Beispiel: from nltk.tokenize import * txt = "A sample sentences with digits like 2.119,99 or 2,99 are awesome." regexp_tokenize(txt, pattern='(?:(?!\d)\w)+|\S+') ['A','sample','sentences','with','digits','like','2.199,99','or','2,99','are','awesome','.'] Können Sie sehen,

Suche nach Namen(text) mit Leerzeichen in elasticsearch

Anzahl der Antworten 3 Antworten
Suche nach Namen(text) mit Leerzeichen, verursacht problem für mich, Ich habe das mapping ähnlich wie "{"user":{"properties":{"name":{"type":"string"}}}}" Ideal, was es zurückgeben sollte, und Rang die Ergebnisse wie folgt 1) Bring on top names that exact match the search

Solr: Kann nicht bei der Suche nach zahlen gemischt mit Buchstaben

Anzahl der Antworten 1 Antworten
Ich habe einige Artikel in meinem index (Solr. 4.4), die enthalten Namen wie Foobar 135g, wo die 135g bezieht sich auf einige GEWICHTE. Suche für foobar oder foobar 135 funktioniert, aber wenn ich versuche, die Suche nach

pySpark konvertieren einer Liste oder RDD element Wert (int)

Anzahl der Antworten 1 Antworten
Ich bin mit pySpark zu zählen, Elemente in eine Token-RDD. Dies ist eines der Elemente: ('b00004tkvy', ['noah', 'ark', 'activity', 'center', 'jewel', 'case', 'ages', '3', '8', 'victory', 'multimedia']) Muss ich die Anzahl der Elemente in der voll RDD.

Was sind all die japanischen whitespace-Zeichen?

Anzahl der Antworten 2 Antworten
Muss ich aufteilen einer Zeichenfolge extrahieren und Wörter getrennt durch Leerzeichen.Die Quelle kann in Englisch oder Japanisch. Englisch whitespace-Zeichen sind tab und space, und der japanische text verwendet, auch diese. (Wenn ich mich Recht erinnere, in allen

Lesen Sie die CSV-Datei und verwenden Sie StringTokenizer

Anzahl der Antworten 4 Antworten
Dies ist eine einfache Hausaufgabe, das hat mich verrückt wurde für die letzten paar Tage. Wenn ich ein paar Arrays, die ich getan haben könnte es eine Weile her, aber mit der StringTokenizer macht mich verrückt. Das

Kann eine Zeile von Python-code kennen, seinen Einzug nesting level?

Anzahl der Antworten 5 Antworten
So etwas wie dieses: print(get_indentation_level()) print(get_indentation_level()) print(get_indentation_level()) Ich würde gerne so etwas wie dieses: 1 2 3 Kann den code Lesen, sich in dieser Weise? Alles was ich will ist die Ausgabe von mehr geschachtelte code-Teile mehr

tokenisierung eine Zeichenfolge zweimal in c mit strtok()

Anzahl der Antworten 3 Antworten
Ich bin mit strtok() in c zu Parsen einer csv-string. Zuerst habe ich die tokenisierung es zu finden Sie einfach heraus, wie viele Zeichen gibt es, damit ich reservieren kann, eine Zeichenfolge in der richtigen Größe. Dann

C++ tokenisierung einen string mit einem regulären Ausdruck

Anzahl der Antworten 4 Antworten
Ich versuche zu lernen, selbst einige C++ von Grund auf im moment. Ich bin gut bewandert in python, perl, javascript, sondern habe nur festgestellt C++ - kurz, in einem Klassenzimmer in der Vergangenheit. Bitte entschuldigt die Naivität

Boost::tokenizer Komma voneinander getrennt (c++)

Anzahl der Antworten 1 Antworten
Sollte ein leichtes für Euch..... Ich bin Herumspielen mit tokenizer mit Boost und ich möchten, erstellen Sie ein token, getrennt durch ein Komma. hier ist mein code: string s = "this is, , , a test"; boost::char_delimiters_separator<char>

Wie funktioniert ein parser (z.B. HTML) zu arbeiten?

Anzahl der Antworten 5 Antworten
Für argument Willen vermuten lässt, ein HTML-parser. Habe ich gelesen, dass es tokenizes zuerst alles, und dann analysiert es. Was bedeutet die tokenisierung bedeuten? Funktioniert der parser Lesen jedem Charakter jeden, den Aufbau einer multi-dimensionalen Arrays um

Solr: genaue phrase-query mit einer EdgeNGramFilterFactory

Anzahl der Antworten 4 Antworten
In Solr (3.3), ist es möglich, ein Feld Brief-by-Brief suchbar durch eine EdgeNGramFilterFactory und auch empfindlich auf Satz Abfragen? Durch Beispiel, ich bin auf der Suche nach einem Feld, dass, wenn mit "contrat informatique", wird gefunden, wenn

Wie teilt eine Zeichenfolge mit durch Tabulatoren und Zeilenumbrüche?

Anzahl der Antworten 1 Antworten
Bekam ich eine tab-getrennte Datei, die ich aufteilen will durch Tabulatoren und Zeilenumbrüche, wo eine Registerkarte repräsentiert das Trennzeichen zwischen Feldern und einem newline stellt ein neues Objekt erzeugt werden soll. Die Datei kann wie folgt Aussehen:

ORACLE-PL-SQL-Wie AUFTEILEN einer Zeichenfolge und gibt die Liste mit einer Funktion

Anzahl der Antworten 2 Antworten
Wie teilt man die angegebene Zeichenfolge für die angegebene Trennzeichen. Ex: EINGANG String => '1,2,3,4,5' Delimiter => ',' AUSGABE 1 2 3 4 5 InformationsquelleAutor Keshan Fernando | 2015-09-03

Java Lucene NGramTokenizer

Anzahl der Antworten 4 Antworten
Ich versuche die tokenisierung strings in ngrams. Seltsam in der Dokumentation für die NGramTokenizer ich nicht sehen, eine Methode, mit der Rückkehr die individuelle ngrams wurden gesplittet. In der Tat sehe ich nur zwei Methoden in der

Wie Sie am besten split csv-Zeichenfolgen in oracle 9i

Anzahl der Antworten 5 Antworten
Ich möchte in der Lage sein, um split csv-Zeichenfolgen in Oracle 9i Habe ich folgende Artikel Lesen http://www.oappssurd.com/2009/03/string-split-in-oracle.html Aber ich Verstand nicht, wie diese Arbeit zu machen. Hier sind einige meiner Fragen, die es betreffen Würde diese

Elasticsearch wildcard-Suche auf not_analyzed Feld

Anzahl der Antworten 4 Antworten
Habe ich ein index wie im folgenden beschriebenen Einstellungen und-mapping; { "settings":{ "index":{ "analysis":{ "analyzer":{ "analyzer_keyword":{ "tokenizer":"keyword", "filter":"lowercase" } } } } }, "mappings":{ "product":{ "properties":{ "name":{ "analyzer":"analyzer_keyword", "type":"string", "index": "not_analyzed" } } } } } Ich

Tokenisierung und Sortieren mit XSLT 1.0

Anzahl der Antworten 2 Antworten
Habe ich eine getrennte Strings (durch Leerzeichen getrennt in meinem Beispiel unten), ich brauche für die tokenisierung, Sortieren, und dann kommen Sie wieder zusammen und ich brauche, um all dies zu tun unter Verwendung von XSLT 1.0.

Split ein string mit Leerzeichen in Javascript?

Anzahl der Antworten 6 Antworten
Ich brauche einen tokenizer, dass, gegeben eine Zeichenkette mit beliebigen Leerzeichen zwischen Worten erstellen Sie ein array von Wörtern, ohne leere sub-strings. Beispiel ein string: " I dont know what you mean by glory Alice said." Benutze

Matlab-split Zeichenfolge, die mehrere Trennzeichen

Anzahl der Antworten 3 Antworten
Ich habe eine Zelle, die Liste von Zeichenfolgen wie diese: cellArr = 'folderName_fileName_no.jpg', 'folderName2_fileName2_no2.jpg' Ich will es so {folderName, fileName, no}, {folderName2, fileName2, no2} Wie es in matlab? Ich weiß, dass ich verwenden können, regexp(cellArr, '_', 'split'),

Die tokenisierung wird ein string mit einem Leerzeichen in java

Anzahl der Antworten 11 Antworten
Möchte ich die tokenisierung ein string wie dieser String line = "a=b c='123 456' d=777 e='uij yyy'"; Ich kann nicht split-basiert wie dieser String words = line.split(" "); Irgendeine Idee, wie kann ich zu teilen, so

Was ist effizienter, eine switch-case oder eine std::map

Anzahl der Antworten 6 Antworten
Ich denke über den tokenizer hier. Jeder token ruft eine andere Funktion innerhalb des parsers. Was ist effizienter: Eine Karte von std::Funktionen/boost::Funktionen Ein switch case InformationsquelleAutor the_drow | 2009-05-31

Wie zu analysieren / die tokenisierung einer SQL-Anweisung in Node.js

Anzahl der Antworten 4 Antworten
Ich bin auf der Suche nach einem Weg, um zu analysieren /die tokenisierung SQL-Anweisung innerhalb einer Node.js Anwendung, um: Tokenisierung alle die "basics" SQL-Schlüsselwörter definiert, die in der ISO/IEC 9075 standard-oder hier. Validieren der SQL-syntax. Finden Sie

Unterschied zwischen WhitespaceTokenizerFactory und StandardTokenizerFactory

Anzahl der Antworten 1 Antworten
Ich bin neu auf Solr. Durch das Lesen Solr wiki, ich verstehe nicht die Unterschiede zwischen WhitespaceTokenizerFactory und StandardTokenizerFactory. Was ist Ihr Unterschied? InformationsquelleAutor trillions | 2012-06-25

wie konvertieren von csv-Tabelle in oracle

Anzahl der Antworten 5 Antworten
Wie kann ich ein Paket, dass Ergebnisse, die in Tabelle format bestanden, wenn in der csv-Werte. select * from table(schema.mypackage.myfunction('one, two, three')) zurückkehren sollte one two three Habe ich versucht, etwas von Fragen tom aber das funktioniert

Splitting string in mehrere Zeilen in Oracle

Anzahl der Antworten 13 Antworten
Ich weiß, das beantwortet bis zu einem gewissen Grad mit PHP und MYSQL, aber ich Frage mich, wenn jemand mir beibringen könnte die einfachste Vorgehensweise zum aufteilen einer Zeichenfolge (kommagetrennt) in mehrere Zeilen in Oracle 10g (vorzugsweise)

Mit boost::tokenizer mit string-Begrenzungszeichen

Anzahl der Antworten 4 Antworten
Habe ich boost::tokenizer, und ich habe festgestellt, dass die Dokumentation ist sehr Dünn. Ist es möglich zu machen, die tokenisierung ein string wie "dolphin--Affe--Pavian" und jedes Wort ein token, sowie jedes double dash token? Aus den Beispielen

Wie die tokenisierung einer input-Datei in java

Anzahl der Antworten 2 Antworten
mache ich tokenisierung eine text-Datei in java. Ich möchte zum Lesen einer Eingabedatei, die tokenisierung und schreiben einen bestimmten Charakter, der wurde gesplittet in eine Ausgabedatei. Dies ist, was ich bisher getan habe: Paket org.apache.lucene.Analyse;   import

Die tokenisierung aus einer Textdatei Lesen und in ein array in C

Anzahl der Antworten 4 Antworten
Wie Sie die tokenisierung, wenn Sie das Lesen aus einer Datei in C? Textdatei: PES 2009;Konami;DVD 3;500.25; 6 Assasins Creed, Ubisoft;DVD;598.25; 3 Inferno;EA;DVD 2;650.25; 7 char *tokenPtr; fileT = fopen("DATA2.txt", "r"); /* this will not work */

Wie Analysieren Sie ein logfile in powershell und schreiben Sie den gewünschten Ausgang

Anzahl der Antworten 1 Antworten
Ich habe ein script, welches verwendet robocopy um Dateien zu übertragen und schreiben von logs in eine Datei "Logfile.txt" danach habe ich Parsen der Datei "LogFile.txt" weiter und überfliegen Sie die erforderlichen Daten ein, und schreiben Sie

XSL 1.0 - zur Verwendung der for-each über eine Token-string

Anzahl der Antworten 2 Antworten
Mithilfe von XSL 1.0, fand ich ein nettes tokenisierung Funktion. Jetzt muss ich für jede über die daraus resultierenden Token. Ich bin ganz neu XSL. Dem php-äquivalent, was ich brauche: $in = 'a,b,c,d'; $tokens = explode (',',

Wie kann ich die tokenisierung ein string in C++?

Anzahl der Antworten 30 Antworten
Java hat eine praktische split-Methode: String str = "The quick brown fox"; String results = str.split(" "); Gibt es eine einfache Möglichkeit in C++? Ich kann nicht glauben, dass diese routine-Aufgabe ist, solche Situationen in c++ Seine

Python word_tokenize

Anzahl der Antworten 1 Antworten
Ich bin ganz neu bei python. Ich bin versucht zu finden, Frequenz-Distributionen von meinem text. Hier ist der code, import nltk nltk.download() import os os.getcwd() text_file=open(r"ecelebi\1.txt","r") p = text_file.read() words = nltk.tokenize.word_tokenize(p) fdist= FreqDist(words) print(fdist) Das problem

Die tokenisierung ein string in pl/sql und einzigartige Token?

Anzahl der Antworten 1 Antworten
Habe ich eine Anforderung für die tokenisierung ein string in pl/sql und zurück nur einen einzigartigen Token. Ich habe schon Beispiele gesehen, wird die tokenisierung der Zeichenfolge, aber keine zurückgeben, einzigartige Token. Beispielsweise die Abfrage - select

Aufteilen einer Zeichenkette in tokens

Anzahl der Antworten 2 Antworten
Ich würde gerne split einen String in tokens auf, die gespeichert sind in ein array. Jedoch glaube ich nicht glaube ich bin in der Lage, Trennzeichen als die Zeichenfolgen-information ist nicht getrennt von einem bestimmten Satz von

Analyse einer log-Datei in Java

Anzahl der Antworten 4 Antworten
Alle, Habe ich eine log-Datei mit dem unten gezeigten Inhalt. Request from Centercord. 2010-12-14 12:42:13.724 [ 6796] **************************** 2010-12-14 12:42:13.724 [ 6796] 1111111111111111 2010-12-14 12:42:13.724 [ 6796]22222222222 Response from Centercord. 2010-12-14 12:42:21.802 [ 5960] 11111111111111 2010-12-14 12:42:21.802

Tokenisierung Strings

Anzahl der Antworten 3 Antworten
Ich habe rund 100 Zeilen text, die ich will für die tokenisierung, die gleich sind die folgenden: <word> <unknown number of spaces and tabs> <number> Ich habe Probleme bei der Suche die tokenisierung-Funktionen mit VBA. Was wäre

Lucene - Exakt-string-matching

Anzahl der Antworten 2 Antworten
Ich versuche zu schaffen, einen Lucene 4.10-index. Ich will einfach nur, um in den index die exakte Zeichenfolgen, die ich in das Dokument, ohne die tokenisierung. Ich bin mit dem StandardAnalyzer. Directory dir = FSDirectory.open(new File("myDire")); Analyzer

Loswerden von stop-Wörter und Dokument tokenisierung mit NLTK

Anzahl der Antworten 3 Antworten
Ich bin Schwierigkeiten eliminiert und eine tokenisierung .text-Datei mit nltk. Ich erhalte immer folgende Fehlermeldung: AttributeError: 'list' - Objekt hat kein Attribut 'unteren'. Ich kann einfach nicht herausfinden, was ich falsch mache, obwohl es mein erstes mal

Macht PL/SQL wird eine äquivalente Java-StringTokenizer?

Anzahl der Antworten 4 Antworten
Verwende ich java.util.StringTokenizer für einfache Analyse der getrennten Zeichenfolgen in java. Ich habe ein Bedürfnis für die gleiche Art von Mechanismus in pl/sql. Ich könnte es schreiben, aber wenn es schon vorhanden ist, würde ich lieber die

Split string und iterieren für jeden Wert in einer gespeicherten Prozedur

Anzahl der Antworten 2 Antworten
Habe ich eine Anforderung, die in Oracle, wo ich haben, um einen Komma-separierten string von Land-codes zu einer in Oracle gespeicherten Prozedur. Innerhalb einer gespeicherten Prozedur möchte ich split den string auf Komma und die Iteration für

Split-Spalte, um mehrere Zeilen

Anzahl der Antworten 4 Antworten
Ich habe Tabelle mit einer Spalte, die mehrere Werte enthält, getrennt durch Komma (,) und möchte es teilen, so bekomme ich uche Website auf seiner eigenen Zeile, aber mit der gleichen Anzahl vor. Also meine wählen würde,

Die tokenisierung, entfernen von stop-Wörter, die mit Lucene mit Java

Anzahl der Antworten 2 Antworten
Ich versuche, die tokenisierung und entfernen von stop-Wörter aus einer txt-Datei mit Lucene. Ich habe diese: public String removeStopWords(String string) throws IOException { Set<String> stopWords = new HashSet<String>(); stopWords.add("a"); stopWords.add("an"); stopWords.add("I"); stopWords.add("the"); TokenStream tokenStream = new StandardTokenizer(Version.LUCENE_43,

Die tokenisierung problem in Java mit Trennzeichen “. "

Anzahl der Antworten 4 Antworten
Muss ich split einen text mit dem Trennzeichen ". ". Zum Beispiel möchte ich diesen string : Washington is the U.S Capital. Barack is living there. Werden in zwei Teile geschnitten: Washington is the U.S Capital. Barack

strsep() Verwendung und seine alternative

Anzahl der Antworten 3 Antworten
#include <stdio.h> #include <string.h> int main() { char *slogan = "together{kaliya} [namak]"; char *slow_gun = strdup(slogan); char *token = strsep(&slow_gun, "{"); printf ("\n slow_gun: %s\n token: %s\n", slow_gun, token); return 0; } wenn ich es ausführen: $

Mit Boost-Tokenizer escaped_list_separator mit verschiedenen Parametern

Anzahl der Antworten 3 Antworten
Hallo, ich wurde versuchen, einen tokenizer, um die Arbeit mit der boost-tokenizer-library-Klasse. Ich habe dieses tutorial auf die boost-Dokumentation: http://www.boost.org/doc/libs/1 _36 _0/libs/tokenizer/_list entkommen _separator.htm problem ist ich kann nicht das argument zu entkommen _list _separator("","",""); aber wenn

Wie kann ich die split ein Wort, die Buchstaben in ein Array in C#?

Anzahl der Antworten 6 Antworten
Wie kann ich die split einen string in ein array von Zeichen in C#? Beispiel String Wort ist "Roboter". Sollte das Programm ausdrucken: r o b o t Den orginal-code-snippet: using System; using System.Collections.Generic; using System.Linq; using

Hinzufügen mehrwertigen Feld zu einem SolrInputDocument

Anzahl der Antworten 4 Antworten
Sind wir mit einem Embedded solr-Instanz für Java SolrJ. Möchte ich hinzufügen, dass ein mehrwertiges Feld zu einem Dokument. Das mehrwertige Feld ist ein Koma getrennte Zeichenkette. In Java, die ich tun will: solrInputDocument.addField(Field1, "value1,value2,value3"); Die definition

Tokenisierung von strings mit regulären Ausdruck in Javascript

Anzahl der Antworten 6 Antworten
Angenommen, ich habe einen langen string mit Zeilenumbrüchen und Tabulatoren als: var x = "This is a long string.\n\t This is another one on next line."; Also, wie können wir teilen diesen string in-Token mittels regulärer Ausdruck?

Parsing-pipe-delimited-Zeichenfolge in den Spalten?

Anzahl der Antworten 3 Antworten
Ich habe eine Spalte mit pipe getrennt Werte wie: '23/12.1| 450/30/9/78/82.5/92.1/120/185/52/11' Möchte ich analysieren, diese Spalte zu füllen eine Tabelle mit 12 entsprechenden Spalten: month1, month2, month3...month12. So month1 haben den Wert 23, Monat 2 der Wert