Tag: tokenize
Tokenisierung ist die Handlung, mit der das aufteilen einer Zeichenkette in einzelne Elemente, genannt Token.
1
Antworten
Was ich tun möchte, ist die Aufteilung von text in seine endgültige Elemente. Beispiel: from nltk.tokenize import * txt = "A sample sentences with digits like 2.119,99 or 2,99 are awesome." regexp_tokenize(txt, pattern='(?:(?!\d)\w)+|\S+') ['A','sample','sentences','with','digits','like','2.199,99','or','2,99','are','awesome','.'] Können Sie sehen,
3
Antworten
Suche nach Namen(text) mit Leerzeichen, verursacht problem für mich, Ich habe das mapping ähnlich wie "{"user":{"properties":{"name":{"type":"string"}}}}" Ideal, was es zurückgeben sollte, und Rang die Ergebnisse wie folgt 1) Bring on top names that exact match the search
1
Antworten
Ich habe einige Artikel in meinem index (Solr. 4.4), die enthalten Namen wie Foobar 135g, wo die 135g bezieht sich auf einige GEWICHTE. Suche für foobar oder foobar 135 funktioniert, aber wenn ich versuche, die Suche nach
1
Antworten
Ich bin mit pySpark zu zählen, Elemente in eine Token-RDD. Dies ist eines der Elemente: ('b00004tkvy', ['noah', 'ark', 'activity', 'center', 'jewel', 'case', 'ages', '3', '8', 'victory', 'multimedia']) Muss ich die Anzahl der Elemente in der voll RDD.
2
Antworten
Muss ich aufteilen einer Zeichenfolge extrahieren und Wörter getrennt durch Leerzeichen.Die Quelle kann in Englisch oder Japanisch. Englisch whitespace-Zeichen sind tab und space, und der japanische text verwendet, auch diese. (Wenn ich mich Recht erinnere, in allen
4
Antworten
Dies ist eine einfache Hausaufgabe, das hat mich verrückt wurde für die letzten paar Tage. Wenn ich ein paar Arrays, die ich getan haben könnte es eine Weile her, aber mit der StringTokenizer macht mich verrückt. Das
5
Antworten
So etwas wie dieses: print(get_indentation_level()) print(get_indentation_level()) print(get_indentation_level()) Ich würde gerne so etwas wie dieses: 1 2 3 Kann den code Lesen, sich in dieser Weise? Alles was ich will ist die Ausgabe von mehr geschachtelte code-Teile mehr
3
Antworten
Ich bin mit strtok() in c zu Parsen einer csv-string. Zuerst habe ich die tokenisierung es zu finden Sie einfach heraus, wie viele Zeichen gibt es, damit ich reservieren kann, eine Zeichenfolge in der richtigen Größe. Dann
4
Antworten
Ich versuche zu lernen, selbst einige C++ von Grund auf im moment. Ich bin gut bewandert in python, perl, javascript, sondern habe nur festgestellt C++ - kurz, in einem Klassenzimmer in der Vergangenheit. Bitte entschuldigt die Naivität
1
Antworten
Sollte ein leichtes für Euch..... Ich bin Herumspielen mit tokenizer mit Boost und ich möchten, erstellen Sie ein token, getrennt durch ein Komma. hier ist mein code: string s = "this is, , , a test"; boost::char_delimiters_separator<char>
5
Antworten
Für argument Willen vermuten lässt, ein HTML-parser. Habe ich gelesen, dass es tokenizes zuerst alles, und dann analysiert es. Was bedeutet die tokenisierung bedeuten? Funktioniert der parser Lesen jedem Charakter jeden, den Aufbau einer multi-dimensionalen Arrays um
4
Antworten
In Solr (3.3), ist es möglich, ein Feld Brief-by-Brief suchbar durch eine EdgeNGramFilterFactory und auch empfindlich auf Satz Abfragen? Durch Beispiel, ich bin auf der Suche nach einem Feld, dass, wenn mit "contrat informatique", wird gefunden, wenn
1
Antworten
Bekam ich eine tab-getrennte Datei, die ich aufteilen will durch Tabulatoren und Zeilenumbrüche, wo eine Registerkarte repräsentiert das Trennzeichen zwischen Feldern und einem newline stellt ein neues Objekt erzeugt werden soll. Die Datei kann wie folgt Aussehen:
2
Antworten
Wie teilt man die angegebene Zeichenfolge für die angegebene Trennzeichen. Ex: EINGANG String => '1,2,3,4,5' Delimiter => ',' AUSGABE 1 2 3 4 5 InformationsquelleAutor Keshan Fernando | 2015-09-03
4
Antworten
Ich versuche die tokenisierung strings in ngrams. Seltsam in der Dokumentation für die NGramTokenizer ich nicht sehen, eine Methode, mit der Rückkehr die individuelle ngrams wurden gesplittet. In der Tat sehe ich nur zwei Methoden in der
5
Antworten
Ich möchte in der Lage sein, um split csv-Zeichenfolgen in Oracle 9i Habe ich folgende Artikel Lesen http://www.oappssurd.com/2009/03/string-split-in-oracle.html Aber ich Verstand nicht, wie diese Arbeit zu machen. Hier sind einige meiner Fragen, die es betreffen Würde diese
4
Antworten
Habe ich ein index wie im folgenden beschriebenen Einstellungen und-mapping; { "settings":{ "index":{ "analysis":{ "analyzer":{ "analyzer_keyword":{ "tokenizer":"keyword", "filter":"lowercase" } } } } }, "mappings":{ "product":{ "properties":{ "name":{ "analyzer":"analyzer_keyword", "type":"string", "index": "not_analyzed" } } } } } Ich
2
Antworten
Habe ich eine getrennte Strings (durch Leerzeichen getrennt in meinem Beispiel unten), ich brauche für die tokenisierung, Sortieren, und dann kommen Sie wieder zusammen und ich brauche, um all dies zu tun unter Verwendung von XSLT 1.0.
6
Antworten
Ich brauche einen tokenizer, dass, gegeben eine Zeichenkette mit beliebigen Leerzeichen zwischen Worten erstellen Sie ein array von Wörtern, ohne leere sub-strings. Beispiel ein string: " I dont know what you mean by glory Alice said." Benutze
3
Antworten
Ich habe eine Zelle, die Liste von Zeichenfolgen wie diese: cellArr = 'folderName_fileName_no.jpg', 'folderName2_fileName2_no2.jpg' Ich will es so {folderName, fileName, no}, {folderName2, fileName2, no2} Wie es in matlab? Ich weiß, dass ich verwenden können, regexp(cellArr, '_', 'split'),
11
Antworten
Möchte ich die tokenisierung ein string wie dieser String line = "a=b c='123 456' d=777 e='uij yyy'"; Ich kann nicht split-basiert wie dieser String words = line.split(" "); Irgendeine Idee, wie kann ich zu teilen, so
6
Antworten
Ich denke über den tokenizer hier. Jeder token ruft eine andere Funktion innerhalb des parsers. Was ist effizienter: Eine Karte von std::Funktionen/boost::Funktionen Ein switch case InformationsquelleAutor the_drow | 2009-05-31
4
Antworten
Ich bin auf der Suche nach einem Weg, um zu analysieren /die tokenisierung SQL-Anweisung innerhalb einer Node.js Anwendung, um: Tokenisierung alle die "basics" SQL-Schlüsselwörter definiert, die in der ISO/IEC 9075 standard-oder hier. Validieren der SQL-syntax. Finden Sie
1
Antworten
Ich bin neu auf Solr. Durch das Lesen Solr wiki, ich verstehe nicht die Unterschiede zwischen WhitespaceTokenizerFactory und StandardTokenizerFactory. Was ist Ihr Unterschied? InformationsquelleAutor trillions | 2012-06-25
5
Antworten
Wie kann ich ein Paket, dass Ergebnisse, die in Tabelle format bestanden, wenn in der csv-Werte. select * from table(schema.mypackage.myfunction('one, two, three')) zurückkehren sollte one two three Habe ich versucht, etwas von Fragen tom aber das funktioniert
13
Antworten
Ich weiß, das beantwortet bis zu einem gewissen Grad mit PHP und MYSQL, aber ich Frage mich, wenn jemand mir beibringen könnte die einfachste Vorgehensweise zum aufteilen einer Zeichenfolge (kommagetrennt) in mehrere Zeilen in Oracle 10g (vorzugsweise)
4
Antworten
Habe ich boost::tokenizer, und ich habe festgestellt, dass die Dokumentation ist sehr Dünn. Ist es möglich zu machen, die tokenisierung ein string wie "dolphin--Affe--Pavian" und jedes Wort ein token, sowie jedes double dash token? Aus den Beispielen
2
Antworten
mache ich tokenisierung eine text-Datei in java. Ich möchte zum Lesen einer Eingabedatei, die tokenisierung und schreiben einen bestimmten Charakter, der wurde gesplittet in eine Ausgabedatei. Dies ist, was ich bisher getan habe: Paket org.apache.lucene.Analyse; import
4
Antworten
Wie Sie die tokenisierung, wenn Sie das Lesen aus einer Datei in C? Textdatei: PES 2009;Konami;DVD 3;500.25; 6 Assasins Creed, Ubisoft;DVD;598.25; 3 Inferno;EA;DVD 2;650.25; 7 char *tokenPtr; fileT = fopen("DATA2.txt", "r"); /* this will not work */
1
Antworten
Ich habe ein script, welches verwendet robocopy um Dateien zu übertragen und schreiben von logs in eine Datei "Logfile.txt" danach habe ich Parsen der Datei "LogFile.txt" weiter und überfliegen Sie die erforderlichen Daten ein, und schreiben Sie
2
Antworten
Mithilfe von XSL 1.0, fand ich ein nettes tokenisierung Funktion. Jetzt muss ich für jede über die daraus resultierenden Token. Ich bin ganz neu XSL. Dem php-äquivalent, was ich brauche: $in = 'a,b,c,d'; $tokens = explode (',',
30
Antworten
Java hat eine praktische split-Methode: String str = "The quick brown fox"; String results = str.split(" "); Gibt es eine einfache Möglichkeit in C++? Ich kann nicht glauben, dass diese routine-Aufgabe ist, solche Situationen in c++ Seine
1
Antworten
Ich bin ganz neu bei python. Ich bin versucht zu finden, Frequenz-Distributionen von meinem text. Hier ist der code, import nltk nltk.download() import os os.getcwd() text_file=open(r"ecelebi\1.txt","r") p = text_file.read() words = nltk.tokenize.word_tokenize(p) fdist= FreqDist(words) print(fdist) Das problem
1
Antworten
Habe ich eine Anforderung für die tokenisierung ein string in pl/sql und zurück nur einen einzigartigen Token. Ich habe schon Beispiele gesehen, wird die tokenisierung der Zeichenfolge, aber keine zurückgeben, einzigartige Token. Beispielsweise die Abfrage - select
2
Antworten
Ich würde gerne split einen String in tokens auf, die gespeichert sind in ein array. Jedoch glaube ich nicht glaube ich bin in der Lage, Trennzeichen als die Zeichenfolgen-information ist nicht getrennt von einem bestimmten Satz von
4
Antworten
Alle, Habe ich eine log-Datei mit dem unten gezeigten Inhalt. Request from Centercord. 2010-12-14 12:42:13.724 [ 6796] **************************** 2010-12-14 12:42:13.724 [ 6796] 1111111111111111 2010-12-14 12:42:13.724 [ 6796]22222222222 Response from Centercord. 2010-12-14 12:42:21.802 [ 5960] 11111111111111 2010-12-14 12:42:21.802
3
Antworten
Ich habe rund 100 Zeilen text, die ich will für die tokenisierung, die gleich sind die folgenden: <word> <unknown number of spaces and tabs> <number> Ich habe Probleme bei der Suche die tokenisierung-Funktionen mit VBA. Was wäre
2
Antworten
Ich versuche zu schaffen, einen Lucene 4.10-index. Ich will einfach nur, um in den index die exakte Zeichenfolgen, die ich in das Dokument, ohne die tokenisierung. Ich bin mit dem StandardAnalyzer. Directory dir = FSDirectory.open(new File("myDire")); Analyzer
3
Antworten
Ich bin Schwierigkeiten eliminiert und eine tokenisierung .text-Datei mit nltk. Ich erhalte immer folgende Fehlermeldung: AttributeError: 'list' - Objekt hat kein Attribut 'unteren'. Ich kann einfach nicht herausfinden, was ich falsch mache, obwohl es mein erstes mal
4
Antworten
Verwende ich java.util.StringTokenizer für einfache Analyse der getrennten Zeichenfolgen in java. Ich habe ein Bedürfnis für die gleiche Art von Mechanismus in pl/sql. Ich könnte es schreiben, aber wenn es schon vorhanden ist, würde ich lieber die
2
Antworten
Habe ich eine Anforderung, die in Oracle, wo ich haben, um einen Komma-separierten string von Land-codes zu einer in Oracle gespeicherten Prozedur. Innerhalb einer gespeicherten Prozedur möchte ich split den string auf Komma und die Iteration für
4
Antworten
Ich habe Tabelle mit einer Spalte, die mehrere Werte enthält, getrennt durch Komma (,) und möchte es teilen, so bekomme ich uche Website auf seiner eigenen Zeile, aber mit der gleichen Anzahl vor. Also meine wählen würde,
2
Antworten
Ich versuche, die tokenisierung und entfernen von stop-Wörter aus einer txt-Datei mit Lucene. Ich habe diese: public String removeStopWords(String string) throws IOException { Set<String> stopWords = new HashSet<String>(); stopWords.add("a"); stopWords.add("an"); stopWords.add("I"); stopWords.add("the"); TokenStream tokenStream = new StandardTokenizer(Version.LUCENE_43,
4
Antworten
Muss ich split einen text mit dem Trennzeichen ". ". Zum Beispiel möchte ich diesen string : Washington is the U.S Capital. Barack is living there. Werden in zwei Teile geschnitten: Washington is the U.S Capital. Barack
3
Antworten
#include <stdio.h> #include <string.h> int main() { char *slogan = "together{kaliya} [namak]"; char *slow_gun = strdup(slogan); char *token = strsep(&slow_gun, "{"); printf ("\n slow_gun: %s\n token: %s\n", slow_gun, token); return 0; } wenn ich es ausführen: $
3
Antworten
Hallo, ich wurde versuchen, einen tokenizer, um die Arbeit mit der boost-tokenizer-library-Klasse. Ich habe dieses tutorial auf die boost-Dokumentation: http://www.boost.org/doc/libs/1 _36 _0/libs/tokenizer/_list entkommen _separator.htm problem ist ich kann nicht das argument zu entkommen _list _separator("","",""); aber wenn
6
Antworten
Wie kann ich die split einen string in ein array von Zeichen in C#? Beispiel String Wort ist "Roboter". Sollte das Programm ausdrucken: r o b o t Den orginal-code-snippet: using System; using System.Collections.Generic; using System.Linq; using
4
Antworten
Sind wir mit einem Embedded solr-Instanz für Java SolrJ. Möchte ich hinzufügen, dass ein mehrwertiges Feld zu einem Dokument. Das mehrwertige Feld ist ein Koma getrennte Zeichenkette. In Java, die ich tun will: solrInputDocument.addField(Field1, "value1,value2,value3"); Die definition
6
Antworten
Angenommen, ich habe einen langen string mit Zeilenumbrüchen und Tabulatoren als: var x = "This is a long string.\n\t This is another one on next line."; Also, wie können wir teilen diesen string in-Token mittels regulärer Ausdruck?
3
Antworten
Ich habe eine Spalte mit pipe getrennt Werte wie: '23/12.1| 450/30/9/78/82.5/92.1/120/185/52/11' Möchte ich analysieren, diese Spalte zu füllen eine Tabelle mit 12 entsprechenden Spalten: month1, month2, month3...month12. So month1 haben den Wert 23, Monat 2 der Wert