Tag: stop-words

Stopp-Wörter sind Wörter, die herausgefiltert werden, die vor (oder nach) der Verarbeitung natürlicher Sprache, Daten.

hinzufügen von benutzerdefinierten stop-Wörter, die mit lucene in java

1 Antworten

Ich bin mit lucene zu entfernen englische Stopp-Wörter, aber meine Anforderung ist, entfernen Sie englische Stopp-Wörter und Benutzerdefinierte Stopp-Wörter. Unten ist mein code zum entfernen englische Stopp-Wörter, die mit lucene. Mein Beispiel-Code: public class Stopwords_remove { public

Kleinbuchstaben stop-Wörter in NLTK und speichern Sie die stop-Wörter in der Liste

1 Antworten

Meine lieben Freunde, ich würde gerne wissen, wie kann ich den Kleinbuchstaben der Stopp-Wörter in NLTK in einer Liste an namens-Token import nltk from nltk.corpus import stopwords tokens= ['TOWING', 'VESSEL', 'XXXX', 'XXXX', 'XXXX', 'WAS', 'FACING', 'UP', 'TO',

nltk python stop-words

Solr kann nicht finden die Ressource stopwords_en.txt

5 Antworten

Ich versuche, setup-Solr 3.6.0 mit Django-haystack Beta 2.0.0. Nach dem ausführen ./manage.py build_solr_schema und verschieben schema.xml um das conf-Verzeichnis, bei einem Besuch in http://localhost:8983/solr/admin, erhalte ich eine Fehlermeldung, genau wie die, die eine produziert in dieser thread.

django django-haystack solr stop-words

Entfernen Von Stoppwörtern [Java]

3 Antworten

Ich habe geschrieben eine Methode, die in einem String und es aufgeteilt, so dass Sie können entfernen Sie die stop-Wort innerhalb der Zeichenfolge. Ich habe eine pre-made-Array voll von Stop-Wörter, die überprüfen Sie die Zeichenfolge, und wenn

arraylist arrays java loops stop-words

Entfernen von Stop-Wörter aus NLTK

1 Antworten

Ich versuche zu Lesen ein text-Datei (foo1.txt), entfernen Sie alle nltk definierten Stoppwörter und schreiben in eine andere Datei (foo2.txt). Code ist wie folgt: Erforderlich importieren: from nltk.corpus import Stoppwörter def stop_words_removal(): with open("foo1.txt") as f: reading_file_line

nltk python stop-words

Wie man eine Liste von Stoppwörtern in meinem FullText Catalog?

2 Antworten

Ist es ein Weg, um die Stoppwort-Liste, dass mein SQL Server 2008-FullText Catalog ist mit? Und verwenden Sie es, in meinem C# - codebehind? Möchte ich es in einer ASP.NET Seite, die ich verwenden, um Ihre Suchbegriffe

.net c#full-text-search sql-server stop-words

Solr Stoppwörter Magie

1 Antworten

Meine Stoppwörter nicht wie erwartet funktioniert. Hier ist ein Teil von meinem schema: <fieldType name="text_general" class="solr.TextField"> <analyzer type="index"> <tokenizer class="solr.KeywordTokenizerFactory"/> <filter class="solr.StopFilterFactory" ignoreCase="true" words="stopwords.txt" enablePositionIncrements="true"/> <filter class="solr.LowerCaseFilterFactory"/> </analyzer> <analyzer type="query"> <tokenizer class="solr.KeywordTokenizerFactory"/> <filter class="solr.StopFilterFactory" ignoreCase="true" words="stopwords.txt" enablePositionIncrements="true"/>

lucene search solr solr4 stop-words

Relevante Tags/Schlüsselwörter aus dem Text block

4 Antworten

Wollte ich eine bestimmte Implementierung, so dass der Benutzer einen block von text ein: "Anforderungen - Kenntnisse, LAMP-Umgebung mit Linux, Apache 2, MySQL 5 und PHP 5, - Kenntnisse von Web 2.0-Standards - Wohl mit JSON -

javascript php stop-words tags

ignorieren mysql-fulltext stopwords in der Abfrage

6 Antworten

Baue ich eine Suche für eine Website, die nutzt die Volltextsuche. Die Suche an sich funktioniert Super, das ist nicht mein problem. Ich string zusammen Nutzer zur Verfügung gestellten keywords (MATCH... AGAINST...) mit UND ist so, dass

full-text-search mysql stop-words

Entfernen von Stoppwörtern aus einem String in Java

10 Antworten

Ich habe einen string mit vielen Worten, und ich habe eine text-Datei, die enthält einige Stoppwörter, die ich brauche, um von meinem String. Sagen wir, ich habe einen String s="I love this phone, its super fast and

java stop-words string

AttributeError: 'list' - Objekt hat kein Attribut 'split' wenn ich versuche zu splitten einer Zeile aus csv-Datei

1 Antworten

Ich habe eine csv-Datei mit 10 Zeilen text in einer Spalte. Für jede Zeile, ich würde gerne entfernen der Stoppwörter und wieder die gleiche csv-Datei nur minus Stoppwörter. Dies ist mein code: def remove_stopwords(filename): new_text_list= cr =

csv nltk python split stop-words

R tm removeWords Stoppwörtern ist nicht das entfernen von Stoppwörtern

1 Antworten

Ich bin mit dem R tm Paket, und finden, dass fast keines der tm_map Funktionen zu entfernen, die Elemente des Textes werden für mich arbeiten. Durch "arbeiten" meine ich zum Beispiel, werde ich ausführen: d <- tm_map(d,

nlp r stop-words tm

Wie zu entfernen stop-Wörter in java?

6 Antworten

Möchte ich entfernen stop-Wörter in java. So, ich lese Stoppwörter aus text-Datei. und speichern Set<String> stopWords = new LinkedHashSet<String>(); BufferedReader br = new BufferedReader(new FileReader("stopwords.txt")); String words = null; while( (words = br.readLine()) != null) { stopWords.add(words.trim());

java stop-words

Loswerden von stop-Wörter und Dokument tokenisierung mit NLTK

3 Antworten

Ich bin Schwierigkeiten eliminiert und eine tokenisierung .text-Datei mit nltk. Ich erhalte immer folgende Fehlermeldung: AttributeError: 'list' - Objekt hat kein Attribut 'unteren'. Ich kann einfach nicht herausfinden, was ich falsch mache, obwohl es mein erstes mal

nltk stop-words tokenize

Stop-Wörter und stemmer in java

3 Antworten

Ich ' m denken setzen eine stop-Wörter in meine ähnlichkeit Programm und dann ein stemmer (für Gepäckträger 1 oder 2 hängt davon ab, was am einfachsten zu implementieren) Wunderte ich mich, seit ich Lesen meinen text aus

java nlp porter-stemmer stop-words

Die tokenisierung, entfernen von stop-Wörter, die mit Lucene mit Java

2 Antworten

Ich versuche, die tokenisierung und entfernen von stop-Wörter aus einer txt-Datei mit Lucene. Ich habe diese: public String removeStopWords(String string) throws IOException { Set<String> stopWords = new HashSet<String>(); stopWords.add("a"); stopWords.add("an"); stopWords.add("I"); stopWords.add("the"); TokenStream tokenStream = new StandardTokenizer(Version.LUCENE_43,

java lucene nlp stop-words tokenize

Java Arraylist entfernen Sie mehrere element-index

6 Antworten

Hier ist mein code: for (int i = 0; i < myarraylist.size(); i++) { for (int j = 0; j < stopwords.size(); j++) { if (stopwords.get(j).equals(myarraylist.get(i))) { myarraylist.remove(i); id.remove(i); i--; //to look at the same index again!

android arraylist java stop-words

R entfernen von Stoppwörtern aus einem character-Vektor mit %in%

2 Antworten

Habe ich einen Daten-frame mit strings, die ich hatte, wie zu entfernen stop-Wörter aus. Ich versuche zu vermeiden, mit den tm - Paket, wie es ist ein großer Datensatz und tm scheint zu laufen ein bisschen zu

nlp r stop-words subset tm

Hinzufügen von Wörtern zu nltk Stoppliste

8 Antworten

Ich habe einige code, der entfernt Stoppwörter aus meinen Daten eingestellt werden, da die stop-Liste scheint nicht zu entfernen einen Großteil der Worte, ich möchte es auch, ich bin auf der Suche, um Wörter hinzuzufügen, die auf

nltk python stop-words

Loswerden von Stoppwörtern und Satzzeichen

2 Antworten

Bin ich zu kämpfen mit NLTK stoppwort. Hier ist mein code.. Könnte mir jemand sagen was falsch ist? from nltk.corpus import stopwords def removeStopwords( palabras ): return [ word for word in palabras if word not in

nltk python stop-words

hinzufügen von Wörtern zu stop_words Liste in TfidfVectorizer in sklearn

2 Antworten

Möchte ich hinzufügen, ein paar mehr Worte zu stop_words in TfidfVectorizer. Ich habe die Lösung in Hinzufügen von Wörtern zu scikit-learn ist CountVectorizer stop-Liste . Meine stop-word-Liste enthält nun sowohl "Englisch" stop-Wörter und die stop-Wörter, die ich

classification python scikit-learn stop-words text-classification

Volltext-Suche funktioniert nicht, wenn die stop-Wort enthalten ist, obwohl stop-word-Liste ist leer

3 Antworten

Ich würde gerne in der Lage sein zu suchen, jedes Wort so ich habe deaktiviert die stop-word-Liste. Als ich neu aufgesetzt habe, den index. Aber leider, wenn ich geben Sie einen Ausdruck suchen, mit stop-Wort in es

full-text-search sql-server sql-server-2012-express stop-words

Hinzufügen von eigenen Stoppwörtern in R tm

5 Antworten

Ich haben einen Korpus in R mit der tm Paket. Ich bin die Anwendung der removeWords Funktion, um Stoppwörter zu entfernen tm_map(abs, removeWords, stopwords("english")) Gibt es eine Möglichkeit, eigene benutzerdefinierte Stopp-Wörter zu dieser Liste? InformationsquelleAutor Brian Vanover

corpus r stop-words text-mining tm

So entfernen Sie die Liste von Wörtern aus einer Liste von strings

4 Antworten

Sorry, wenn die Frage ist etwas verwirrend. Dies ist ähnlich zu diese Frage Ich denke, das die oben genannten Frage ist in der Nähe, was ich will, aber in Clojure. Es ist ein weiteres Frage Ich brauche

list-comprehension python regex stop-words

Hinzufügen/entfernen von stop-Wörter mit spacigen

4 Antworten

Was ist der beste Weg, um entfernen/hinzufügen von Stopp-Wörtern mit spacigen? Ich bin mit token.is_stop Funktion und möchte einige benutzerdefinierte änderungen an den set. Ich war auf der Suche in die Dokumentation, aber konnte nichts finden bezüglich

nlp python spacy stop-words

NLTK Stoppwort-Liste

1 Antworten

Ich habe den code unter, und ich bin versucht, ein stop-word-Liste, um die Liste der Wörter. Doch die Ergebnisse zeigen noch Wörter wie "ein" und "die", die ich dachte gewesen wäre, entfernt von diesem Prozess. Irgendwelche Ideen,

nltk python stop-words

Hinzufügen von Wörtern zu scikit-learn ist CountVectorizer stop-Liste

1 Antworten

Scikit-learn ist CountVectorizer - Klasse können Sie eine Zeichenfolge übergeben 'Deutsch' auf das argument stop_words. Ich möchte einige Dinge hinzufügen, um diese vordefinierten Liste. Kann mir jemand sagen, wie dies zu tun? InformationsquelleAutor der Frage panterasBox |

python scikit-learn stop-words

NLTK und Stoppwörter schlagen fehl #lookuperror

4 Antworten

Ich versuche ein Projekt zu starten, der sentiment-Analyse und ich werde mit der Stopp-Wörter-Methode. Ich einige der Forschung, und ich fand, dass nltk haben Stoppwörter, aber wenn ich den Befehl ausführen ist ein Fehler aufgetreten. Was ich

nltk python sentiment-analysis stop-words

Schnellere Möglichkeit, Stoppwörter in Python zu entfernen

3 Antworten

Ich versuche zu entfernen Stoppwörter aus einem text: from nltk.corpus import stopwords text = 'hello bye the the hi' text = ' '.join([word for word in text.split() if word not in (stopwords.words('english'))]) Ich bin-Bearbeitung 6 mil von

python regex stop-words

"Stoppwörter" -Liste für Englisch?

6 Antworten

Ich bin die Generierung einige Statistiken, die für manche englischen text, und ich würde gerne überspringen uninteressant Wörter wie "ein" und "die". Wo finde ich einige Listen dieser uninteressant Worte? Ist eine Liste der Wörter, die das

filtering indexing language-agnostic nlp stop-words

Wie man Stoppwörter mit Nltk oder Python entfernt

7 Antworten

Also ich habe ein dataset, das würde ich gerne entfernen stop-Wörter, die aus der Verwendung stopwords.words('english') Ich bin zu kämpfen, wie verwenden Sie diese in meinem code einfach nehmen Sie einfach diesen Worten. Ich habe die Liste

nltk python stop-words

Was ist die Standardliste der Stoppwörter in Lucenes StopFilter?

1 Antworten

Lucene haben eine Standard-stopfilter (http://lucene.apache.org/core/4_0_0/analyzers-common/org/apache/lucene/analysis/core/StopFilter.html), wer weiß, welche Wörter in der Liste? InformationsquelleAutor der Frage alvas | 2013-07-08

apache information-retrieval java lucene stop-words

Stoppwort-Entfernung mit NLTK

5 Antworten

Ich versuche zu verarbeiten, die ein Benutzer eingegebenen text durch entfernen von Stoppwörtern mit nltk-toolkit, aber mit stoppwort-Entfernung der Wörter wie 'und', 'oder', 'nicht' wieder entfernt werden. Ich möchte diese Worte werden nach stopword Entfernung Prozess, wie

nlp nltk python stop-words

Tokenizer, Stop Word Removal, Stemming in Java

4 Antworten

Ich bin auf der Suche nach einer Klasse oder Methode, die dauert eine lange Zeichenfolge von vielen 100En von Worten und tokenizes, entfernt die stop-Wörter und Stämme für die Verwendung in einem IR-system. Beispiel: "The big fat

java stemming stop-words tokenize

SQL 2008: Deaktivieren Sie Stoppwörter für die Volltextsuche

3 Antworten

Ich bin mit Recht ein wenig Mühe, eine gute Lösung für dieses: Sagen wir ich habe eine Tabelle "Firma" mit einer Spalte namens "Name". Ich habe einen full-text-Katalog für diese Spalte. Wenn ein Benutzer durchsucht, die für

full-text-search sql-server-2008 stop-words