Tag: stop-words

Stopp-Wörter sind Wörter, die herausgefiltert werden, die vor (oder nach) der Verarbeitung natürlicher Sprache, Daten.

hinzufügen von benutzerdefinierten stop-Wörter, die mit lucene in java

Anzahl der Antworten 1 Antworten
Ich bin mit lucene zu entfernen englische Stopp-Wörter, aber meine Anforderung ist, entfernen Sie englische Stopp-Wörter und Benutzerdefinierte Stopp-Wörter. Unten ist mein code zum entfernen englische Stopp-Wörter, die mit lucene. Mein Beispiel-Code: public class Stopwords_remove { public

Kleinbuchstaben stop-Wörter in NLTK und speichern Sie die stop-Wörter in der Liste

Anzahl der Antworten 1 Antworten
Meine lieben Freunde, ich würde gerne wissen, wie kann ich den Kleinbuchstaben der Stopp-Wörter in NLTK in einer Liste an namens-Token import nltk from nltk.corpus import stopwords tokens= ['TOWING', 'VESSEL', 'XXXX', 'XXXX', 'XXXX', 'WAS', 'FACING', 'UP', 'TO',

Solr kann nicht finden die Ressource stopwords_en.txt

Anzahl der Antworten 5 Antworten
Ich versuche, setup-Solr 3.6.0 mit Django-haystack Beta 2.0.0. Nach dem ausführen ./manage.py build_solr_schema und verschieben schema.xml um das conf-Verzeichnis, bei einem Besuch in http://localhost:8983/solr/admin, erhalte ich eine Fehlermeldung, genau wie die, die eine produziert in dieser thread.

Entfernen Von Stoppwörtern [Java]

Anzahl der Antworten 3 Antworten
Ich habe geschrieben eine Methode, die in einem String und es aufgeteilt, so dass Sie können entfernen Sie die stop-Wort innerhalb der Zeichenfolge. Ich habe eine pre-made-Array voll von Stop-Wörter, die überprüfen Sie die Zeichenfolge, und wenn

Entfernen von Stop-Wörter aus NLTK

Anzahl der Antworten 1 Antworten
Ich versuche zu Lesen ein text-Datei (foo1.txt), entfernen Sie alle nltk definierten Stoppwörter und schreiben in eine andere Datei (foo2.txt). Code ist wie folgt: Erforderlich importieren: from nltk.corpus import Stoppwörter def stop_words_removal(): with open("foo1.txt") as f: reading_file_line

Wie man eine Liste von Stoppwörtern in meinem FullText Catalog?

Anzahl der Antworten 2 Antworten
Ist es ein Weg, um die Stoppwort-Liste, dass mein SQL Server 2008-FullText Catalog ist mit? Und verwenden Sie es, in meinem C# - codebehind? Möchte ich es in einer ASP.NET Seite, die ich verwenden, um Ihre Suchbegriffe

Solr Stoppwörter Magie

Anzahl der Antworten 1 Antworten
Meine Stoppwörter nicht wie erwartet funktioniert. Hier ist ein Teil von meinem schema: <fieldType name="text_general" class="solr.TextField"> <analyzer type="index"> <tokenizer class="solr.KeywordTokenizerFactory"/> <filter class="solr.StopFilterFactory" ignoreCase="true" words="stopwords.txt" enablePositionIncrements="true"/> <filter class="solr.LowerCaseFilterFactory"/> </analyzer> <analyzer type="query"> <tokenizer class="solr.KeywordTokenizerFactory"/> <filter class="solr.StopFilterFactory" ignoreCase="true" words="stopwords.txt" enablePositionIncrements="true"/>

Relevante Tags/Schlüsselwörter aus dem Text block

Anzahl der Antworten 4 Antworten
Wollte ich eine bestimmte Implementierung, so dass der Benutzer einen block von text ein: "Anforderungen - Kenntnisse, LAMP-Umgebung mit Linux, Apache 2, MySQL 5 und PHP 5, - Kenntnisse von Web 2.0-Standards - Wohl mit JSON -

ignorieren mysql-fulltext stopwords in der Abfrage

Anzahl der Antworten 6 Antworten
Baue ich eine Suche für eine Website, die nutzt die Volltextsuche. Die Suche an sich funktioniert Super, das ist nicht mein problem. Ich string zusammen Nutzer zur Verfügung gestellten keywords (MATCH... AGAINST...) mit UND ist so, dass

Entfernen von Stoppwörtern aus einem String in Java

Anzahl der Antworten 10 Antworten
Ich habe einen string mit vielen Worten, und ich habe eine text-Datei, die enthält einige Stoppwörter, die ich brauche, um von meinem String. Sagen wir, ich habe einen String s="I love this phone, its super fast and

AttributeError: 'list' - Objekt hat kein Attribut 'split' wenn ich versuche zu splitten einer Zeile aus csv-Datei

Anzahl der Antworten 1 Antworten
Ich habe eine csv-Datei mit 10 Zeilen text in einer Spalte. Für jede Zeile, ich würde gerne entfernen der Stoppwörter und wieder die gleiche csv-Datei nur minus Stoppwörter. Dies ist mein code: def remove_stopwords(filename): new_text_list= cr =

R tm removeWords Stoppwörtern ist nicht das entfernen von Stoppwörtern

Anzahl der Antworten 1 Antworten
Ich bin mit dem R tm Paket, und finden, dass fast keines der tm_map Funktionen zu entfernen, die Elemente des Textes werden für mich arbeiten. Durch "arbeiten" meine ich zum Beispiel, werde ich ausführen: d <- tm_map(d,

Wie zu entfernen stop-Wörter in java?

Anzahl der Antworten 6 Antworten
Möchte ich entfernen stop-Wörter in java. So, ich lese Stoppwörter aus text-Datei. und speichern Set<String> stopWords = new LinkedHashSet<String>(); BufferedReader br = new BufferedReader(new FileReader("stopwords.txt")); String words = null; while( (words = br.readLine()) != null) { stopWords.add(words.trim());

Loswerden von stop-Wörter und Dokument tokenisierung mit NLTK

Anzahl der Antworten 3 Antworten
Ich bin Schwierigkeiten eliminiert und eine tokenisierung .text-Datei mit nltk. Ich erhalte immer folgende Fehlermeldung: AttributeError: 'list' - Objekt hat kein Attribut 'unteren'. Ich kann einfach nicht herausfinden, was ich falsch mache, obwohl es mein erstes mal

Stop-Wörter und stemmer in java

Anzahl der Antworten 3 Antworten
Ich ' m denken setzen eine stop-Wörter in meine ähnlichkeit Programm und dann ein stemmer (für Gepäckträger 1 oder 2 hängt davon ab, was am einfachsten zu implementieren) Wunderte ich mich, seit ich Lesen meinen text aus

Die tokenisierung, entfernen von stop-Wörter, die mit Lucene mit Java

Anzahl der Antworten 2 Antworten
Ich versuche, die tokenisierung und entfernen von stop-Wörter aus einer txt-Datei mit Lucene. Ich habe diese: public String removeStopWords(String string) throws IOException { Set<String> stopWords = new HashSet<String>(); stopWords.add("a"); stopWords.add("an"); stopWords.add("I"); stopWords.add("the"); TokenStream tokenStream = new StandardTokenizer(Version.LUCENE_43,

Java Arraylist entfernen Sie mehrere element-index

Anzahl der Antworten 6 Antworten
Hier ist mein code: for (int i = 0; i < myarraylist.size(); i++) { for (int j = 0; j < stopwords.size(); j++) { if (stopwords.get(j).equals(myarraylist.get(i))) { myarraylist.remove(i); id.remove(i); i--; //to look at the same index again!

R entfernen von Stoppwörtern aus einem character-Vektor mit %in%

Anzahl der Antworten 2 Antworten
Habe ich einen Daten-frame mit strings, die ich hatte, wie zu entfernen stop-Wörter aus. Ich versuche zu vermeiden, mit den tm - Paket, wie es ist ein großer Datensatz und tm scheint zu laufen ein bisschen zu

Hinzufügen von Wörtern zu nltk Stoppliste

Anzahl der Antworten 8 Antworten
Ich habe einige code, der entfernt Stoppwörter aus meinen Daten eingestellt werden, da die stop-Liste scheint nicht zu entfernen einen Großteil der Worte, ich möchte es auch, ich bin auf der Suche, um Wörter hinzuzufügen, die auf

Loswerden von Stoppwörtern und Satzzeichen

Anzahl der Antworten 2 Antworten
Bin ich zu kämpfen mit NLTK stoppwort. Hier ist mein code.. Könnte mir jemand sagen was falsch ist? from nltk.corpus import stopwords def removeStopwords( palabras ): return [ word for word in palabras if word not in

hinzufügen von Wörtern zu stop_words Liste in TfidfVectorizer in sklearn

Anzahl der Antworten 2 Antworten
Möchte ich hinzufügen, ein paar mehr Worte zu stop_words in TfidfVectorizer. Ich habe die Lösung in Hinzufügen von Wörtern zu scikit-learn ist CountVectorizer stop-Liste . Meine stop-word-Liste enthält nun sowohl "Englisch" stop-Wörter und die stop-Wörter, die ich

Volltext-Suche funktioniert nicht, wenn die stop-Wort enthalten ist, obwohl stop-word-Liste ist leer

Anzahl der Antworten 3 Antworten
Ich würde gerne in der Lage sein zu suchen, jedes Wort so ich habe deaktiviert die stop-word-Liste. Als ich neu aufgesetzt habe, den index. Aber leider, wenn ich geben Sie einen Ausdruck suchen, mit stop-Wort in es

Hinzufügen von eigenen Stoppwörtern in R tm

Anzahl der Antworten 5 Antworten
Ich haben einen Korpus in R mit der tm Paket. Ich bin die Anwendung der removeWords Funktion, um Stoppwörter zu entfernen tm_map(abs, removeWords, stopwords("english")) Gibt es eine Möglichkeit, eigene benutzerdefinierte Stopp-Wörter zu dieser Liste? InformationsquelleAutor Brian Vanover

So entfernen Sie die Liste von Wörtern aus einer Liste von strings

Anzahl der Antworten 4 Antworten
Sorry, wenn die Frage ist etwas verwirrend. Dies ist ähnlich zu diese Frage Ich denke, das die oben genannten Frage ist in der Nähe, was ich will, aber in Clojure. Es ist ein weiteres Frage Ich brauche

Hinzufügen/entfernen von stop-Wörter mit spacigen

Anzahl der Antworten 4 Antworten
Was ist der beste Weg, um entfernen/hinzufügen von Stopp-Wörtern mit spacigen? Ich bin mit token.is_stop Funktion und möchte einige benutzerdefinierte änderungen an den set. Ich war auf der Suche in die Dokumentation, aber konnte nichts finden bezüglich

NLTK Stoppwort-Liste

Anzahl der Antworten 1 Antworten
Ich habe den code unter, und ich bin versucht, ein stop-word-Liste, um die Liste der Wörter. Doch die Ergebnisse zeigen noch Wörter wie "ein" und "die", die ich dachte gewesen wäre, entfernt von diesem Prozess. Irgendwelche Ideen,

Hinzufügen von Wörtern zu scikit-learn ist CountVectorizer stop-Liste

Anzahl der Antworten 1 Antworten
Scikit-learn ist CountVectorizer - Klasse können Sie eine Zeichenfolge übergeben 'Deutsch' auf das argument stop_words. Ich möchte einige Dinge hinzufügen, um diese vordefinierten Liste. Kann mir jemand sagen, wie dies zu tun? InformationsquelleAutor der Frage panterasBox |

NLTK und Stoppwörter schlagen fehl #lookuperror

Anzahl der Antworten 4 Antworten
Ich versuche ein Projekt zu starten, der sentiment-Analyse und ich werde mit der Stopp-Wörter-Methode. Ich einige der Forschung, und ich fand, dass nltk haben Stoppwörter, aber wenn ich den Befehl ausführen ist ein Fehler aufgetreten. Was ich

Schnellere Möglichkeit, Stoppwörter in Python zu entfernen

Anzahl der Antworten 3 Antworten
Ich versuche zu entfernen Stoppwörter aus einem text: from nltk.corpus import stopwords text = 'hello bye the the hi' text = ' '.join([word for word in text.split() if word not in (stopwords.words('english'))]) Ich bin-Bearbeitung 6 mil von

"Stoppwörter" -Liste für Englisch?

Anzahl der Antworten 6 Antworten
Ich bin die Generierung einige Statistiken, die für manche englischen text, und ich würde gerne überspringen uninteressant Wörter wie "ein" und "die". Wo finde ich einige Listen dieser uninteressant Worte? Ist eine Liste der Wörter, die das

Wie man Stoppwörter mit Nltk oder Python entfernt

Anzahl der Antworten 7 Antworten
Also ich habe ein dataset, das würde ich gerne entfernen stop-Wörter, die aus der Verwendung stopwords.words('english') Ich bin zu kämpfen, wie verwenden Sie diese in meinem code einfach nehmen Sie einfach diesen Worten. Ich habe die Liste

Was ist die Standardliste der Stoppwörter in Lucenes StopFilter?

Anzahl der Antworten 1 Antworten
Lucene haben eine Standard-stopfilter (http://lucene.apache.org/core/4_0_0/analyzers-common/org/apache/lucene/analysis/core/StopFilter.html), wer weiß, welche Wörter in der Liste? InformationsquelleAutor der Frage alvas | 2013-07-08

Stoppwort-Entfernung mit NLTK

Anzahl der Antworten 5 Antworten
Ich versuche zu verarbeiten, die ein Benutzer eingegebenen text durch entfernen von Stoppwörtern mit nltk-toolkit, aber mit stoppwort-Entfernung der Wörter wie 'und', 'oder', 'nicht' wieder entfernt werden. Ich möchte diese Worte werden nach stopword Entfernung Prozess, wie

Tokenizer, Stop Word Removal, Stemming in Java

Anzahl der Antworten 4 Antworten
Ich bin auf der Suche nach einer Klasse oder Methode, die dauert eine lange Zeichenfolge von vielen 100En von Worten und tokenizes, entfernt die stop-Wörter und Stämme für die Verwendung in einem IR-system. Beispiel: "The big fat

SQL 2008: Deaktivieren Sie Stoppwörter für die Volltextsuche

Anzahl der Antworten 3 Antworten
Ich bin mit Recht ein wenig Mühe, eine gute Lösung für dieses: Sagen wir ich habe eine Tabelle "Firma" mit einer Spalte namens "Name". Ich habe einen full-text-Katalog für diese Spalte. Wenn ein Benutzer durchsucht, die für