Tag: stop-words
Stopp-Wörter sind Wörter, die herausgefiltert werden, die vor (oder nach) der Verarbeitung natürlicher Sprache, Daten.
1
Antworten
Ich bin mit lucene zu entfernen englische Stopp-Wörter, aber meine Anforderung ist, entfernen Sie englische Stopp-Wörter und Benutzerdefinierte Stopp-Wörter. Unten ist mein code zum entfernen englische Stopp-Wörter, die mit lucene. Mein Beispiel-Code: public class Stopwords_remove { public
1
Antworten
Meine lieben Freunde, ich würde gerne wissen, wie kann ich den Kleinbuchstaben der Stopp-Wörter in NLTK in einer Liste an namens-Token import nltk from nltk.corpus import stopwords tokens= ['TOWING', 'VESSEL', 'XXXX', 'XXXX', 'XXXX', 'WAS', 'FACING', 'UP', 'TO',
5
Antworten
Ich versuche, setup-Solr 3.6.0 mit Django-haystack Beta 2.0.0. Nach dem ausführen ./manage.py build_solr_schema und verschieben schema.xml um das conf-Verzeichnis, bei einem Besuch in http://localhost:8983/solr/admin, erhalte ich eine Fehlermeldung, genau wie die, die eine produziert in dieser thread.
3
Antworten
Ich habe geschrieben eine Methode, die in einem String und es aufgeteilt, so dass Sie können entfernen Sie die stop-Wort innerhalb der Zeichenfolge. Ich habe eine pre-made-Array voll von Stop-Wörter, die überprüfen Sie die Zeichenfolge, und wenn
1
Antworten
Ich versuche zu Lesen ein text-Datei (foo1.txt), entfernen Sie alle nltk definierten Stoppwörter und schreiben in eine andere Datei (foo2.txt). Code ist wie folgt: Erforderlich importieren: from nltk.corpus import Stoppwörter def stop_words_removal(): with open("foo1.txt") as f: reading_file_line
2
Antworten
Ist es ein Weg, um die Stoppwort-Liste, dass mein SQL Server 2008-FullText Catalog ist mit? Und verwenden Sie es, in meinem C# - codebehind? Möchte ich es in einer ASP.NET Seite, die ich verwenden, um Ihre Suchbegriffe
1
Antworten
Meine Stoppwörter nicht wie erwartet funktioniert. Hier ist ein Teil von meinem schema: <fieldType name="text_general" class="solr.TextField"> <analyzer type="index"> <tokenizer class="solr.KeywordTokenizerFactory"/> <filter class="solr.StopFilterFactory" ignoreCase="true" words="stopwords.txt" enablePositionIncrements="true"/> <filter class="solr.LowerCaseFilterFactory"/> </analyzer> <analyzer type="query"> <tokenizer class="solr.KeywordTokenizerFactory"/> <filter class="solr.StopFilterFactory" ignoreCase="true" words="stopwords.txt" enablePositionIncrements="true"/>
4
Antworten
Wollte ich eine bestimmte Implementierung, so dass der Benutzer einen block von text ein: "Anforderungen - Kenntnisse, LAMP-Umgebung mit Linux, Apache 2, MySQL 5 und PHP 5, - Kenntnisse von Web 2.0-Standards - Wohl mit JSON -
6
Antworten
Baue ich eine Suche für eine Website, die nutzt die Volltextsuche. Die Suche an sich funktioniert Super, das ist nicht mein problem. Ich string zusammen Nutzer zur Verfügung gestellten keywords (MATCH... AGAINST...) mit UND ist so, dass
10
Antworten
Ich habe einen string mit vielen Worten, und ich habe eine text-Datei, die enthält einige Stoppwörter, die ich brauche, um von meinem String. Sagen wir, ich habe einen String s="I love this phone, its super fast and
1
Antworten
Ich habe eine csv-Datei mit 10 Zeilen text in einer Spalte. Für jede Zeile, ich würde gerne entfernen der Stoppwörter und wieder die gleiche csv-Datei nur minus Stoppwörter. Dies ist mein code: def remove_stopwords(filename): new_text_list= cr =
1
Antworten
Ich bin mit dem R tm Paket, und finden, dass fast keines der tm_map Funktionen zu entfernen, die Elemente des Textes werden für mich arbeiten. Durch "arbeiten" meine ich zum Beispiel, werde ich ausführen: d <- tm_map(d,
6
Antworten
Möchte ich entfernen stop-Wörter in java. So, ich lese Stoppwörter aus text-Datei. und speichern Set<String> stopWords = new LinkedHashSet<String>(); BufferedReader br = new BufferedReader(new FileReader("stopwords.txt")); String words = null; while( (words = br.readLine()) != null) { stopWords.add(words.trim());
3
Antworten
Ich bin Schwierigkeiten eliminiert und eine tokenisierung .text-Datei mit nltk. Ich erhalte immer folgende Fehlermeldung: AttributeError: 'list' - Objekt hat kein Attribut 'unteren'. Ich kann einfach nicht herausfinden, was ich falsch mache, obwohl es mein erstes mal
3
Antworten
Ich ' m denken setzen eine stop-Wörter in meine ähnlichkeit Programm und dann ein stemmer (für Gepäckträger 1 oder 2 hängt davon ab, was am einfachsten zu implementieren) Wunderte ich mich, seit ich Lesen meinen text aus
2
Antworten
Ich versuche, die tokenisierung und entfernen von stop-Wörter aus einer txt-Datei mit Lucene. Ich habe diese: public String removeStopWords(String string) throws IOException { Set<String> stopWords = new HashSet<String>(); stopWords.add("a"); stopWords.add("an"); stopWords.add("I"); stopWords.add("the"); TokenStream tokenStream = new StandardTokenizer(Version.LUCENE_43,
6
Antworten
Hier ist mein code: for (int i = 0; i < myarraylist.size(); i++) { for (int j = 0; j < stopwords.size(); j++) { if (stopwords.get(j).equals(myarraylist.get(i))) { myarraylist.remove(i); id.remove(i); i--; //to look at the same index again!
2
Antworten
Habe ich einen Daten-frame mit strings, die ich hatte, wie zu entfernen stop-Wörter aus. Ich versuche zu vermeiden, mit den tm - Paket, wie es ist ein großer Datensatz und tm scheint zu laufen ein bisschen zu
8
Antworten
Ich habe einige code, der entfernt Stoppwörter aus meinen Daten eingestellt werden, da die stop-Liste scheint nicht zu entfernen einen Großteil der Worte, ich möchte es auch, ich bin auf der Suche, um Wörter hinzuzufügen, die auf
2
Antworten
Bin ich zu kämpfen mit NLTK stoppwort. Hier ist mein code.. Könnte mir jemand sagen was falsch ist? from nltk.corpus import stopwords def removeStopwords( palabras ): return [ word for word in palabras if word not in
2
Antworten
Möchte ich hinzufügen, ein paar mehr Worte zu stop_words in TfidfVectorizer. Ich habe die Lösung in Hinzufügen von Wörtern zu scikit-learn ist CountVectorizer stop-Liste . Meine stop-word-Liste enthält nun sowohl "Englisch" stop-Wörter und die stop-Wörter, die ich
3
Antworten
Ich würde gerne in der Lage sein zu suchen, jedes Wort so ich habe deaktiviert die stop-word-Liste. Als ich neu aufgesetzt habe, den index. Aber leider, wenn ich geben Sie einen Ausdruck suchen, mit stop-Wort in es
5
Antworten
Ich haben einen Korpus in R mit der tm Paket. Ich bin die Anwendung der removeWords Funktion, um Stoppwörter zu entfernen tm_map(abs, removeWords, stopwords("english")) Gibt es eine Möglichkeit, eigene benutzerdefinierte Stopp-Wörter zu dieser Liste? InformationsquelleAutor Brian Vanover
4
Antworten
Sorry, wenn die Frage ist etwas verwirrend. Dies ist ähnlich zu diese Frage Ich denke, das die oben genannten Frage ist in der Nähe, was ich will, aber in Clojure. Es ist ein weiteres Frage Ich brauche
4
Antworten
Was ist der beste Weg, um entfernen/hinzufügen von Stopp-Wörtern mit spacigen? Ich bin mit token.is_stop Funktion und möchte einige benutzerdefinierte änderungen an den set. Ich war auf der Suche in die Dokumentation, aber konnte nichts finden bezüglich
1
Antworten
Ich habe den code unter, und ich bin versucht, ein stop-word-Liste, um die Liste der Wörter. Doch die Ergebnisse zeigen noch Wörter wie "ein" und "die", die ich dachte gewesen wäre, entfernt von diesem Prozess. Irgendwelche Ideen,
1
Antworten
Scikit-learn ist CountVectorizer - Klasse können Sie eine Zeichenfolge übergeben 'Deutsch' auf das argument stop_words. Ich möchte einige Dinge hinzufügen, um diese vordefinierten Liste. Kann mir jemand sagen, wie dies zu tun? InformationsquelleAutor der Frage panterasBox |
4
Antworten
Ich versuche ein Projekt zu starten, der sentiment-Analyse und ich werde mit der Stopp-Wörter-Methode. Ich einige der Forschung, und ich fand, dass nltk haben Stoppwörter, aber wenn ich den Befehl ausführen ist ein Fehler aufgetreten. Was ich
3
Antworten
Ich versuche zu entfernen Stoppwörter aus einem text: from nltk.corpus import stopwords text = 'hello bye the the hi' text = ' '.join([word for word in text.split() if word not in (stopwords.words('english'))]) Ich bin-Bearbeitung 6 mil von
6
Antworten
Ich bin die Generierung einige Statistiken, die für manche englischen text, und ich würde gerne überspringen uninteressant Wörter wie "ein" und "die". Wo finde ich einige Listen dieser uninteressant Worte? Ist eine Liste der Wörter, die das
7
Antworten
Also ich habe ein dataset, das würde ich gerne entfernen stop-Wörter, die aus der Verwendung stopwords.words('english') Ich bin zu kämpfen, wie verwenden Sie diese in meinem code einfach nehmen Sie einfach diesen Worten. Ich habe die Liste
1
Antworten
Lucene haben eine Standard-stopfilter (http://lucene.apache.org/core/4_0_0/analyzers-common/org/apache/lucene/analysis/core/StopFilter.html), wer weiß, welche Wörter in der Liste? InformationsquelleAutor der Frage alvas | 2013-07-08
5
Antworten
Ich versuche zu verarbeiten, die ein Benutzer eingegebenen text durch entfernen von Stoppwörtern mit nltk-toolkit, aber mit stoppwort-Entfernung der Wörter wie 'und', 'oder', 'nicht' wieder entfernt werden. Ich möchte diese Worte werden nach stopword Entfernung Prozess, wie
4
Antworten
Ich bin auf der Suche nach einer Klasse oder Methode, die dauert eine lange Zeichenfolge von vielen 100En von Worten und tokenizes, entfernt die stop-Wörter und Stämme für die Verwendung in einem IR-system. Beispiel: "The big fat
3
Antworten
Ich bin mit Recht ein wenig Mühe, eine gute Lösung für dieses: Sagen wir ich habe eine Tabelle "Firma" mit einer Spalte namens "Name". Ich habe einen full-text-Katalog für diese Spalte. Wenn ein Benutzer durchsucht, die für