Tag: nltk
Das Natural Language Toolkit ist ein Python-Bibliothek für die Computerlinguistik.
3
Antworten
Ich bin in der Notwendigkeit einer wenig Hilfe hier, ich brauche zu identifizieren, die die negativen Wörter wie "nicht gut","nicht schlecht" und dann identifizieren Sie die Polarität (negativ oder positiv) auf die Stimmung. Ich habe alles, außer
4
Antworten
Möchte ich finden, der Häufigkeit aller Wörter in meinem text-Datei, so dass ich herausfinden kann, die am häufigsten vorkommenden Wörter aus Ihnen. Kann mir bitte jemand helfen, den Befehl dazu verwendet werden. import nltk text1 = "hello
1
Antworten
Okay, so habe ich die folgenden zwei Beiträge auf TF*IDF, bin aber etwas verwirrt : http://css.dzone.com/articles/machine-learning-text-feature Im Grunde, ich möchte erstellen Sie eine Suchanfrage enthält, durchsucht mehrere Dokumente. Ich möchte die scikit-learn-toolkit sowie die Bibliothek NLTK für
2
Antworten
Ich eine Fehlermeldung, wenn man versucht, die Funktion precision aus nltk.metrics.scores. Ich habe versucht viele verschiedene Importe, aber ohne Erfolg. Schaute ich in den Dateien auf meinem python-Verzeichnisse (siehe unten), und die Funktion ist da, aber nur
3
Antworten
Hier ist mein problem. Ich habe einen Beispiel-text-Datei, wo ich speichern Sie die text-Daten, die durch das Crawlen von mehreren html-Seiten. Dieser text enthält Informationen über verschiedene Veranstaltungen und deren Zeit und Ort. Ich möchte zu Holen
3
Antworten
Also habe ich versucht-tag ein paar Worte in einer Liste (POS-tagging, um genau zu sein) wie so: pos = [nltk.pos_tag(i,tagset='universal') for i in lw] wo lw ist eine Liste von Wörtern (es ist wirklich lange oder ich
1
Antworten
Ich Schreibe ein code für die, die einen tweet, aber ich habe Probleme mit der Codierung. Als ich versucht habe anzuwenden, porter stemmer, es zeigt Fehler.Vielleicht habe ich m nicht in der Lage, die tokenisierung es richtig
1
Antworten
kurze Frage, das ist verwirrend mich. Ich habe NLTK installiert und es wurde gut funktioniert. Aber ich werde versuchen, bigrame einem Korpus und wollen die bigrame(corpus) im Grunde.. aber es sagt, dass die bigrame ist nicht definiert,
1
Antworten
Was ich tun möchte, ist die Aufteilung von text in seine endgültige Elemente. Beispiel: from nltk.tokenize import * txt = "A sample sentences with digits like 2.119,99 or 2,99 are awesome." regexp_tokenize(txt, pattern='(?:(?!\d)\w)+|\S+') ['A','sample','sentences','with','digits','like','2.199,99','or','2,99','are','awesome','.'] Können Sie sehen,
4
Antworten
Gibt es eine Möglichkeit (Muster oder Python NLTK, etc) zu erkennen, von einem Satz, der hat eine Liste von Wörtern. d.h. The cat ran into the hat, box, and house. | The list would be hat, box,
2
Antworten
Ich bin mit Visual Studio 2010. Ich habe ein IronPython-Konsole-Projekt und C# - Konsole-Projekt. Das IronPython-Skript funktioniert wenn ich es von selbst: import nltk def Simple(): baconIpsumFile = open('baconipsum.txt', 'r') baconIpsumCorpus = baconIpsumFile.read() tokens = nltk.word_tokenize(baconIpsumCorpus) text
3
Antworten
Die Eingabe von text sind immer auf der Liste der dish-Namen, wo es 1~3 Adjektiven und einem Substantiv Eingänge thai iced tea spicy fried chicken sweet chili pork thai chicken curry Ausgänge: thai tea, iced tea spicy
3
Antworten
Ich versuche zu laufen nltk auf einem SUSE-Linux-box, die nicht mit dem internet verbunden sein. Habe ich erfolgreich nltk installiert und es läuft aber wenn ich senden >>> tagged = nltk.pos_tag(tokens) Bekomme ich diesen Fehler: LookupError: **********************************************************************
1
Antworten
Kann mir jemand sagen der Unterschied zwischen einer Corpora ,corpus und Lexikon in NLTK ? Was ist der movie data set ? was ist Wordnet ? Es ist bevorzugt, wenn Sie buchen können, trennen Sie Fragen, anstatt
2
Antworten
Ich habe diesen Fehler in meinem code und ich verstehe nicht, wie Feste import nltk from nltk.util import ngrams def word_grams(words, min=1, max=4): s = for n in range(min, max): for ngram in ngrams(words, n): s.append('
4
Antworten
Ich versucht habe, zu download/update-python - nltk - Pakete auf einem Rechner server und es kamen in diesem [Errno 122] Disk quota exceeded: Fehler. Speziell: [nltk_data] Downloading package stop words to /home/sh2264/nltk_data... [nltk_data] Error downloading u'stopwords' from
1
Antworten
Meine lieben Freunde, ich würde gerne wissen, wie kann ich den Kleinbuchstaben der Stopp-Wörter in NLTK in einer Liste an namens-Token import nltk from nltk.corpus import stopwords tokens= ['TOWING', 'VESSEL', 'XXXX', 'XXXX', 'XXXX', 'WAS', 'FACING', 'UP', 'TO',
2
Antworten
Der Titel sagt alles; ich habe eine SQL-Datenbank aus allen Nähten platzt mit online-Konversation-text. Hab ich schon gemacht, die meisten von diesem Projekt in Python, so möchte ich dies tun, indem Sie Python-NLTK-Bibliothek (es sei denn, es
1
Antworten
Wie können Sie bestimmen die semantische ähnlichkeit zwischen zwei Texten in python mithilfe von WordNet? Die offensichtliche preproccessing wäre entfernen der Stoppwörter und stemming, aber was dann? Nur so kann ich mir vorstellen, wäre die Berechnung der
3
Antworten
Ich versuche tag ein einziges Wort mit dem nltk pos-tagger: word = "going" pos = nltk.pos_tag(word) print pos Aber die Ausgabe ist: [('g', 'NN'), ('o', 'VBD'), ('i', 'PRP'), ('n', 'VBP'), ('g', 'JJ')] Es ist tagging jeder Brief,
5
Antworten
Ich bin etwas von einem coding-Anfänger, und ich habe versucht zu kratzen, Andre 3000 die lyrics aus Rap genius, http://genius.com/artists/Andre-3000, durch die Verwendung von Schönen Suppe (Eine Python-Bibliothek für das abrufen von Daten aus HTML-und XML-Dateien). Mein
3
Antworten
Ich versuche zu glatt für eine Menge von n-Gramm-Wahrscheinlichkeiten, mit Kneser-Ney smoothing mit Hilfe der Python-NLTK. Leider ist die gesamte Dokumentation ist eher spärlich. Was ich versuche zu tun, ist dies: ich parse einen text in eine
3
Antworten
Ich versuche zu finden, die die Abhängigkeit Pfad zwischen zwei Wörtern in Python gegebene Abhängigkeitsstruktur. Für Satz Robotern in der populären Kultur sind da, um zu erinnern uns an die awesomeness von ungebundene menschliche Agentur. Ich verwendet
1
Antworten
Ich versuche zu Lesen ein text-Datei (foo1.txt), entfernen Sie alle nltk definierten Stoppwörter und schreiben in eine andere Datei (foo2.txt). Code ist wie folgt: Erforderlich importieren: from nltk.corpus import Stoppwörter def stop_words_removal(): with open("foo1.txt") as f: reading_file_line
5
Antworten
Hallo, ich versuche zu lernen NLTK. Ich bin neu in Python auch. Ich versuche das folgende. >>import nltk >>nltk.pos_tag(nltk.word_tokenize("John lived in China")) Bekomme ich die folgende Fehlermeldung Traceback (most recent call last): File "", line 1, in
2
Antworten
Ich verwendet habe, LingPipe, Stanford NER, RiTa und verschiedene Satz ähnlichkeit Bibliotheken für meine bisherigen Java-Projekte, die sich auf text (vor -) Verarbeitung (Indexierung, xml-tagging, topic detection, etc.) große Mengen der englische text (rund 10.000 Dokumente Summen
2
Antworten
In NLTK wie HMM-tagger, es scheint CRF-tagger auch. Aber ich bin nicht auf der Suche nach einem tutorial oder Hilfe. Wie sollte ich es tun? InformationsquelleAutor Coeus2016 | 2012-09-19
2
Antworten
Ich heruntergeladen WN-Beeinflussen. Ich bin jedoch nicht sicher, wie es zu benutzen ist zu erkennen die Stimmung in einem Satz. Zum Beispiel, wenn ich einen string "ich hasse Fußball." Ich möchte in der Lage sein zu erkennen,
2
Antworten
In windows mit einem 64-bit-OS einmal installiert habe nltk-2.0.4.win-amd64-py2.7.exe von http://www.lfd.uci.edu/~gohlke/pythonlibs/, für mein 64-bit-python, ich lief 'import nltk' zu bekommen, der folgenden Fehler! Traceback (most recent call last): File "<pyshell#25>", line 1, in <module> import nltk File
1
Antworten
zunächst sorry für mein nicht so perfektes Deutsch... ich bin aus Deutschland 😉 So, für ein Forschungs-Projekt von mir (Bachelor-thesis), die ich analysieren muss, um die Stimmung von tweets, die über bestimmte Unternehmen und Marken. Für diesen
2
Antworten
Code: import nltk eng_lish= open("C:/Users/Nouros/Desktop/Thesis/english.csv","rb", encoding='utf8').read() bang_lish= open("C:/Users/Nouros/Desktop/Thesis/banglish.csv","rb", encoding='utf8').read() Problem: Traceback (most recent call last): File "C:/Users/Nouros/Desktop/Thesis/nltk_run_copy.py", line 3, in <module> eng_lish= open("C:/Users/Nouros/Desktop/Thesis/english.csv","rb",encoding="utf-8") ValueError: binary mode doesn't take an encoding argument Bitte poste deinen code und den
1
Antworten
Ich bin derzeit an einem Projekt arbeiten, wo ich will, zu extrahieren, die Emotionen aus dem text. Als ich bin mit conceptnet5 (semantisches Netz), ich kann Sie aber nicht einfach Präfix Wörter in einem Satz, der eine
1
Antworten
Ich zuerst konvertieren von pdf in text (ich Drucke Sie aus und alles ist in Ordnung) und dann bekomme ich ein UnicodeDecodeError wenn ich versuche zu laufen word_tokenize() from NLTK. Bekomme ich diesen error obwohl ich versuche,
1
Antworten
Gegeben, eine in Klammern zu Parsen, könnte ich es konvertieren in ein Tree-Objekt in NLTK als solche: >>> from nltk.tree import Tree >>> s = '(ROOT (S (NP (NNP Europe)) (VP (VBZ is) (PP (IN in) (NP
2
Antworten
Habe ich eine Liste aller Substantive in wordnet jetzt will ich mich verlassen nur Worte, die Fahrzeuge und den rest zu entfernen. Wie mache ich es? Nachfolgend ist der pseudo-code, den ich machen will, aber ich weiß
2
Antworten
Ich Suche eine Möglichkeit gegeben, einen englischen text zählen-verb-Sätze in Vergangenheit, Gegenwart und Zukunft spannt. Für jetzt bin ich mit NLTK, eine POS (Part-Of-Speech) tagging, und dann zählen Sie sagen, 'VBD' to get past tenses. Dies ist
3
Antworten
Ich versuche zu extrahieren Substantive wie Namen und Organisation Namen von sehr kleine Stücke von Text, wie sms, die basic-Parser zur Verfügung, mit nltk Suche nach Eigennamen mit NLTK WordNet sind in der Lage, die Substantive aber
3
Antworten
Bin ich etwas verwirrt, als das, was "feature selection /extractor /GEWICHTE" bedeuten, und der Unterschied zwischen Ihnen. Als ich die Literatur zu Lesen manchmal fühle ich mich verloren wie finde ich den Begriff Recht Locker, mein Hauptanliegen
5
Antworten
Habe ich einige text in Französisch, die ich verarbeiten muss, in gewisser Weise. Dafür brauche ich: Ersten, die tokenisierung wird der text in Worte Dann lemmatize diese Worte zu vermeiden, die Bearbeitung der gleichen Wurzel mehr als
2
Antworten
Werde ich verwenden nltk.tokenize.word_tokenize auf einem cluster, wo mein Konto ist sehr begrenzt durch Speicherplatz-Kontingent. Zu Hause habe ich heruntergeladen alle nltk Ressourcen durch nltk.download() aber, wie ich herausgefunden habe, dauert es ~2,5 GB. Scheint das ein
3
Antworten
Wie diese Frage, ich bin daran interessiert, eine große Liste von Wörtern, die von Wortart (eine lange Liste von Substantiven; eine Liste der Adjektive) verwendet werden programmgesteuert anderswo. Diese Antwort hat eine Lösung mit Hilfe der WordNet-Datenbank
4
Antworten
Ich folgte diesen Anweisungen http://www.nltk.org/install.html zu installieren nltk-Modul auf meinem mac (10.6) Ich habe installiert python 2.7, aber wenn ich mich öffne IDLE und geben import nltk es gibt mir diese Fehlermeldung Traceback (most recent call last):
5
Antworten
Es ist ein test Satz und einem Referenz-Satz. Wie kann ich schreiben Sie ein Python-Skript, dass Maßnahmen, die ähnlichkeit zwischen diesen zwei Sätzen in der form der BLEU Metrik verwendet maschinelle übersetzung der evaluation? Andere als BLEU,
1
Antworten
Ich bin auf der Suche nach einer effektiven Weg, zu konstruieren, ein Term-Dokument-Matrix in Python verwendet werden kann, zusammen mit zusätzlichen Daten. Habe ich einige text-Daten mit ein paar anderen Parametern. Ich würde gerne einige Analysen auf
4
Antworten
Arbeite ich an einem nicht-Englisch-parser mit Unicode-Zeichen. Für dass ich mich entschieden habe, NLTK. Aber es erfordert einen vordefinierten Kontext-freie Grammatik wie folgt: S -> NP VP VP -> V NP | V NP PP PP ->
5
Antworten
Ich habe Probleme mit dem NLTK unter Python, speziell die .generate () - Methode. generieren(self, length=100) Print random text, generiert mit einem Trigramm Sprachmodell (language model). Parameter: * length (int) - The length of text to generate
7
Antworten
Ich geschrieben habe folgenden code für die tokenisierung der Eingabe-Absatz, das kommt aus der Datei samp.txt. Kann mir jemand helfen zu finden und drucken Sie die Anzahl der Sätze, Wörter und Zeichen in der Datei? Ich habe
3
Antworten
Ich habe den folgenden code-snippet classifier = NaiveBayesClassifier.train(train_data) #classifier.show_most_informative_features(n=20) results = classifier.classify(test_data) ist und die Fehler zeigt, die in der folgenden Zeile results = classifier.classify(test_data) Fehler: Traceback (most recent call last): File "trial_trial.py", line 46, in <module>
2
Antworten
Gibt es TF-IDF-Implementierungen in scikit-learn und gensim. Gibt es einfache Implementierungen Einfache Umsetzung von N-Gram, tf-idf-und Cosinus-ähnlichkeit in Python Zu vermeiden, das Rad neu erfinden, Gibt es wirklich keine TF-IDF in NLTK? Gibt es sub-Pakete, die wir
2
Antworten
Installiert hab ich das nltk-Paket. Folgende, die ich versuche zu downloaden die unterstützenden Pakete mit nltk.download() und bin immer Fehler: [Errno 11001] getaddrinfo Meinem Rechner /software details: OS: Windows 8.1 Python: 3.3.4 NLTK-Paket: 3.0 Unten sind die