Tag: nlp

Natural language processing (NLP) ist ein Teilbereich der künstlichen Intelligenz, die eine Transformation oder das extrahieren von nützlichen Informationen aus der natürlichen Sprache-Daten. Methoden umfassen maschinelles lernen und Regel-basierte Ansätze.

Führen Sie TOR-pipeline, die aus einem Java-Programm ohne GUI. erstellen einer tomcat-app mit Tor

Anzahl der Antworten 3 Antworten
ich gebaut habe, einige plugin-Komponenten zum TOR und in Kombination mit ANNIE tools im Betrieb Sie eine pipeline in GATE-Plattform. Weiß jemand, wie kann ich eine Leitung von der Konsole? Ich möchte eine Webanwendung erstellen, in der

Dokument-ähnlichkeit: Vector Einbettung versus Tf-Idf-Leistung?

Anzahl der Antworten 3 Antworten
Habe ich eine Sammlung von Dokumenten, wobei jedes Dokument ist schnell wachsenden, mit der Zeit. Die Aufgabe ist zu finden, ähnliche Dokumente zu jedem Zeitpunkt fest. Ich habe zwei mögliche Ansätze: Einen Vektor embedding (word2vec, Handschuh oder

Die Natürliche Sprache, Datum und Uhrzeit-parser für java

Anzahl der Antworten 7 Antworten
Arbeite ich an einer Natural Language parser, der prüft, einen englischen Satz und extrahiert Informationen, wie name, Datum etc. zum Beispiel: "Lets treffen nächsten Dienstag um 5 Uhr am Strand." So ist die Ausgabe etwas wie :

TF*IDF für Suchanfragen

Anzahl der Antworten 1 Antworten
Okay, so habe ich die folgenden zwei Beiträge auf TF*IDF, bin aber etwas verwirrt : http://css.dzone.com/articles/machine-learning-text-feature Im Grunde, ich möchte erstellen Sie eine Suchanfrage enthält, durchsucht mehrere Dokumente. Ich möchte die scikit-learn-toolkit sowie die Bibliothek NLTK für

Wie zu verwenden pos_tag in NLTK?

Anzahl der Antworten 3 Antworten
Also habe ich versucht-tag ein paar Worte in einer Liste (POS-tagging, um genau zu sein) wie so: pos = [nltk.pos_tag(i,tagset='universal') for i in lw] wo lw ist eine Liste von Wörtern (es ist wirklich lange oder ich

Welche Bedeutung hat die Länge einer Word2vec Vektor haben?

Anzahl der Antworten 2 Antworten
Ich bin mit Word2vec durch gensim mit Google pretrained Vektoren trainiert auf Google News. Ich habe bemerkt, dass das Wort-Vektoren, auf die ich zugreifen kann, indem man direkte index-lookups auf die Word2Vec Objekt sind keine einheitsvektoren: >>>

Zerlegt eine Zeichenkette in Sätzen mit regulären Ausdruck

Anzahl der Antworten 6 Antworten
Ich brauche, um einen string wie "ein. zwei. drei. vier. fünf. sechs. sieben. acht. neun. zehn. elf" in Gruppen von vier Sätzen. Ich brauche einen regulären Ausdruck, um zu brechen die Zeichenfolge in eine Gruppe nach jeder

Wie kommst du auf die Vergangenheitsform eines verbs?

Anzahl der Antworten 3 Antworten
Was ist der effizienteste Weg, um die Vergangenheitsform des verbs, vorzugsweise ohne die Verwendung von Speicher, schwere NLP-frameworks? z.B. live: lebte versuchen: versucht Tippen: getippt Kochen: gekochte verkaufen: verkauft Ich schrieb schnell etwas mich (stack-überlauf wird nicht

C++ - Wie zu Lesen Unicode-Zeichen( Hindi-Skript z.B. ) mit C++ oder gibt es eine bessere Art und Weise durch eine andere Programmiersprache?

Anzahl der Antworten 7 Antworten
Habe ich einen hindi-Skript-Datei wie folgt: 3. भारत का इतिहास काफी समृद्ध एवं विस्तृत है। Habe ich ein Programm schreiben, das fügt eine position zu jeder und jedem Wort, in jedem Satz. So ist die Nummerierung für

Spacig: so laden Google news word2vec Vektoren?

Anzahl der Antworten 4 Antworten
Ich habe versucht, verschiedene Methoden für das laden der google news word2vec Vektoren (https://code.google.com/archive/p/word2vec/): en_nlp = spacy.load('en',vector=False) en_nlp.vocab.load_vectors_from_bin_loc('GoogleNews-vectors-negative300.bin') Den oben genannten gibt: MemoryError: Error assigning 18446744072820359357 bytes Habe ich auch versucht mit die .gz gepackt-Vektoren; oder durch

Bestimmen Sie, ob eine Liste von Wörtern in einem Satz?

Anzahl der Antworten 4 Antworten
Gibt es eine Möglichkeit (Muster oder Python NLTK, etc) zu erkennen, von einem Satz, der hat eine Liste von Wörtern. d.h. The cat ran into the hat, box, and house. | The list would be hat, box,

Wie automatisch bestimmen text-Qualität?

Anzahl der Antworten 6 Antworten
Viele Natural Language Processing (NLP) algorithmen und Bibliotheken haben eine harte Zeit mit zufälligen Texten aus dem web, meist, weil Sie vorauszusetzen sauber, wortgewandt zu schreiben. Ich kann verstehen, warum das wäre einfacher als die Analyse YouTube-Kommentare.

Was bedeutet "word count" finden bei der Berechnung unigram-Wahrscheinlichkeiten in einem unigram language model?

Anzahl der Antworten 2 Antworten
Ich bin mit einem unigram language model. Ich möchte die Wahrscheinlichkeit berechnen jedes unigram. Soll ich teilen Sie die Anzahl der vorkommen eines unigram mit der Anzahl der unterschiedlichen unigrams, oder durch die Anzahl aller unigrams? InformationsquelleAutor

Wie generieren bi - /tri-Gramm mit spacig/nltk

Anzahl der Antworten 3 Antworten
Die Eingabe von text sind immer auf der Liste der dish-Namen, wo es 1~3 Adjektiven und einem Substantiv Eingänge thai iced tea spicy fried chicken sweet chili pork thai chicken curry Ausgänge: thai tea, iced tea spicy

Python - pyparsing unicode-Zeichen

Anzahl der Antworten 3 Antworten
🙂 Ich habe versucht mit w = Word(printables), aber es funktioniert nicht. Wie soll ich die Skillung für diese. 'w' ist gemeint Prozess Hindi-Zeichen (UTF-8) Gibt der code die Grammatik und analysiert entsprechend. 671.assess :: अहसास ::2

Was ist der Unterschied zwischen corpus und Lexikon in NLTK (python)

Anzahl der Antworten 1 Antworten
Kann mir jemand sagen der Unterschied zwischen einer Corpora ,corpus und Lexikon in NLTK ? Was ist der movie data set ? was ist Wordnet ? Es ist bevorzugt, wenn Sie buchen können, trennen Sie Fragen, anstatt

'utf-8' decode-Fehler beim laden der Modul word2vec

Anzahl der Antworten 2 Antworten
Ich eine word2vec Modul mit Tonnen von chinesischen Zeichen. Das Modul wurde ausgebildet von meinen Mitarbeitern, die mit Java und wird gespeichert, wie eine bin-Datei. Ich installiert gensim und versucht, laden Sie das Modul, aber der folgende

Erkennen von Eigennamen mit WordNet?

Anzahl der Antworten 4 Antworten
Ich bin mit KIEFER Zugang WordNet. Ein Wort gegeben, gibt es eine Möglichkeit zu erkennen, ob es ein Eigenname? Es sieht aus wie die synsets haben ziemlich grobe lexikalische Kategorien. Klären, es gibt keinen Kontext für die

Wie man mehr Gewicht auf bestimmte Funktionen im maschinellen lernen?

Anzahl der Antworten 1 Antworten
Wenn eine Bibliothek, wie scikit-learn, wie ordne ich mehr Gewicht auf bestimmte features in der Eingabe zu einem classifier wie SVM? Ist das etwas, was Menschen tun oder gibt es eine andere Lösung für mein problem? Warum

Sentiment-Analyse auf GROßEN Sammlung von online-Konversation-text

Anzahl der Antworten 2 Antworten
Der Titel sagt alles; ich habe eine SQL-Datenbank aus allen Nähten platzt mit online-Konversation-text. Hab ich schon gemacht, die meisten von diesem Projekt in Python, so möchte ich dies tun, indem Sie Python-NLTK-Bibliothek (es sei denn, es

sharpNLP als .nbin Datei-Erweiterung

Anzahl der Antworten 1 Antworten
Habe ich heruntergeladen SharpNLP von dieser Website http://sharpnlp.codeplex.com/ aber es heruntergeladen .nbin-Datei, die ich nicht wissen, wie Sie zu behandeln. Jede Hilfe pleeeeeeeease? InformationsquelleAutor Alaa' | 2012-07-01

Mithilfe von WordNet, um zu bestimmen, semantische ähnlichkeit zwischen zwei Texten?

Anzahl der Antworten 1 Antworten
Wie können Sie bestimmen die semantische ähnlichkeit zwischen zwei Texten in python mithilfe von WordNet? Die offensichtliche preproccessing wäre entfernen der Stoppwörter und stemming, aber was dann? Nur so kann ich mir vorstellen, wäre die Berechnung der

Tagging ein einzelnes Wort mit dem nltk-pos-tagger-tags jeden Buchstaben statt das Wort

Anzahl der Antworten 3 Antworten
Ich versuche tag ein einziges Wort mit dem nltk pos-tagger: word = "going" pos = nltk.pos_tag(word) print pos Aber die Ausgabe ist: [('g', 'NN'), ('o', 'VBD'), ('i', 'PRP'), ('n', 'VBP'), ('g', 'JJ')] Es ist tagging jeder Brief,

Wie funktioniert word2vec oder überspringen-Gramm-Modell konvertieren Wörter zu vector?

Anzahl der Antworten 4 Antworten
Habe ich gelesen, eine Menge Papiere, die auf NLP, und stieß auf viele Modelle. Ich habe die SVD-Modell und Darstellung in 2-D, aber ich habe noch nicht erhalten, wie machen wir eine Wort-Vektor durch die Angabe eines

Konvertieren plural, Nomen in singular Substantive

Anzahl der Antworten 1 Antworten
Wie kann plural der Substantive umgewandelt werden, in Substantiven im singular mit R? Ich benutze das tagPOS die Funktion, die tags zu jedem text und dann alle extrahieren der plural von Substantiven, die gekennzeichnet wurden als "NNS".

Was ist der Unterschied zwischen Informationsextraktion und Text Mining?

Anzahl der Antworten 2 Antworten
Kann es sein, Suche einfach. Aber ich bin verwirrt. Was ist der Unterschied zwischen Text Mining und Information Extraction ? es schauen, wie Philosophie-Frage und es gibt eine Menge von Antworten in google. Gut gesagt... @Borys einverstanden

Wörterbuch zum download

Anzahl der Antworten 4 Antworten
Kann jemand bieten einen Vorschlag, wo Sie zu finden ein Wort aus dem Wörterbuch Liste mit Frequenz-Informationen? Ideal, die Quelle wäre Englisch Wörter der nordamerikanischen Sorte. mögliche Duplikate von Natürliche englische Sprache Wörter InformationsquelleAutor AlgoMan | 2010-11-20

Kneser-Ney smoothing der Trigramme mit Python NLTK

Anzahl der Antworten 3 Antworten
Ich versuche zu glatt für eine Menge von n-Gramm-Wahrscheinlichkeiten, mit Kneser-Ney smoothing mit Hilfe der Python-NLTK. Leider ist die gesamte Dokumentation ist eher spärlich. Was ich versuche zu tun, ist dies: ich parse einen text in eine

wie zu verwenden Entity Recognition mit Apache solr und LingPipe oder ähnliche tools

Anzahl der Antworten 2 Antworten
Möchte ich nutzen NLP bei der Indexierung der Daten mit Apache Solr. Identifizieren Sie die Synonyme der Wörter und der index auch. Identifizieren thenamed Person, und beschriften Sie Sie, während die Indizierung. wenn einige eine Abfrage der

Was sind gute Ausgangspunkte für jemanden interessiert, die Verarbeitung natürlicher Sprache?

Anzahl der Antworten 10 Antworten
Frage So, ich habe mir vor kurzem kamen einige neue mögliche Projekte, die zu tun haben mit der Ableitung 'Bedeutung' von text vorgelegt und von den Benutzern generiert werden. Verarbeitung natürlicher Sprache ist das Feld, das sich

stoppwort-Entfernung bei Verwendung des word2vec

Anzahl der Antworten 2 Antworten
Habe ich versucht, word2vec für eine Weile jetzt mit der gensim ist word2vec Bibliothek. Meine Frage ist, muss ich, um Stoppwörter zu entfernen von mein input-text? Weil, basierend auf meiner ursprünglichen experimentellen Ergebnisse, die ich sehen konnte,

Der Stanford Parser: wie zum extrahieren von Abhängigkeiten?

Anzahl der Antworten 2 Antworten
Meine Arbeit besteht darin, eine Abfrage (kann noun+verb) in einem Satz, und extrahieren Sie dann das Objekt. exemple: "coding is sometimes a tough work." Meine Anfrage wäre: "coding is". den typisierten Abhängigkeiten, die ich bekommen sind: nsubj(work-6,

Wie zu verwenden syntaxnet Ausgabe

Anzahl der Antworten 3 Antworten
Ich begann das Spiel mit Syntaxnet vor zwei Tagen, und ich Frage mich,, wie zu verwenden/export die Ausgabe (ascii-Baum oder conll ) in einem format, das leicht zu analysieren (sprich : Json, XML, python-graph). Vielen Dank für

Was ist der Unterschied zwischen Dialogflow bot framework vs Rasa nlu-bot-framework?

Anzahl der Antworten 3 Antworten
Was ist der Unterschied zwischen Dialogflow bot framework vs Rasa nlu-bot-framework ?Andere open-source-frameworks zur Verfügung, die im Markt mit NLP unterstützen? Darf ich wissen, welche Art von fahne ?bekomme ich Antworten von Experten, oder nicht ? Ich

Wie ich klassifizieren ein Wort in einem text in Dinge wie Namen, Nummer, Geld, Datum,etc.?

Anzahl der Antworten 4 Antworten
Habe ich einige Fragen, die über text-mining vor einer Woche, aber ich war ein bisschen verwirrt und immer noch, aber jetzt weiß ich wgat ich tun will. Die situation: ich habe eine Menge von download-Seiten mit HTML-Inhalt.

Ist es möglich, re-Zug eine word2vec Modell (z.B. GoogleNews-Vektoren-negative300.bin) aus einem corpus von Sätzen in python?

Anzahl der Antworten 3 Antworten
Ich bin über die vor-geschult Google news-Datensatz für die erste word-Vektoren durch Verwendung von Gensim-Bibliothek in python model = Word2Vec.load_word2vec_format('GoogleNews-vectors-negative300.bin', binary=True) Nach dem laden des Modells bin ich konvertieren training Satz Wörter in Vektoren #reading all sentences

Mit Der Stanford CoreNLP

Anzahl der Antworten 3 Antworten
Ich versuche zu bekommen, um mithilfe der Stanford CoreNLP. Ich habe einige code aus dem web zu verstehen, was Los ist mit der coreference-tool. Ich habe versucht mit dem Projekt in Eclipse aber halten die Begegnung mit

Mit WN-Beeinflussen, zu erkennen emotion/Stimmung einen string

Anzahl der Antworten 2 Antworten
Ich heruntergeladen WN-Beeinflussen. Ich bin jedoch nicht sicher, wie es zu benutzen ist zu erkennen die Stimmung in einem Satz. Zum Beispiel, wenn ich einen string "ich hasse Fußball." Ich möchte in der Lage sein zu erkennen,

Liste der Natural Language Processing-Tools in Bezug auf Sentiment-Analyse - Welche empfehlen Sie

Anzahl der Antworten 1 Antworten
zunächst sorry für mein nicht so perfektes Deutsch... ich bin aus Deutschland 😉 So, für ein Forschungs-Projekt von mir (Bachelor-thesis), die ich analysieren muss, um die Stimmung von tweets, die über bestimmte Unternehmen und Marken. Für diesen

Wie areTF-IDF berechnet, indem die scikit-learn TfidfVectorizer

Anzahl der Antworten 3 Antworten
Ich den folgenden code ausführen, um den text zu konvertieren matrix zu TF-IDF-matrix. text = ['This is a string','This is another string','TFIDF computation calculation','TfIDF is the product of TF and IDF'] from sklearn.feature_extraction.text import TfidfVectorizer vectorizer =

Negation Umgang mit NLP

Anzahl der Antworten 1 Antworten
Ich bin derzeit an einem Projekt arbeiten, wo ich will, zu extrahieren, die Emotionen aus dem text. Als ich bin mit conceptnet5 (semantisches Netz), ich kann Sie aber nicht einfach Präfix Wörter in einem Satz, der eine

Gibt es eine Datenbank, API, oder ist HIERFÜR gültigen text für die erste verb-Konjugationen?

Anzahl der Antworten 1 Antworten
Dies ist nicht direkt eine Frage der Programmierung, so dass ich entschuldige mich im Voraus. Ich habe ein Grammatik-free random Satz generator für eine Typisierung Spiel würde ich gerne machen, und ich habe eine schwierige Zeit der

Gewusst wie: Durchlaufen einer Baum Objekt NLTK?

Anzahl der Antworten 1 Antworten
Gegeben, eine in Klammern zu Parsen, könnte ich es konvertieren in ein Tree-Objekt in NLTK als solche: >>> from nltk.tree import Tree >>> s = '(ROOT (S (NP (NNP Europe)) (VP (VBZ is) (PP (IN in) (NP

Wie funktioniert die Erkennung der Sprache funktioniert?

Anzahl der Antworten 5 Antworten
Habe ich mich schon gefragt, für einige Zeit, wie funktioniert Google translate(oder vielleicht eine hypothetische übersetzer) erkennt Sprache aus dem eingegebenen Zeichenfolge in das Feld "von". Ich habe darüber nachgedacht und die einzige Sache, die ich denken

Wie, um Vorhersagen, die Thema einer neuen Abfrage, die einen ausgebildeten LDA-Modell mit gensim?

Anzahl der Antworten 3 Antworten
Ich ausgebildet haben, ein Korpus für die LDA Thema Modellierung mit gensim. Gehen Sie durch die Anleitung auf der gensim website (ist nicht der ganze code): question = 'Changelog generation from Github issues?'; temp = question.lower() for

Erkennen, die englischen Zeitformen mit NLTK

Anzahl der Antworten 2 Antworten
Ich Suche eine Möglichkeit gegeben, einen englischen text zählen-verb-Sätze in Vergangenheit, Gegenwart und Zukunft spannt. Für jetzt bin ich mit NLTK, eine POS (Part-Of-Speech) tagging, und dann zählen Sie sagen, 'VBD' to get past tenses. Dies ist

Gibt es eine Natürliche Sprache parser für Datum/Uhrzeit in javascript?

Anzahl der Antworten 5 Antworten
Gibt es eine Natürliche Sprache parser für Datum/Uhrzeit in javascript? Sehr ähnlich zu Ihrem anderen post stackoverflow.com/questions/1003330/..., Warum nicht einfach sagen, javascript oder Cold Fusion? Die eine ist eine client-side-Lösung ist eine server-Seite. Ich fühlte, dass Sie

Gibt es ein tutorial über das giza++?

Anzahl der Antworten 5 Antworten
Den Urls in der 'readme' - Datei ist nicht gültig (http://www.fjoch.com/mkcls.html und http://www.fjoch.com/GIZA++.html). Gibt es ein gutes tutorial über das giza++? Oder gibt es einige alternativen, die mit vollständigen Unterlagen? Der zweite link ist tot. Frage ist

Unterschied zwischen feature selection, feature extraction, GEWICHTE

Anzahl der Antworten 3 Antworten
Bin ich etwas verwirrt, als das, was "feature selection /extractor /GEWICHTE" bedeuten, und der Unterschied zwischen Ihnen. Als ich die Literatur zu Lesen manchmal fühle ich mich verloren wie finde ich den Begriff Recht Locker, mein Hauptanliegen

semantische ähnlichkeit zwischen den Sätzen

Anzahl der Antworten 2 Antworten
ich mache das Projekt.ich brauche jedes opensource-tool oder eine Technik zu finden, die semantische ähnlichkeit zwischen Sätzen, wo gebe ich die Eingabe als zwei Sätze und Ausgabe als Partitur (D. H.,nach semantischer ähnlichkeit).kann irgend jemand wissen, diese