Tag: text-analysis

Text-Analyse ist ein Bereich der Studie, wo verwendet man Linguistische, statistische und maschinelles lernen Analyse-tools, um einen text zu extrahieren einige hochwertige Informationen aus.

Überprüfen, ob ein string ist eine mögliche Kürzel für einen Namen

5 Antworten

Ich versuche zu entwickeln, die einem python-Algorithmus, um zu überprüfen, ob ein string könnte ein Kürzel für ein anderes Wort. Zum Beispiel fck ist ein Spiel für fc kopenhavn denn es entspricht dem ersten Zeichen des Wortes.

Konvertieren sparse matrix (csc_matrix) pandas dataframe

1 Antworten

Ich konvertieren möchten, diese matrix in ein pandas dataframe. csc_matrix Den ersten Zahl in der Klammer sollte die index, die zweiten Zahl Spalten und die Zahl am Ende die Daten. Ich tun möchte, zu tun, feature selection

dataframe pandas python text-analysis word-frequency

Extrahieren von text aus unlesbare PDF

3 Antworten

Ich habe eine PDF-Datei mit wertvollen Informationen in Textform. Das problem ist, dass ich nicht extrahieren Sie den text, alles was ich bekomme ist ein Haufen von verstümmelten Symbole. Das gleiche passiert, wenn ich kopieren und fügen

file-format pdf text-analysis

R die tm-Paket für word count

4 Antworten

Habe ich ein Korpus mit über 5000 text-Dateien. Ich würde gerne einzelne Wort zählt für jede Datei nach dem ausführen von pre-processing (turning zu senken, entfernen von Stoppwörtern, etc). Ich habe nicht hatte kein Glück mit der

corpus r text-analysis tm word-count

Jedes tutorial oder code, der für die Tf-Idf in java

3 Antworten

Ich bin auf der Suche nach einer einfachen java-Klasse, die lässt sich berechnen, tf-idf-Berechnung. Ich will tun, ähnlichkeit test auf 2 Unterlagen. Ich fand so viele BIG-API, die verwendet werden tf-idf-Klasse. Ich nicht wollen, zu einem großen

java lucene search text-analysis

Finden Sie alle Orte / Städte / Orte in einem text

3 Antworten

Wenn ich einen text mit zum Beispiel ein Artikel in einer Zeitung in der katalanischen Sprache, wie könnte ich alle Städte von diesem text? Schaue ich das Paket nltk für python und heruntergeladen habe ich das Korpus

corpus nltk python tagged-corpus text-analysis

Java text-Analyse-Bibliotheken

3 Antworten

Ich bin auf der Suche nach eine java-gestützte Lösung, um eine Voraussetzung für die Analyse von Sätzen zu melden, ob ein key-word verwendet wurde, positiv oder negativ. Ie Das Stichwort sein könnte, 'Kohl' und dem Satz:- "Ich

analysis java text text-analysis

NLP: Qualitativ "positive" vs. "negative" Satz

2 Antworten

Brauche ich Eure Hilfe bei der Bestimmung des besten Ansatzes für die Analyse von Industrie-spezifische Sätze (z.B. Filmkritiken), "positive" vs. "negative". Ich habe gesehen Bibliotheken wie OpenNLP vor, aber es ist einfach zu low-level - es gibt

nlp text-analysis

Versuchen, um tf-idf-Gewichtung arbeiten in R

1 Antworten

Ich versuche zu tun, einige sehr grundlegende text-Analyse mit dem tm-Paket und Holen Sie sich einige tf-idf erzielt, ich bin mit OS X (obwohl ich versucht habe diesen auf Debian Squeeze mit dem gleichen Ergebnis); ich habe

r text-analysis tf-idf tm

Trainingsdaten für die Sentimentanalyse

6 Antworten

Wo bekomme ich ein corpus von Dokumenten, die bereits klassifiziert wurden, als positiv/negativ für die Stimmung in der corporate-domain? Ich will einen großen Korpus von Dokumenten, die Bewertungen für Unternehmen, wie Bewertungen von Unternehmen durch Analysten und

machine-learning nlp sentiment-analysis text-analysis training-data

Stems vs Lemmatizer

3 Antworten

Natural Language Processing (NLP), besonders für Englisch, hat sich in der Phase, wo der Wortstamm würde sich eine archaische Technik, wenn "perfekte" lemmatizers vorhanden. Es ist, weil die Wortstammerkennung die Oberfläche verändern form einer Wort/token in ein

lemmatization nlp stemming text-analysis wordnet