Tag: text-analysis

Text-Analyse ist ein Bereich der Studie, wo verwendet man Linguistische, statistische und maschinelles lernen Analyse-tools, um einen text zu extrahieren einige hochwertige Informationen aus.

Überprüfen, ob ein string ist eine mögliche Kürzel für einen Namen

Anzahl der Antworten 5 Antworten
Ich versuche zu entwickeln, die einem python-Algorithmus, um zu überprüfen, ob ein string könnte ein Kürzel für ein anderes Wort. Zum Beispiel fck ist ein Spiel für fc kopenhavn denn es entspricht dem ersten Zeichen des Wortes.

Konvertieren sparse matrix (csc_matrix) pandas dataframe

Anzahl der Antworten 1 Antworten
Ich konvertieren möchten, diese matrix in ein pandas dataframe. csc_matrix Den ersten Zahl in der Klammer sollte die index, die zweiten Zahl Spalten und die Zahl am Ende die Daten. Ich tun möchte, zu tun, feature selection

Extrahieren von text aus unlesbare PDF

Anzahl der Antworten 3 Antworten
Ich habe eine PDF-Datei mit wertvollen Informationen in Textform. Das problem ist, dass ich nicht extrahieren Sie den text, alles was ich bekomme ist ein Haufen von verstümmelten Symbole. Das gleiche passiert, wenn ich kopieren und fügen

R die tm-Paket für word count

Anzahl der Antworten 4 Antworten
Habe ich ein Korpus mit über 5000 text-Dateien. Ich würde gerne einzelne Wort zählt für jede Datei nach dem ausführen von pre-processing (turning zu senken, entfernen von Stoppwörtern, etc). Ich habe nicht hatte kein Glück mit der

Jedes tutorial oder code, der für die Tf-Idf in java

Anzahl der Antworten 3 Antworten
Ich bin auf der Suche nach einer einfachen java-Klasse, die lässt sich berechnen, tf-idf-Berechnung. Ich will tun, ähnlichkeit test auf 2 Unterlagen. Ich fand so viele BIG-API, die verwendet werden tf-idf-Klasse. Ich nicht wollen, zu einem großen

Finden Sie alle Orte / Städte / Orte in einem text

Anzahl der Antworten 3 Antworten
Wenn ich einen text mit zum Beispiel ein Artikel in einer Zeitung in der katalanischen Sprache, wie könnte ich alle Städte von diesem text? Schaue ich das Paket nltk für python und heruntergeladen habe ich das Korpus

Java text-Analyse-Bibliotheken

Anzahl der Antworten 3 Antworten
Ich bin auf der Suche nach eine java-gestützte Lösung, um eine Voraussetzung für die Analyse von Sätzen zu melden, ob ein key-word verwendet wurde, positiv oder negativ. Ie Das Stichwort sein könnte, 'Kohl' und dem Satz:- "Ich

NLP: Qualitativ "positive" vs. "negative" Satz

Anzahl der Antworten 2 Antworten
Brauche ich Eure Hilfe bei der Bestimmung des besten Ansatzes für die Analyse von Industrie-spezifische Sätze (z.B. Filmkritiken), "positive" vs. "negative". Ich habe gesehen Bibliotheken wie OpenNLP vor, aber es ist einfach zu low-level - es gibt

Versuchen, um tf-idf-Gewichtung arbeiten in R

Anzahl der Antworten 1 Antworten
Ich versuche zu tun, einige sehr grundlegende text-Analyse mit dem tm-Paket und Holen Sie sich einige tf-idf erzielt, ich bin mit OS X (obwohl ich versucht habe diesen auf Debian Squeeze mit dem gleichen Ergebnis); ich habe

Trainingsdaten für die Sentimentanalyse

Anzahl der Antworten 6 Antworten
Wo bekomme ich ein corpus von Dokumenten, die bereits klassifiziert wurden, als positiv/negativ für die Stimmung in der corporate-domain? Ich will einen großen Korpus von Dokumenten, die Bewertungen für Unternehmen, wie Bewertungen von Unternehmen durch Analysten und

Stems vs Lemmatizer

Anzahl der Antworten 3 Antworten
Natural Language Processing (NLP), besonders für Englisch, hat sich in der Phase, wo der Wortstamm würde sich eine archaische Technik, wenn "perfekte" lemmatizers vorhanden. Es ist, weil die Wortstammerkennung die Oberfläche verändern form einer Wort/token in ein