Tag: information-retrieval

Information Retrieval ist ein Bereich der Studie über die mit dem empfangen von Dokumenten, Informationen oder Metadaten aus einer Sammlung von unstrukturierten oder semi-strukturierten Daten.

Erstellen Sie ein TF-IDF-Matrix-Python-3.6

Anzahl der Antworten 1 Antworten
Habe ich 100 Dokumente(Jedes Dokument ist eine einfache Liste von Wörtern in diesem Dokument). Ich möchte jetzt erstellen Sie ein TF-IDF-matrix so, dass ich eine kleine Wort-Suche von Rang. Ich versuchte es mit einem tfidfVectorizer aber verlor

Schnellste Weg zum Lesen, eine große XML-Datei in Java

Anzahl der Antworten 2 Antworten
Arbeite ich an einem java-Projekt zur Optimierung von vorhandenen code. Derzeit bin ich mit BufferedReader/FileInputStream zum Lesen von Inhalten aus einer XML-Datei als String in Java. Aber meine Frage ist , gibt es eine schnellere Möglichkeit zum

Was ist der Unterschied zwischen einer phrase, die Abfrage und mit einem Kies-filter?

Anzahl der Antworten 1 Antworten
Ich bin derzeit Indizierung Webseite mit lucene. Das Ziel ist es, in der Lage sein, schnell zu extrahieren, die Seite enthalten, einen bestimmten Ausdruck (in der Regel 1, 2 oder 3 Wörter), und die anderen Wörter (oder

Was ist der Unterschied zwischen Informationsextraktion und Text Mining?

Anzahl der Antworten 2 Antworten
Kann es sein, Suche einfach. Aber ich bin verwirrt. Was ist der Unterschied zwischen Text Mining und Information Extraction ? es schauen, wie Philosophie-Frage und es gibt eine Menge von Antworten in google. Gut gesagt... @Borys einverstanden

TFIDF-Berechnung Verwirrung

Anzahl der Antworten 2 Antworten
Fand ich folgenden code im internet für die Berechnung der TFIDF: https://github.com/timtrueman/tf-idf/blob/master/tf-idf.py Fügte ich hinzu "1+" in der Funktion def idf(word, documentList), damit ich nicht bekommen, geteilt durch 0 Fehler: return math.log(len(documentList) / (1 + float(numDocsContaining(word,documentList)))) Aber

Python-NLTK vs. zugehörigen Java-Bibliotheken?

Anzahl der Antworten 2 Antworten
Ich verwendet habe, LingPipe, Stanford NER, RiTa und verschiedene Satz ähnlichkeit Bibliotheken für meine bisherigen Java-Projekte, die sich auf text (vor -) Verarbeitung (Indexierung, xml-tagging, topic detection, etc.) große Mengen der englische text (rund 10.000 Dokumente Summen

Lucene ' s Algorithmus

Anzahl der Antworten 1 Antworten
Ich lese die Zeitung von Doug Cutting; "Raum-Optimierungen für die Gesamtwertung". Da war es vor langer Zeit geschrieben, Frage ich mich, welche algorithmen lucene verwendet (Bezug auf postings list traversal-und score-Berechnung, ranking). Insbesondere, die gesamten ranking-Algorithmus beschrieben,

Bild Höhe und Breite des Bildes gespeichert auf Amazon S3

Anzahl der Antworten 2 Antworten
Ich plan zu speichern die Bilder auf Amazon S3 wie abrufen von Amazon S3 : 1)Datei-Größe 2)Bild-Höhe 3)Bild-Breite ? InformationsquelleAutor Rorkkkk | 2012-05-27

Eine gute Dokumentation über Struktur tcp_info

Anzahl der Antworten 1 Antworten
Ich arbeite daran, die performance-Parameter einer tcp-Verbindung und einer dieser Parameter ist die Bandbreite. Ich bin die beabsichtigen, verwenden Sie die tcp_info Struktur unterstützt linux 2.6 ab, die hält, die meta-Daten über eine tcp-Verbindung. Die Informationen können

Bei der Suche nach Dokumenten auf teilweise Wörter

Anzahl der Antworten 1 Antworten
Ich bin auf der Suche für ein Dokument-Suchmaschine (wie Xapian, Schwups, Lucene, Solr, Sphinx oder andere), die in der Lage ist Suche nach teilbegriffen. Beispielsweise bei der Suche nach dem Begriff "brit" die Suchmaschine zurückkehren sollten Dokumente,

Information retrieval (IR) vs data mining vs Machine Learning (ML)

Anzahl der Antworten 4 Antworten
Menschen, die oft werfen, um die Begriffe IR, ML und data mining, aber ich habe bemerkt, dass sich viele überschneidungen zwischen Ihnen. Von Menschen mit Erfahrung in diesen Bereichen, was genau zeichnet die Linie zwischen diesen? InformationsquelleAutor

Abrufen der öffentlichen Statistik der Videos über die youtube-api

Anzahl der Antworten 3 Antworten
Ist es möglich, eine öffentliche Statistik video? Etwas wie dies, die ich bekommen kann nur insgesamt Ansichten von video-und count: https://www.googleapis.com/youtube/v3/videos?part=statistics&key=API_KEY&id=ekzHIouo8Q4 Ist es möglich, die öffentlichen Statistiken? Ich fand diese Frage Youtube GData-API : Abrufen der öffentlichen

Wie, um eine Analyse der Daten aus Google Alerts?

Anzahl der Antworten 3 Antworten
Erstens, Wie würden Sie sich Google Alerts Informationen in eine andere Datenbank als die zu analysieren den text der E-Mail-Nachricht, sendet Google Sie? Scheint es, dass es keine Google Alerts-API. Wenn Sie parse text, wie würden Sie

verwenden Sie qr-codes, um Informationen zu speichern in einer Datenbank

Anzahl der Antworten 4 Antworten
Ich bin neu auf QR-codes und wollte wissen, ob es möglich wäre einen QR-code zu store Werte in eine Datenbank? Zum Beispiel, wenn eine Quittung gedruckt, ein QR-code und kann das Unternehmen Scannen Sie den Erhalt der

Java-Open-Source-Text-Mining-Frameworks

Anzahl der Antworten 7 Antworten
Ich will wissen, was ist die beste open-source-Java-based framework for Text Mining, verwenden botg Machine-Learning-und Wörterbuch-Methoden. Ich bin mit der Holzhammer, aber es gibt nicht viel Dokumentation und ich weiß nicht, ob es passen alle meine Anforderungen.

Wie man den cache in Solr?

Anzahl der Antworten 2 Antworten
Ich versuche zum Vergleich der Leistung der verschiedenen Solr-Abfragen. Um einen fairen test, ich möchte den cache löschen zwischen den Abfragen. Wie wird das gemacht? Natürlich kann man den server neu starten, ich war neugierig, ob es

Wie zum extrahieren von Notizen und Markierten Teile aus PDF-Dateien

Anzahl der Antworten 1 Antworten
Gibt es eine Möglichkeit, zu extrahieren markierten text und Anmerkungen aus einer PDF-Datei programmgesteuert? Jede Sprache ist willkommen. Ich fand mehrere Bibliotheken mit Python, Java und auch PHP, aber keiner von Ihnen den job. Ich weiß nicht,

Wie bewerten Sie eine Suche/Abfrage-Motor mit trec_eval?

Anzahl der Antworten 1 Antworten
Ist es Körper, TREC_EVAL? Ich brauche eine "Trec_EVAL für dummies". Ich versuche zu bewerten, ein paar Suchmaschinen zu vergleichen, Parameter wie Recall-Precision, ranking Qualität, etc für meine Diplomarbeit. Ich kann nicht herausfinden, wie zu verwenden TREC_EVAL zu

Wie man einen einfachen invertierten index?

Anzahl der Antworten 1 Antworten
Ich möchte erstellen Sie eine einfache Funktion Indizierung der Suchmaschine, ohne API, wie Lucene. In den invertierten index, brauche ich nur zu erfassen, grundlegende Informationen zu jedem Wort, z.B. docID, position und freqence. Nun, ich habe mehrere

TF-IDF-Implementierungen in python

Anzahl der Antworten 3 Antworten
Welche sind die standard-tf-idf-Implementierungen/api in python? Ich bin gekommen, über die man in nltk. Ich möchte wissen, die anderen Bibliotheken, die diese Funktion unterstützen. InformationsquelleAutor der Frage scarecrow | 2013-11-22

Die Sortierreihenfolge Umgekehrt und argsort in python

Anzahl der Antworten 1 Antworten
Ich versuche zu schreiben, eine Funktion in Python (noch ein noob!) die gibt Indizes und Punktzahlen der Dokumente bestellt, die von der inneren Produkte Ihrer tfidf erzielt. Das Verfahren ist: Berechnen Sie den Vektor der inneren Produkte

Wie analysiere ich die Daten von Google Alerts?

Anzahl der Antworten 2 Antworten
Erstens, Wie würden Sie sich Google Alerts Informationen in eine andere Datenbank als die zu analysieren den text der E-Mail-Nachricht, sendet Google Sie? Scheint es, dass es keine Google Alerts-API. Wenn Sie parse text, wie würden Sie

Python: tf-idf-cosine: um Dokumentähnlichkeit zu finden

Anzahl der Antworten 6 Antworten
War ich nach einem tutorial, das war an Teil 1 & Teil 2. Leider hat der Autor nicht die Zeit für den letzten Abschnitt, den die beteiligten mit Kosinus-ähnlichkeit finde eigentlich den Abstand zwischen zwei Dokumenten. Ich

Cosinusähnlichkeit und tf-idf

Anzahl der Antworten 5 Antworten
Ich bin verwirrt durch den folgenden Kommentar über TF-IDF und Kosinus-Ähnlichkeit. War ich zu Lesen, bis auf die beiden und dann auf wiki unter Cosinus-Ähnlichkeit finde ich diesen Satz "Im Falle des information retrieval, der Kosinus-ähnlichkeit zweier

Wikipedia Text herunterladen

Anzahl der Antworten 5 Antworten
Ich bin auf der Suche nach download vollständigen Wikipedia-text für meine college-Projekt. Muss ich schreiben, dass meine eigenen spider zu downloaden oder ist es eine öffentliche Datensatz, Wikipedia online verfügbar? Nur geben Ihnen einige überblick über mein

Was ist die Standardliste der Stoppwörter in Lucenes StopFilter?

Anzahl der Antworten 1 Antworten
Lucene haben eine Standard-stopfilter (http://lucene.apache.org/core/4_0_0/analyzers-common/org/apache/lucene/analysis/core/StopFilter.html), wer weiß, welche Wörter in der Liste? InformationsquelleAutor der Frage alvas | 2013-07-08

Wie kann ich nur den Haupttext aus einer HTML-Seite extrahieren?

Anzahl der Antworten 9 Antworten
Update Boilerpipe scheint wirklich gut zu funktionieren, aber ich erkannte, dass brauche ich nicht nur die wichtigsten Inhalte, weil viele Seiten nicht ein Artikel, sondern nur links mit einer kurzen Beschreibung zu den ganzen Texten (dies ist

Was ist der beste Weg, Trendthemen oder Tags zu berechnen?

Anzahl der Antworten 11 Antworten
Viele Websites bieten einige Statistiken wie "Die heißesten Themen der letzten 24h". Zum Beispiel, Topix.com zeigt diese in der Rubrik "News Trends". Dort können Sie sehen, die Themen, die am schnellsten wachsende Zahl von Nennungen. Möchte ich