Tag: information-retrieval
Information Retrieval ist ein Bereich der Studie über die mit dem empfangen von Dokumenten, Informationen oder Metadaten aus einer Sammlung von unstrukturierten oder semi-strukturierten Daten.
1
Antworten
Habe ich 100 Dokumente(Jedes Dokument ist eine einfache Liste von Wörtern in diesem Dokument). Ich möchte jetzt erstellen Sie ein TF-IDF-matrix so, dass ich eine kleine Wort-Suche von Rang. Ich versuchte es mit einem tfidfVectorizer aber verlor
2
Antworten
Arbeite ich an einem java-Projekt zur Optimierung von vorhandenen code. Derzeit bin ich mit BufferedReader/FileInputStream zum Lesen von Inhalten aus einer XML-Datei als String in Java. Aber meine Frage ist , gibt es eine schnellere Möglichkeit zum
1
Antworten
Ich bin derzeit Indizierung Webseite mit lucene. Das Ziel ist es, in der Lage sein, schnell zu extrahieren, die Seite enthalten, einen bestimmten Ausdruck (in der Regel 1, 2 oder 3 Wörter), und die anderen Wörter (oder
2
Antworten
Kann es sein, Suche einfach. Aber ich bin verwirrt. Was ist der Unterschied zwischen Text Mining und Information Extraction ? es schauen, wie Philosophie-Frage und es gibt eine Menge von Antworten in google. Gut gesagt... @Borys einverstanden
2
Antworten
Fand ich folgenden code im internet für die Berechnung der TFIDF: https://github.com/timtrueman/tf-idf/blob/master/tf-idf.py Fügte ich hinzu "1+" in der Funktion def idf(word, documentList), damit ich nicht bekommen, geteilt durch 0 Fehler: return math.log(len(documentList) / (1 + float(numDocsContaining(word,documentList)))) Aber
2
Antworten
Ich verwendet habe, LingPipe, Stanford NER, RiTa und verschiedene Satz ähnlichkeit Bibliotheken für meine bisherigen Java-Projekte, die sich auf text (vor -) Verarbeitung (Indexierung, xml-tagging, topic detection, etc.) große Mengen der englische text (rund 10.000 Dokumente Summen
1
Antworten
Ich lese die Zeitung von Doug Cutting; "Raum-Optimierungen für die Gesamtwertung". Da war es vor langer Zeit geschrieben, Frage ich mich, welche algorithmen lucene verwendet (Bezug auf postings list traversal-und score-Berechnung, ranking). Insbesondere, die gesamten ranking-Algorithmus beschrieben,
2
Antworten
Ich plan zu speichern die Bilder auf Amazon S3 wie abrufen von Amazon S3 : 1)Datei-Größe 2)Bild-Höhe 3)Bild-Breite ? InformationsquelleAutor Rorkkkk | 2012-05-27
1
Antworten
Ich arbeite daran, die performance-Parameter einer tcp-Verbindung und einer dieser Parameter ist die Bandbreite. Ich bin die beabsichtigen, verwenden Sie die tcp_info Struktur unterstützt linux 2.6 ab, die hält, die meta-Daten über eine tcp-Verbindung. Die Informationen können
1
Antworten
Ich bin auf der Suche für ein Dokument-Suchmaschine (wie Xapian, Schwups, Lucene, Solr, Sphinx oder andere), die in der Lage ist Suche nach teilbegriffen. Beispielsweise bei der Suche nach dem Begriff "brit" die Suchmaschine zurückkehren sollten Dokumente,
4
Antworten
Menschen, die oft werfen, um die Begriffe IR, ML und data mining, aber ich habe bemerkt, dass sich viele überschneidungen zwischen Ihnen. Von Menschen mit Erfahrung in diesen Bereichen, was genau zeichnet die Linie zwischen diesen? InformationsquelleAutor
3
Antworten
Ist es möglich, eine öffentliche Statistik video? Etwas wie dies, die ich bekommen kann nur insgesamt Ansichten von video-und count: https://www.googleapis.com/youtube/v3/videos?part=statistics&key=API_KEY&id=ekzHIouo8Q4 Ist es möglich, die öffentlichen Statistiken? Ich fand diese Frage Youtube GData-API : Abrufen der öffentlichen
3
Antworten
Erstens, Wie würden Sie sich Google Alerts Informationen in eine andere Datenbank als die zu analysieren den text der E-Mail-Nachricht, sendet Google Sie? Scheint es, dass es keine Google Alerts-API. Wenn Sie parse text, wie würden Sie
4
Antworten
Ich bin neu auf QR-codes und wollte wissen, ob es möglich wäre einen QR-code zu store Werte in eine Datenbank? Zum Beispiel, wenn eine Quittung gedruckt, ein QR-code und kann das Unternehmen Scannen Sie den Erhalt der
7
Antworten
Ich will wissen, was ist die beste open-source-Java-based framework for Text Mining, verwenden botg Machine-Learning-und Wörterbuch-Methoden. Ich bin mit der Holzhammer, aber es gibt nicht viel Dokumentation und ich weiß nicht, ob es passen alle meine Anforderungen.
2
Antworten
Ich versuche zum Vergleich der Leistung der verschiedenen Solr-Abfragen. Um einen fairen test, ich möchte den cache löschen zwischen den Abfragen. Wie wird das gemacht? Natürlich kann man den server neu starten, ich war neugierig, ob es
1
Antworten
Gibt es eine Möglichkeit, zu extrahieren markierten text und Anmerkungen aus einer PDF-Datei programmgesteuert? Jede Sprache ist willkommen. Ich fand mehrere Bibliotheken mit Python, Java und auch PHP, aber keiner von Ihnen den job. Ich weiß nicht,
1
Antworten
Ist es Körper, TREC_EVAL? Ich brauche eine "Trec_EVAL für dummies". Ich versuche zu bewerten, ein paar Suchmaschinen zu vergleichen, Parameter wie Recall-Precision, ranking Qualität, etc für meine Diplomarbeit. Ich kann nicht herausfinden, wie zu verwenden TREC_EVAL zu
1
Antworten
Ich möchte erstellen Sie eine einfache Funktion Indizierung der Suchmaschine, ohne API, wie Lucene. In den invertierten index, brauche ich nur zu erfassen, grundlegende Informationen zu jedem Wort, z.B. docID, position und freqence. Nun, ich habe mehrere
3
Antworten
Welche sind die standard-tf-idf-Implementierungen/api in python? Ich bin gekommen, über die man in nltk. Ich möchte wissen, die anderen Bibliotheken, die diese Funktion unterstützen. InformationsquelleAutor der Frage scarecrow | 2013-11-22
1
Antworten
Ich versuche zu schreiben, eine Funktion in Python (noch ein noob!) die gibt Indizes und Punktzahlen der Dokumente bestellt, die von der inneren Produkte Ihrer tfidf erzielt. Das Verfahren ist: Berechnen Sie den Vektor der inneren Produkte
2
Antworten
Erstens, Wie würden Sie sich Google Alerts Informationen in eine andere Datenbank als die zu analysieren den text der E-Mail-Nachricht, sendet Google Sie? Scheint es, dass es keine Google Alerts-API. Wenn Sie parse text, wie würden Sie
6
Antworten
War ich nach einem tutorial, das war an Teil 1 & Teil 2. Leider hat der Autor nicht die Zeit für den letzten Abschnitt, den die beteiligten mit Kosinus-ähnlichkeit finde eigentlich den Abstand zwischen zwei Dokumenten. Ich
5
Antworten
Ich bin verwirrt durch den folgenden Kommentar über TF-IDF und Kosinus-Ähnlichkeit. War ich zu Lesen, bis auf die beiden und dann auf wiki unter Cosinus-Ähnlichkeit finde ich diesen Satz "Im Falle des information retrieval, der Kosinus-ähnlichkeit zweier
5
Antworten
Ich bin auf der Suche nach download vollständigen Wikipedia-text für meine college-Projekt. Muss ich schreiben, dass meine eigenen spider zu downloaden oder ist es eine öffentliche Datensatz, Wikipedia online verfügbar? Nur geben Ihnen einige überblick über mein
1
Antworten
Lucene haben eine Standard-stopfilter (http://lucene.apache.org/core/4_0_0/analyzers-common/org/apache/lucene/analysis/core/StopFilter.html), wer weiß, welche Wörter in der Liste? InformationsquelleAutor der Frage alvas | 2013-07-08
9
Antworten
Update Boilerpipe scheint wirklich gut zu funktionieren, aber ich erkannte, dass brauche ich nicht nur die wichtigsten Inhalte, weil viele Seiten nicht ein Artikel, sondern nur links mit einer kurzen Beschreibung zu den ganzen Texten (dies ist
11
Antworten
Viele Websites bieten einige Statistiken wie "Die heißesten Themen der letzten 24h". Zum Beispiel, Topix.com zeigt diese in der Rubrik "News Trends". Dort können Sie sehen, die Themen, die am schnellsten wachsende Zahl von Nennungen. Möchte ich