Relevante Tags/Schlüsselwörter aus dem Text block
Wollte ich eine bestimmte Implementierung, so dass der Benutzer einen block von text ein:
"Anforderungen
- Kenntnisse, LAMP-Umgebung mit Linux, Apache 2,
MySQL 5 und PHP 5,
- Kenntnisse von Web 2.0-Standards
- Wohl mit JSON
- Praktische Erfahrung auf der Arbeit mit Frameworks, Zend, OOPs
- Cross-Browser Javascripting, JQuery etc.
- Kenntnisse in Version Control Software wie sub-version
vorzuziehen."
Was ich tun möchte, ist wählen Sie automatisch relevante keywords und erstellen Sie die tags/keywords, also für den obigen text, relevanten tags werden sollten: mysql, php, json, jquery, Versionsverwaltung, oop, web2.0, javascript
Wie kann ich gehen, es zu tun in PHP/Javascript etc? Einen Vorsprung, wäre echt hilfreich.
Du musst angemeldet sein, um einen Kommentar abzugeben.
Einer sehr naiven Methode zu entfernen Allgemeine Stoppwörter aus dem text, so dass Sie mit mehr aussagekräftige Worte wie 'Standards', 'JSON', etc. Sie werden immer noch eine Menge Lärm jedoch, so erwägen Sie einen Dienst wie OpenCalais, die eine ziemlich anspruchsvolle Analyse des Textes.
Update:
Okay, der link in meiner vorherigen Antwort darauf hingewiesen, Implementierungen, aber Sie danach gefragt, so einfach ist das hier:
Können Sie sehen, dieses, und der Inhalt
stop_word.txt
in diesem Gist.Ausführen der oben auf deinem Beispiel-text erzeugt das folgende array:
So, wie ich gesagt habe, ist etwas naiv und könnte mehr Optimierung (und es ist langsam), aber es macht ziehen Sie aus dem mehr relevante keywords aus dem text. Sie würde tun müssen, um die Feinabstimmung auf die Stopp-Wörter als gut. Die Erfassung Begriffe wie
Web 2.0
sehr schwer sein wird, damit ich wieder denken, Sie wären besser dran mit einem schweren Dienst wie OpenCalais, die versteht einen text und gibt eine Liste von Entitäten und Referenzen. DocumentCloud beruht auf diesem sehr service zum sammeln von Informationen aus Dokumenten.Auch für client-seitige Implementierung man konnte ziemlich viel die gleiche Sache mit JavaScript, und wahrscheinlich viel sauberer (auch wenn Sie es langsam für die Clients).
Habe ich eine schnelle überprüfung dieser an diesem morgen, und zu meiner überraschung eine, die am besten abschneidet mit meiner test-Satz wurde in PHP geschrieben
Dem, was aussah wie die meisten Professionell durchgeführt abgrundtief: viewer.opencalais.com
Andere, die waren in Ordnung waren (nicht sicher, welche Sprache Sie geschrieben)
Dies ist nicht einfach zu tun, weil es erfordert eine gewisse Art von fuzzy-Logik. Sollten Sie die Yahoo Term extractor YQL
Check it out: link
Je nachdem, ob Sie möchten, zeigen Sie die client-keywords/tags, oder ob Sie möchten, extrahieren Sie die Stichworte /tags aus dem block von text, der dann für weitere Berechnungen mit Ihnen.
Wenn Sie nur brauchen, um Ihnen zu zeigen, dann clientseitiger handling ist in Ordnung. Wenn Sie müssen Sie für die weitere Berechnung, dann verwenden Sie serverseitige handling für Sie.
Kann ich nur empfehlen, ein clientseitiger javascript-Implementierung wenn Sie uns einige weitere details. Wenn Sie möchten, dass Sie allgemein "wissen" keywords dann eine Art clevere Lösung ist notwendig,
Wenn Sie eine Liste der Schlüsselwörter können Sie dann reguläre Ausdrücke um die Daten zu extrahieren