Java-Spracherkennung
Gibt es Jemanden, der Erfahrung hat mit einer open-source -, oder relativ Billig voice recognition API für java? Ich bin ziemlich viel auf der Suche nach etwas, das gesprochene Worte in text.
Aus der java-Spracherkennung-Seite, auf der Sonne, es scheint, dass es etwas ist, die ist eher tot. Meine Bedürfnisse ist etwas, das zumindest unter linux läuft.
Kann jemand etwas empfehlen? Reine java wäre ein bonus, sonst eine linux-basierte Lösung in Betracht gezogen werden. Und da dies ein Projekt für zu Hause... desto günstiger, desto besser.
- Bearbeiten
CMU Sphinx
Als Amit wies darauf hin, CMU Sphinx http://cmusphinx.sourceforge.net/html/cmusphinx.php
Mein problem ist ein massives Wort-Fehler-rate. Ausbildung scheint wie ein Projekt alle in sich selbst, ich bin der Hoffnung, zu sammeln, einige Kraft, um zu versuchen, es an diesem Wochenende.
IBM ViaVoice
Es gibt Neuigkeiten Ankündigungen im Umlauf für 2004 über Über die Stimme gemacht wird open source. Es scheint die news release verfrüht war und dass es nie passiert ist. ÜBER die Stimme wurde für linux veröffentlicht an einem gewissen Punkt, aber Es scheint, dass Sie aufgehört. All das scheint zu sein, Links auf der IBM website ist Embedded ViaVoice.
IBM Websphere Voice
Ich denke, das ist, warum ViaVoice (desktop) scheint eingestellt. IBM erstellt diese kommerzielle Lösung, die Kosten zuzuteilen, die mehr als einen arm und ein Bein. Und nur dann nehmen Sie die, die Sie verlassen haben, zumindest nach meiner Erfahrung mit websphere und Ihre IDE.
Nuance
Es scheint, dass Sie möglicherweise noch Produkte für linux. Aber ich denke, Sie haben verloren und folgten IBM in den server-Markt. Ich bin nicht so sicher über diese ein, Ihre Website ist nicht, dass der freundliche bei der Suche nach nützlichen Informationen.
Open Mind /Freie Rede
Diese Jungs halten Sie ändern Ihre Namen für das Projekt. Wahrscheinlich auch einige, die Geld-hungrigen-Unternehmen hält drohte Ihnen, aber ich weiß nicht. Das Projekt sieht ein bisschen tot.
Könnte ich versuchen die Ausbildung Sphinx an diesem Wochenende zu sehen, wenn es will, Freunde zu sein. Sonst schlimmer Fall, ich werde auf der Suche bei Verwendung von Microsoft ' s speech-Lösung. Es hat funktionierte gut für mich in der Vergangenheit, aber es ist nicht ein großer linux-Lösung. Ich könnte wahrscheinlich verwenden Sie es mit wine, aber dann werde ich schon von zwei verschiedenen Servern... chaotisch chaotisch.
Oh, und was scheint ein guter Ort zu besuchen, für Sprach - /Sprech SpeechTechMag. Sie haben eine "Anual Referenz', die eine Liste von Firmen, die irgendwie bezieht sich auf Stimme/Sprache.
InformationsquelleAutor guyumu | 2009-03-04
Du musst angemeldet sein, um einen Kommentar abzugeben.
Meist Java: http://cmusphinx.sourceforge.net/html/cmusphinx.php
Ich habe keine praktische Erfahrung mit ihm./
Diese Frage ist ziemlich alt, aber ich möchte sagen, die aktuelle performance der Sphinx. Ich verwendet, Sphinx 4 und angepasst WSJ Modell, und es gab mir 86% Genauigkeit.
InformationsquelleAutor
sphinx ist bei weitem die beste option zur Verfügung, wenn Sie auf einem Etat sind.
allerdings macht es auch einen riesige Unterschied, welche Modelle Sie verwenden, wie Sie Stimmen und wie optimieren Sie Ihre audio-Quelle. absolut alles muss passen sonst ist es einfach nicht funktionieren. wenn man das problem, das Sie beschrieben, id bereit zu Wetten, eine beträchtliche Summe, die Sie bekommen haben, Sie haben Ihre Modelle Durcheinander und dein mic ist nicht richtig kalibriert. auch, wenn Sie haben einen Akzent, es wird wahrscheinlich nicht funktionieren - das ist nicht ein Problem mit dem decoder, aber mit den akustischen Modellen - wenn niemand mit einer Stimme/Akzent ähnlich wie bei Ihnen war in den Trainings-Daten erhalten Sie schlechte Ergebnisse.
sagte, haben Sie sich Ihre open-source-Modelle-Seite?
http://www.speech.cs.cmu.edu/sphinx/models/
je nachdem, was Sie versuchen zu tun sollten Sie in der Lage zu erhalten über 90% Genauigkeit auf freie Meinungsäußerung mit den 16kHz WSJ-Modelle und die gigaword LMs NVP. ich warne jedoch, dass die ASR ist ein massives Unterfangen und ist noch nicht erreicht commodity-status.
microsoft ist der Motor auch verwendet werden, um basierend auf sphinx. nun ich denke, dass Sie vielleicht verlassen sich stärker auf HTK, ein weiteres open-source speech recognition system. Ihr Akzent ist nicht eine subjektive Angelegenheit aus der Sicht des ASR-Systems. die Ergebnisse werden stark davon abhängig, wie gut die Merkmale Ihrer Stimme entsprechen jenen der Stimmen, die in den Trainingsdaten. Unterschiede, die möglicherweise trivial erscheinen, um Sie, zum Beispiel ein Kanadier gegen einen amerikanischen Akzent, möglicherweise erhebliche Auswirkungen auf die ASR-Qualität. in diesen Tagen die meisten Systeme stützen sich auf die gleichen algorithmen, die Differenz der Daten.
InformationsquelleAutor
können Sie herunterladen vPass (voice-Passwort) aus http://www.basic-signalprocessing.com.
Für (vText) Stimme zu text, den ich schicken kann vText.jar Datei an Ihre E-Mail. Pls Benachrichtigen [email protected]
Die Komponenten sind so konzipiert, Java und .Net-Sprache. Die Anerkennung beträgt 5 Sekunden. VPass ist gut getestet vText ist nicht, noch neu, deshalb noch nicht verpackt.
Grüße,
Andreas
InformationsquelleAutor
Bin ich auf der Suche für die gleiche Sache jetzt seit ein paar Tagen. So weit ich gefunden habe, Sphinx4 und FreeTTS. Beide sind java-Implementierungen und der Sphinx so wie es scheint, aktualisiert sich Recht Häufig im Gegensatz zu FreeTTS. Das einzige problem, das ich habe, ist, dass die Sphinx ist, die Probleme mich zu verstehen, die in einer office-Umgebung, und ich brauche eine Lösung für ein data-warehouse-Umgebung.
InformationsquelleAutor
Meine Gruppe fertig ist ein mini-Programm in Java zu erkennen gesprochener Ziffern mit Sphinx.
InformationsquelleAutor