Was ist der beste Weg, um zu übersetzen, eine große Menge von text-Daten?
Ich habe eine Menge von text-Daten und möchten, übersetzen Sie in verschiedene Sprachen.
Möglichkeiten die ich kenne:
- Google Translate API
- Bing Translate API
Das problem ist, dass all diese Dienste haben Grenzen auf die Textlänge, die Anzahl der Anrufe etc. das macht Sie inconveniente im Einsatz.
Welche Dienstleistungen /Möglichkeiten, wie Sie Ratschläge erteilen konnte, in diesem Fall verwenden?
- Keine Programmierung verwandt. Abstimmung zu verschieben, um Super-User.
- Er verlangt für eine API programmgesteuert übersetzung großer Texte.. wie ist dass nicht mit der Programmierung zu tun?
- das ist auf jeden Fall die Programmierung im Zusammenhang
- Der erste Satz ist "ich habe eine Menge von text-Daten und möchten, übersetzen Sie in verschiedene Sprachen." Dies ist nicht das gleiche wie "ich brauche die Einrichtung eine Möglichkeit, text zu übersetzen, in einer automatisierten Weise."
- Die Frage enthält mehr als einen Satz.
Du musst angemeldet sein, um einen Kommentar abzugeben.
Ich zu lösen hatte das gleiche problem bei der Integration von Sprache übersetzung mit einem xmpp-chat-server. Ich partitionierte meine payload (den text den ich brauchte, um zu übersetzen) in kleinere Teilmengen der vollständigen Sätzen. Ich kann mich nicht erinnern die genaue Zahl, aber mit googles rest-basierte übersetzung-url, die ich übersetzt eine Reihe von abgeschlossenen Sätzen, die collectivly hatte insgesamt weniger als (oder gleich) 1024 Zeichen, so einen großen Absatz ergeben würde, in mehrere übersetzungs-service-Aufrufe.
Pause Ihren großen text in Token-strings übergeben Sie dann jedes token durch den übersetzer über eine Schleife. Speichern Sie die übersetzte Ausgabe in ein array und einmal alle Token übersetzt werden und im array gespeichert setzen Sie Sie wieder zusammen und Sie haben ein vollständig übersetztes Dokument.
EDIT: 4/25/2010
Nur um zu beweisen ich warf dies zusammen 🙂 Es ist rau an den Rändern, aber es behandelt eine GANZE Menge text und es nicht nur so gut wie die Google-übersetzungen auf Genauigkeit, denn Sie nutzt die Google-API. Ich verarbeitete Apple gesamte Jahr 2005 SEC 10-K filing mit diesem code und dem klicken einer Taste (dauerte etwa 45 Minuten). Das Ergebnis war im Grunde identisch zu dem, was Sie erhalten würden, wenn Sie kopiert und eingefügt, Satz für Satz in den Google Übersetzer. Es ist nicht perfekt (ein Satzzeichen ist nicht korrekt und ich wollte nicht schreiben, dass die text-Datei Zeile für Zeile), aber es zeigt proof-of-concept. Es könnte bessere Interpunktion, wenn Sie arbeitete mit Regex einige mehr.
EDIT: 4/26/2010
Bitte versuchen Sie es, bevor Sie downvote, ich hätte es nicht gepostet wenn es nicht funktionieren gut.
Disclaimer: Während ich auf jeden Fall finden tokenisierung als Mittel der übersetzung vermute, die Teilung auf Sätze wie später dargestellt, durch typoking kann Ergebnisse produzieren, die zu füllen Ihre Anforderungen.
Ich schlug vor, dass sein code könnte verbessert werden durch die Reduzierung der 30+ - Linien von string-munging auf die 1 Zeile regex fragte er nach in einer anderen Frage aber der Vorschlag war nicht gut erhalten.
Hier ist eine Implementierung mit google-api für .net in VB und CSharp
Programm.cs
Module1.vb
Eingang (gestohlen direkt aus typoking)
Ergebnisse (zu Deutsch für typoking):
Google bietet ein nützliches tool,
Google Translator Toolkit
, die Ihnen ermöglicht, Dateien hochzuladen und zu übersetzen, zu welcher Sprache Google Translate unterstützt, auf einmal.Es ist kostenlos, wenn Sie möchten, verwenden Sie die automatisierten übersetzungen aber es ist eine option zu mieten, die realen Personen zu übersetzen Ihre Dokumente für Sie.
Aus Der Wikipedia:
Link
Es gibt eine fülle von verschiedenen Maschinen-Übersetzung-APIs: Google, Microsoft, Yandex, IBM, PROMT, Systran, Baidu, YeeCloud, DeepL, SDL, SAP.
Einige von Ihnen unterstützt batch-Anfragen (die übersetzung von einem array von text auf einmal). Ich würde übersetzen-Satz für Satz mit der richtigen Verarbeitung von 403/429 Fehler (in der Regel verwendet, um Antworten für Kontingent überschritten)
Darf ich verweisen Sie auf unsere aktuelle Studie (November 2017): https://www.slideshare.net/KonstantinSavenkov/state-of-the-machine-translation-by-intento-november-2017-81574321
Könnten Sie Amazon ' s Mechanical Turk
https://www.mturk.com/
Legen Sie eine Gebühr für die übersetzung von einem Satz oder Absatz, und Reale Menschen die Arbeit. Plus, können Sie automatisieren es mit den Amazon APIs.
Dies ist eine lange gedreht, aber hier geht es:
Vielleicht in diesem blog-post, die beschreibt, mit Second Life zu übersetzen von Artikeln für Sie hilfreich sein, zu?
Ich bin auch nicht sicher, ob Second Life-API können Sie die übersetzung in einer automatisierten Weise, obwohl.
Verwendeten wir http://www.berlitz.co.uk/translation/
Wir würden senden Sie eine Datenbank-Datei mit der englischen, und eine Liste der Sprachen, die wir benötigt haben, und Sie möchten, verwenden verschiedene zweisprachige Mitarbeiter, um die übersetzungen. Sie auch verwendet, voice-Schauspieler zu bieten WAV-Dateien für unsere Telefon-Schnittstelle.
War dies offensichtlich nicht so schnell wie automatische übersetzung, und nicht frei, aber ich denke, diese Art von service ist der einzige Weg, um sicher sein, dass Ihr die übersetzung macht Sinn.