Wie gehen Sie mit den "besonderen" Zeichen, dass MS-Word fügt?
Ich Frage mich, wie Sie sauber die Sonderzeichen, die MS Word als, wie m - und n-Striche und typografische Anführungszeichen?
Ich finde mich oft beim kopieren von Inhalten von Kunden aus Word und einfügen in eine statische HTML-Seite, aber der Inhalt endet mit komischen Zeichen, da die Sonderzeichen sind nicht in Ihren korrekten ACSII-codes und somit als verstümmelten text. (Für diese grundlegenden websites, ich bin mit Dreamweaver.)
Ich habe gesehen, dass viele ähnliche Probleme, wenn clients kopieren von Inhalten aus Word in nur-text-Felder (meist Texteingabefelder). Wenn ich diese in eine PDF-Datei (in PHP), oder es zeigt sich auf der Seite, es hat auch verstümmelten text.
Wie behandeln Sie diese? Gibt es eine Reinigung oder Programm verwenden Sie?
Du musst angemeldet sein, um einen Kommentar abzugeben.
Mit Bezug auf Kunden die Buchung copy/Paste von text aus Word in Texteingabefelder:
Der zuverlässigste Weg, um sicherzustellen, dass der client Sie sendet text in einer bestimmten Codierung (also hoffentlich tun die Umrechnung von CP-1252 [oder was auch immer Wort verwendet] für Sie), ist das hinzufügen der
accept-charset="..."
- Attribut auf alle Ihre<form>
s. E. g.:Meisten Browser tun, und stellen sicher, dass alle "Word-spezifischen" Zeichen, die konvertiert werden zu den entsprechenden Zeichensatz, bevor es auf Ihrer website.
Einmal den ungültigen text bekommt, um Ihre website, es gibt sehr wenig Sie tun können, um es zu beheben zuverlässig, so ist es am besten, einfach überprüfen Sie alle Eingaben als gültig, in welchem Zeichensatz Sie verwenden, und entsorgen Sie alle Anforderungen, die den ungültigen text. Dies ist auch erforderlich, mit
accept-charset
, denn zweifellos gibt es einige clients gibt, die es ignorieren.Können Sie
preg_replace
Funktion aufrufen, um entfernen Sie alle Sonderzeichen von word oder anderen aus Ihrem stringAchten, um anzugeben, eine Codierung und überall UTF-8 verwenden, dann werden diese "speziellen" Zeichen sollte überleben just fine. Aber sobald Sie gegangen sind, durch eine Codierung, kann nicht stellen Ihnen, die Informationen, welchen Charakter es ursprünglich war, ist verloren, so dass es nicht repariert werden kann (außer für einige bestimmte wenn auch wahrscheinlich sehr Häufig Fälle vor, wie der Wechsel zwischen Cp1252 und ISO-8859-1).
Könnten Sie versuchen, die Demoroniser.
Stellen Sie sicher, dass Word so konfiguriert ist, um die Verwendung von UTF-8 für "Speichern Als.." HTML.
Dies ist in den Optionen > Word-Optionen - > Advanced - > Internet-Optionen > Encoding
Wenn es eine Word-Datei, die nur text (d.h.: keine Grafiken, Tabellen, etc.), Sie könnten versuchen, Speichern Als HTML in Word, kopieren/einfügen der resultierende HTML-Code in Ihr Dokument in Dreamweaver und dann mit Dreamweaver den "Clean Up Word HTML" - Funktion (unter dem Kommando Menü).
Als alternative, können Sie versuchen,fix mein HTML, obwohl ich habe nicht persönlich versucht, es mit der Word-text, so Ergebnisse können variieren.