Tag: unicode
Unicode ist ein standard für die Zeichencodierung, Darstellung und Handhabung von text mit der Absicht, die Unterstützung alle erforderlichen Zeichen für Texte, die alle schreiben, Systeme, technische Symbole und Satzzeichen.
6
Antworten
Mit dem snippet unten, ich habe versucht, zu extrahieren die text-Daten aus diese PDF-Datei. import pyPdf def get_text(path): # Load PDF into pyPDF pdf = pyPdf.PdfFileReader(file(path, "rb")) # Iterate pages content = "" for i in range(0,
1
Antworten
Habe ich eine kleine konsolenbasierte Anwendung, mit der Physik lösen von Gleichungen. Ich bin versuchen, um den Benutzer zu Fragen, wenn Sie wollen, finden Sie die ΔV in einer bestimmten situation, aber ich kann nicht herausfinden, wie
4
Antworten
Gibt es eine Möglichkeit in PHP, die erkennen die folgenden Charakter -�? Ich bin derzeit auf der Festsetzung einer Reihe von UTF-8-Codierung Probleme mit ein paar verschiedenen algorithmen und müssen in der Lage sein zu erkennen, ob
2
Antworten
Aus irgendeinem Grund, Python zu sein scheint, Probleme mit BOM beim Lesen von unicode-Zeichenfolgen aus einer UTF-8 - Datei. Betrachten Sie das folgende: with open('test.py') as f: for line in f: print unicode(line, 'utf-8') Scheint einfach, nicht
2
Antworten
Bekomme ich Quellen aus dem web, und manchmal ist die Kodierung des Materials ist nicht zu 100% UTF8-byte-Sequenz gültig. Ich benutze iconv stillschweigend zu ignorieren, diese Sequenzen zu erhalten, die gereinigte Zeichenfolge. @iconv = Iconv.new('UTF-8//IGNORE', 'UTF-8') valid_string
1
Antworten
Wenn ich versuche, verwenden Sie eine Magische Kommentar wie #coding=utf-8 oben auf eine Datei, hier ist was passiert: Traceback (most recent call last): File <string>, line 0 SyntaxError: encoding declaration in Unicode string Ich habe wirklich nichts
5
Antworten
haben wir diesen code: $value = preg_replace("/[^\w]/", '', $value); wo $value ist in utf-8. Nach dieser transformation erste byte der multibyte-Zeichen werden entfernt. Wie man \w Abdeckung UTF-8 chars komplett? Sorry, ich bin nicht sehr gut in
2
Antworten
Ich benutze io:format von log-Meldungen auf der Festplatte. Jede Nachricht sieht wie [{Feld1, Inhalt1}, {Feld2, Content2}, ...]. Wenn ich mit io:format("~p", [Msg]), um es zu drucken, wird die Datei Aussehen [{Feld1, <<123,456,789,...>>"}, ...]. Aber ich will drucken-unicode-Zeichenfolgen
2
Antworten
Ich versuche zu arbeiten mit unicode-Zeichen, und die Informationen, die durch den string ist .ord-Methode hilft mir nicht. Ich bin gewohnt, arbeiten mit codes wie "\uXXXX". ruby-1.9.3-p0 :119 > form[0] => "כ" ruby-1.9.3-p0 :120 > form[0].ord =>
2
Antworten
Bevor jemand gibt mir Mist über diese aufgefordert, eine Milliarde mal, bitte beachten Sie, dass ich versucht habe, einige der Antworten, die in vielen thread, aber keiner von Ihnen schien zu funktionieren richtig für mein problem. import
1
Antworten
Ich versuche zu konvertieren die Werte in meiner Liste zu normalen strings wie listy = [['value1','value2','value3'],['value1','value2','value3'],[ Ich initialisiert eine leere Liste listy = alle die <a> mit find_all('a') und produziert diese als Ausgang listy = [[...
3
Antworten
Können sagen, ich habe das Zeichen Ú, Ù, Ü. Alle von Ihnen sind ähnlich glyphically der englischen U. Gibt es eine Liste oder Algorithmus, um dies zu tun: Gegeben ein Ú oder Ù oder Ü die Rückkehr
4
Antworten
Ich bin mit jquery $.getJSON zum abrufen der Liste der Städte. Alles funktioniert gut, aber ich bin aus Estland, und wir sind mit einigen Zeichen wie í, ü. ä, ö. Wenn ich den pass von Buchstaben wie
2
Antworten
Keine Ahnung, wie, um loszuwerden, diese irritierende Zeichen U+0092 aus einer Reihe von text-Dateien? Ich habe versucht, alle die unter, aber es funktioniert nicht. Es heißt U+0092+Einstellungen aus der Zeichentabelle sed -i 's/\xc2\x92//' * sed -i 's/\u0092//'
6
Antworten
Ich pass Kommandozeilen-argument, das ist Japanisch Java-main-Methode. Wenn ich geben Sie Unicode-Zeichen auf Kommandozeilen-Fenster, es anzeigt '?????' das ist OK, aber der Wert übergebenen java-Programm ist auch '?????'. Wie bekomme ich den richtigen Wert von argument übergeben,
3
Antworten
Ich bin Probleme mit .isupper (), wenn ich eine utf-8-codierte Zeichenfolge. Ich habe eine Menge von text-Dateien bin ich der Konvertierung in xml. Während der text ist sehr variable das format ist statisch. Worte in Großbuchstaben werden
3
Antworten
Habe ich ein kleines Python-code in Q_GIS öffnet Objekten. Das problem ist, dass ich in dem Verzeichnis gibt es ein Zeichen (Unterstrich-Charakter), kann nicht kodiert werden. Der Fehler ist: Traceback (most recent call last): File "", line
7
Antworten
Google hat nicht geholfen. Albern, nicht suchen ¿ Suche upside-down-Fragezeichen. Warum wurde dieser geschlossen? Soweit Fragen gehen, es können nicht mehr real und spezifischer als diese. Shapecatcher ist ein Recht neues tool für ähnliche Fragen. Es funktioniert
6
Antworten
GNU diff scheint nicht intelligent genug sein, zu erkennen und zu behandeln UTF-16-Dateien, das wundert mich. Übersehe ich eine offensichtliche command-line option? Gibt es eine gute alternative? Ich weiß nicht, UTF-16, aber es sollte in der Lage
1
Antworten
Habe ich installiert visual studio 2012 auf 64-bit windows 7, und versuchen, zu bauen-MFC-Projekt, aber auf den ersten debug erscheint immer Fehler: Error 1 error C3861: '_T': identifier not found c:\program files (x86)\microsoft visual studio 11.0\vc\atlmfc\include\atlexcept.h 66
3
Antworten
Ich habe einen japanischen final kommen bald, so zu helfen, mich zu studieren, machte ich ein Programm um mir zu helfen zu studieren. Aber ich kann nicht scheinen, um VS2008 anzuzeigen, die Unicode in der Konsole. Dies
1
Antworten
Ich versuche, eine Suchfunktion zu implementieren, die durch eine Liste von strings in einem Kontext, wo es keine Möglichkeit gibt, etwas zu verwenden, wie str.startswith (Wenn Sie neugierig sind, ich hab die Abfrage der app engine datastore.)
4
Antworten
[Update] zu Schätzen wissen die Antworten und geben Sie alle um, aber funktionierenden code wäre sehr zu begrüßen. Wenn Sie angeben, dass code, Lesen Sie die sample-Dateien, die Sie sind der König (oder die Königin). [Update 2]
3
Antworten
Ich werde aus meinem Kopf, versuche einfach die Ausgabe UTF-8-codierte Daten an die Konsole. Habe ich es geschafft dies zu erreichen, mit String, aber jetzt möchte ich das gleiche tun mit ByteString. Ist es eine schöne und
5
Antworten
Ich habe einen std::string mit UTF-8-Zeichen. Ich möchte konvertieren Sie die Zeichenfolge in Ihrer nächsten gleichwertig mit ASCII-Zeichen. Beispiel: Łódź => Lodz Assunção => Assuncao Schloß => Schloss Leider ICU-Bibliothek ist sehr unintuitiv und ich habe nicht
3
Antworten
Stehe ich vor einem kleinen Problem (glaube ich) in der socket-Programmierung. Beim senden von text aus nicht-englischen Sprachen, die ich fehlerhafte Ergebnisse. Nach viel recherche bei google, habe ich einige Korrekturen. Ich änderte getBytes() zu getBytes("UTF-8") und
5
Antworten
Ich habe den folgenden code: import pandas as pd x = [u'string with some unicode: \x16'] df = pd.DataFrame(x) Wenn ich versuche, das zu schreiben dataframe als excel-Datei: df.to_excel("test.xlsx") Oder, wenn ich versuche, das zu schreiben dataframe
1
Antworten
Ich versuche, verwenden Sie iconv(3) zu konvertieren, eine wide-character-string nach UTF-8 mit dem nachstehenden code. Wenn ich unten die "iconv" - Aufruf gibt E2BIG, als gäbe es nicht genügend bytes zur Verfügung stehende Platz in den Ausgabepuffer.
1
Antworten
Ich Schreibe ein code für die, die einen tweet, aber ich habe Probleme mit der Codierung. Als ich versucht habe anzuwenden, porter stemmer, es zeigt Fehler.Vielleicht habe ich m nicht in der Lage, die tokenisierung es richtig
1
Antworten
Ich habe versucht zahlreiche Wege zu Kodieren, das zu dem Ergebnis "BACK RUSHIN'" mit der wichtigste Charakter als das richtige Apostroph '. Ich würde wie ein Weg, um zu diesem Zweck mit einigen der eingebauten Funktionen von
2
Antworten
Geschlossen. Diese Frage ist off-topic. Es ist derzeit nicht akzeptieren Antworten. verbessern Wollen dieser Frage? "Update" die Frage so ist es on-topic für Stack-Überlauf. Geschlossen 4 Jahre vor. Ich will wissen, einen regulären Ausdruck für die ägyptischen
5
Antworten
Wie behandle ich die Elemente @ARGV als UTF-8 in Perl? Derzeit verwende ich die folgenden work-around .. use Encode qw(decode encode); my $foo = $ARGV[0]; $foo = decode("utf-8", $foo); .. das funktioniert, ist aber nicht sehr elegant.
3
Antworten
gibt es einige ähnliche Fragen gibt, aber keine, die sind ziemlich die gleichen, oder haben Sie eine Antwort, die für mich funktioniert. Brauche ich eine javascript-Funktion, die überprüft, ob ein text-Feld enthält alle gültigen lateinischen Zeichen, also
3
Antworten
Hier wie jsp-Seite aufgerufen wird. eventMap.jsp?venue=%C4%B0ndigo Dies ist die Zeile, in der eventMap.jsp, die ich erhalten Ort-parameter: var venue="<%= URLDecoder.decode(request.getParameter("venue"),"UTF-8") %>"; Leider ist das Ergebnis in final javascript: var venue="Ä°ndigo"; Wie kann ich die Codierung richtig in
1
Antworten
Meine Funktion gibt ein Tupel das ist dann einer Variablen zugewiesen, x und angehängt eine Liste. x = (u'string1', u'string2', u'string3', u'string4') resultsList.append(x) Die Funktion mehrfach aufgerufen wird, und die endgültige Liste besteht aus 20 Tupel. Den
2
Antworten
Ich bin debugging-Anwendung auf meinem android-Gerät (Motorola Defy, 2.1), die Anwendung erhält, Russisch HTML-Seite aus dem Netzwerk, kann aber nicht anzeigen. Es zeigt, wie link-text. HTML-Seite ist in UTF-8 (100% sicher). Source code: HttpClient httpclient = new
1
Antworten
Mit Python 2.7 und SQLAlchemy 0.7, ich bin die Verbindung zu einer MySQL-DB mit dem Befehl: engine = create_engine('mysql://username:password@host/dbname?charset=utf8',echo=False) Entsprechend der SQLAlchemy-docs, die Einstellung charset=utf-8 impliziert automatisch use_unicode=1, so dass alle Saiten kommen sollte, wieder als unicode.
2
Antworten
In Javascript, wie kann ich konvertieren von BMP unicode-Zeichen in binäre (und zurück)? Ich kann nicht scheinen zu finden, built-in string-Methode binaryCharCodeAt() kommt soetwas existieren? Wenn nicht, meine Vermutung, wie es manuell zu tun wäre, um erstellen
2
Antworten
Ich versuche so senden Sie ein Objekt wie dieses zu meinem REST-API(integriert mit asp-net-core) { "firstName":"tersü", "lastName":"asda" } Und dies ist, wie die Header-Formular SoapUI Aussehen: Accept-Encoding: gzip,deflate Content-Type: application/json:charset=UTF-16 Host: localhost:4004 Connection: Keep-Alive User-Agent: Apache-HttpClient/4.1.1 (java
2
Antworten
public class ClassToTestSnippets { private static ClassToTestSnippets ctts; public static void main(String args) { ctts = new ClassToTestSnippets(); ctts.testThisMethod(); } public void testThisMethod() { System.out.println("\u2014".length()); //answer is 1 } } Obige code druckt 1. Aber \u2014 ist
3
Antworten
Wie die Eingabe der textbox ist unicode-string in MySQL Datenbank. Ich änderte utf8-Zeichensatz der MySQL-Datenbank. Ich bin mit VB.NET 2005 und MySQL-Datenbank für Windows-Anwendung. Bitte Helfen Sie mir. Haben Sie versucht, es sich selbst? Post code und
4
Antworten
War ich (wieder)Lesen Joel ist toll, Artikel auf Unicode und kam in diesem Absatz, was ich nicht ganz verstehe: Beispielsweise könnten Sie die Kodierung der Unicode-string Hello (U+0048 U+0065 U+006C U+006C U+006F) im ASCII-oder das alte OEM-Griechisch-Codierung,
2
Antworten
Muss ich hinzufügen, Japanisch/chinesischen text aus der xml-Antwort in pdf mit iText im java. Ich habe versucht den folgenden code nach dem kopieren der KozMinPro-Regelmäßig.ttf meiner c:\WINDOWS\Fonts Ordner aber nicht. Font font = new Font(BaseFont.createFont("KozMinPro-Regular", "UniJIS-UCS2-H", BaseFont.EMBEDDED),
3
Antworten
Dem Ziel, diesen code zu finden, der Häufigkeit der Wörter in einem Buch. Ich bin binden zu Lesen, im text eines Buches, aber die folgende Zeile hält, wirft mein code aus: kostbare Schützlinge. Nein, meine Herren; er
5
Antworten
Ich habe eine Quelle von text-Daten enthält die byte-Reihenfolge, c3 82 c2 bf. Im Kontext denke ich, es soll ein Kapital Griechische Phi-symbol (Φ). Trotzdem kann ich nicht herausfinden, welche Codierung verwendet wird; ich Schreibe ein Python-Skript
4
Antworten
Unserer Anwendung führt verschiedene Aktionen aus und zeigt die Ausgabe in einem log-Fenster angezeigt. Eine Aktion verwendet robocopy zum kopieren von Dateien zwischen Ordnern. Dies funktioniert ok, bis Sie den robocopy-Ausgabe von unicode-Zeichen enthält. Ich verstehe, dass
3
Antworten
Ich versuche zu aktualisieren meine property-Dateien mit java.Ich bin nicht mit java.util.Eigenschaften wie ändert es die Reihenfolge der Schlüssel . Ich habe meine eigene Logik zu schreiben, die Tasten in Ordnung . Bin ich mit Datei-IO-lese -
3
Antworten
🙂 Ich habe versucht mit w = Word(printables), aber es funktioniert nicht. Wie soll ich die Skillung für diese. 'w' ist gemeint Prozess Hindi-Zeichen (UTF-8) Gibt der code die Grammatik und analysiert entsprechend. 671.assess :: अहसास ::2
3
Antworten
Ich weiter suchen, aber nicht finden können, ein XSL-Funktion entspricht das "normalize-space" Zeichen. Das heißt, meine Inhalte akzentuiert UNICODE-Zeichen, die ist toll, aber von diesem Inhalt, ich bin erstellen mit dem Namen, wo ich nicht wollen, dass
2
Antworten
Entsprechend der Java SE 7 Spezifikation, Java verwendet den Unicode UTF-16-standard zur Darstellung von Zeichen. Wenn sich eine String als einfaches array 16-bit-Variablen mit je einer Figur, das Leben ist einfach. Leider gibt es code, der Punkte,