Tag: unicode

Unicode ist ein standard für die Zeichencodierung, Darstellung und Handhabung von text mit der Absicht, die Unterstützung alle erforderlichen Zeichen für Texte, die alle schreiben, Systeme, technische Symbole und Satzzeichen.

Leerzeichen Weg von PDF-Extraktion und-seltsames Wort-interpretation

Anzahl der Antworten 6 Antworten
Mit dem snippet unten, ich habe versucht, zu extrahieren die text-Daten aus diese PDF-Datei. import pyPdf def get_text(path): # Load PDF into pyPDF pdf = pyPdf.PdfFileReader(file(path, "rb")) # Iterate pages content = "" for i in range(0,

So drucken griechischen Buchstaben delta in c++

Anzahl der Antworten 1 Antworten
Habe ich eine kleine konsolenbasierte Anwendung, mit der Physik lösen von Gleichungen. Ich bin versuchen, um den Benutzer zu Fragen, wenn Sie wollen, finden Sie die ΔV in einer bestimmten situation, aber ich kann nicht herausfinden, wie

Unicode unbekannt "�" Charakter-Erkennung in PHP

Anzahl der Antworten 4 Antworten
Gibt es eine Möglichkeit in PHP, die erkennen die folgenden Charakter -�? Ich bin derzeit auf der Festsetzung einer Reihe von UTF-8-Codierung Probleme mit ein paar verschiedenen algorithmen und müssen in der Lage sein zu erkennen, ob

Warum Python-unicode-Zeichenfolgen, die eine Besondere Behandlung erfordern, für die UTF-8-BOM?

Anzahl der Antworten 2 Antworten
Aus irgendeinem Grund, Python zu sein scheint, Probleme mit BOM beim Lesen von unicode-Zeichenfolgen aus einer UTF-8 - Datei. Betrachten Sie das folgende: with open('test.py') as f: for line in f: print unicode(line, 'utf-8') Scheint einfach, nicht

So ändern Sie veraltet iconv zu String#encode ungültige UTF-8-Korrektur

Anzahl der Antworten 2 Antworten
Bekomme ich Quellen aus dem web, und manchmal ist die Kodierung des Materials ist nicht zu 100% UTF8-byte-Sequenz gültig. Ich benutze iconv stillschweigend zu ignorieren, diese Sequenzen zu erhalten, die gereinigte Zeichenfolge. @iconv = Iconv.new('UTF-8//IGNORE', 'UTF-8') valid_string

SyntaxError: encoding-Deklaration in einem Unicode-string

Anzahl der Antworten 1 Antworten
Wenn ich versuche, verwenden Sie eine Magische Kommentar wie #coding=utf-8 oben auf eine Datei, hier ist was passiert: Traceback (most recent call last): File <string>, line 0 SyntaxError: encoding declaration in Unicode string Ich habe wirklich nichts

\w in PHP preg_replace deckt nur das zweite byte der UTF-8-chars

Anzahl der Antworten 5 Antworten
haben wir diesen code: $value = preg_replace("/[^\w]/", '', $value); wo $value ist in utf-8. Nach dieser transformation erste byte der multibyte-Zeichen werden entfernt. Wie man \w Abdeckung UTF-8 chars komplett? Sorry, ich bin nicht sehr gut in

erlang zum drucken von unicode-strings?

Anzahl der Antworten 2 Antworten
Ich benutze io:format von log-Meldungen auf der Festplatte. Jede Nachricht sieht wie [{Feld1, Inhalt1}, {Feld2, Content2}, ...]. Wenn ich mit io:format("~p", [Msg]), um es zu drucken, wird die Datei Aussehen [{Feld1, <<123,456,789,...>>"}, ...]. Aber ich will drucken-unicode-Zeichenfolgen

ruby: unicode-Zeichen decimal-Wert auf \uXXXX-Konvertierung? .ord-Methode funktioniert nicht

Anzahl der Antworten 2 Antworten
Ich versuche zu arbeiten mit unicode-Zeichen, und die Informationen, die durch den string ist .ord-Methode hilft mir nicht. Ich bin gewohnt, arbeiten mit codes wie "\uXXXX". ruby-1.9.3-p0 :119 > form[0] => "כ" ruby-1.9.3-p0 :120 > form[0].ord =>

UnicodeEncodeError: 'charmap' codec can T encode character Probleme...

Anzahl der Antworten 2 Antworten
Bevor jemand gibt mir Mist über diese aufgefordert, eine Milliarde mal, bitte beachten Sie, dass ich versucht habe, einige der Antworten, die in vielen thread, aber keiner von Ihnen schien zu funktionieren richtig für mein problem. import

Konvertieren Ergebnismenge string und Platz in der Liste

Anzahl der Antworten 1 Antworten
Ich versuche zu konvertieren die Werte in meiner Liste zu normalen strings wie listy = [['value1','value2','value3'],['value1','value2','value3'],[ Ich initialisiert eine leere Liste listy = alle die <a> mit find_all('a') und produziert diese als Ausgang listy = [[...

Finden, Zeichen, die ähnlich sind glyphically in Unicode?

Anzahl der Antworten 3 Antworten
Können sagen, ich habe das Zeichen Ú, Ù, Ü. Alle von Ihnen sind ähnlich glyphically der englischen U. Gibt es eine Liste oder Algorithmus, um dies zu tun: Gegeben ein Ú oder Ù oder Ü die Rückkehr

Zeichen mit jquery json

Anzahl der Antworten 4 Antworten
Ich bin mit jquery $.getJSON zum abrufen der Liste der Städte. Alles funktioniert gut, aber ich bin aus Estland, und wir sind mit einigen Zeichen wie í, ü. ä, ö. Wenn ich den pass von Buchstaben wie

Wie kann ich loswerden dieser unicode-Zeichen?

Anzahl der Antworten 2 Antworten
Keine Ahnung, wie, um loszuwerden, diese irritierende Zeichen U+0092 aus einer Reihe von text-Dateien? Ich habe versucht, alle die unter, aber es funktioniert nicht. Es heißt U+0092+Einstellungen aus der Zeichentabelle sed -i 's/\xc2\x92//' * sed -i 's/\u0092//'

Die übergabe-Befehl-Linie unicode-argument an den Java-code,

Anzahl der Antworten 6 Antworten
Ich pass Kommandozeilen-argument, das ist Japanisch Java-main-Methode. Wenn ich geben Sie Unicode-Zeichen auf Kommandozeilen-Fenster, es anzeigt '?????' das ist OK, aber der Wert übergebenen java-Programm ist auch '?????'. Wie bekomme ich den richtigen Wert von argument übergeben,

python prüfen, ob utf-8-string in Großbuchstaben

Anzahl der Antworten 3 Antworten
Ich bin Probleme mit .isupper (), wenn ich eine utf-8-codierte Zeichenfolge. Ich habe eine Menge von text-Dateien bin ich der Konvertierung in xml. Während der text ist sehr variable das format ist statisch. Worte in Großbuchstaben werden

ASCII codec can T encode character u'\u2013'

Anzahl der Antworten 3 Antworten
Habe ich ein kleines Python-code in Q_GIS öffnet Objekten. Das problem ist, dass ich in dem Verzeichnis gibt es ein Zeichen (Unterstrich-Charakter), kann nicht kodiert werden. Der Fehler ist: Traceback (most recent call last): File "", line

Was ist der Unicode-Codepunkt für '¿'?

Anzahl der Antworten 7 Antworten
Google hat nicht geholfen. Albern, nicht suchen ¿ Suche upside-down-Fragezeichen. Warum wurde dieser geschlossen? Soweit Fragen gehen, es können nicht mehr real und spezifischer als diese. Shapecatcher ist ein Recht neues tool für ähnliche Fragen. Es funktioniert

Wie kann ich die diff utf-16-Dateien mit GNU diff?

Anzahl der Antworten 6 Antworten
GNU diff scheint nicht intelligent genug sein, zu erkennen und zu behandeln UTF-16-Dateien, das wundert mich. Übersehe ich eine offensichtliche command-line option? Gibt es eine gute alternative? Ich weiß nicht, UTF-16, aber es sollte in der Lage

C++ Visual studio 2012 Fehler C3861: '_T': Bezeichner wurde nicht gefunden?

Anzahl der Antworten 1 Antworten
Habe ich installiert visual studio 2012 auf 64-bit windows 7, und versuchen, zu bauen-MFC-Projekt, aber auf den ersten debug erscheint immer Fehler: Error 1 error C3861: '_T': identifier not found c:\program files (x86)\microsoft visual studio 11.0\vc\atlmfc\include\atlexcept.h 66

C# Unicode (Japanische Zeichen)

Anzahl der Antworten 3 Antworten
Ich habe einen japanischen final kommen bald, so zu helfen, mich zu studieren, machte ich ein Programm um mir zu helfen zu studieren. Aber ich kann nicht scheinen, um VS2008 anzuzeigen, die Unicode in der Konsole. Dies

chr für die nicht-ASCII-Zeichen in Python

Anzahl der Antworten 1 Antworten
Ich versuche, eine Suchfunktion zu implementieren, die durch eine Liste von strings in einem Kontext, wo es keine Möglichkeit gibt, etwas zu verwenden, wie str.startswith (Wenn Sie neugierig sind, ich hab die Abfrage der app engine datastore.)

Eine belastbare, tatsächlich arbeiten CSV-Umsetzung für non-ascii?

Anzahl der Antworten 4 Antworten
[Update] zu Schätzen wissen die Antworten und geben Sie alle um, aber funktionierenden code wäre sehr zu begrüßen. Wenn Sie angeben, dass code, Lesen Sie die sample-Dateien, die Sie sind der König (oder die Königin). [Update 2]

Mithilfe von Haskell für die Ausgabe der UTF-8-kodiert ByteString

Anzahl der Antworten 3 Antworten
Ich werde aus meinem Kopf, versuche einfach die Ausgabe UTF-8-codierte Daten an die Konsole. Habe ich es geschafft dies zu erreichen, mit String, aber jetzt möchte ich das gleiche tun mit ByteString. Ist es eine schöne und

UTF-8 zu ASCII mit ICU-Bibliothek

Anzahl der Antworten 5 Antworten
Ich habe einen std::string mit UTF-8-Zeichen. Ich möchte konvertieren Sie die Zeichenfolge in Ihrer nächsten gleichwertig mit ASCII-Zeichen. Beispiel: Łódź => Lodz Assunção => Assuncao Schloß => Schloss Leider ICU-Bibliothek ist sehr unintuitiv und ich habe nicht

Unicode-text über socket in java

Anzahl der Antworten 3 Antworten
Stehe ich vor einem kleinen Problem (glaube ich) in der socket-Programmierung. Beim senden von text aus nicht-englischen Sprachen, die ich fehlerhafte Ergebnisse. Nach viel recherche bei google, habe ich einige Korrekturen. Ich änderte getBytes() zu getBytes("UTF-8") und

Pandas - Schreiben Sie eine excel-Datei mit unicode - IllegalCharacterError

Anzahl der Antworten 5 Antworten
Ich habe den folgenden code: import pandas as pd x = [u'string with some unicode: \x16'] df = pd.DataFrame(x) Wenn ich versuche, das zu schreiben dataframe als excel-Datei: df.to_excel("test.xlsx") Oder, wenn ich versuche, das zu schreiben dataframe

Wie verwenden Sie iconv(3) zur Konvertierung wide-string nach UTF-8?

Anzahl der Antworten 1 Antworten
Ich versuche, verwenden Sie iconv(3) zu konvertieren, eine wide-character-string nach UTF-8 mit dem nachstehenden code. Wenn ich unten die "iconv" - Aufruf gibt E2BIG, als gäbe es nicht genügend bytes zur Verfügung stehende Platz in den Ausgabepuffer.

UnicodeDecodeError: 'utf8' codec can T decode byte 0xc3 in position 0: unexpected end of data

Anzahl der Antworten 1 Antworten
Ich Schreibe ein code für die, die einen tweet, aber ich habe Probleme mit der Codierung. Als ich versucht habe anzuwenden, porter stemmer, es zeigt Fehler.Vielleicht habe ich m nicht in der Lage, die tokenisierung es richtig

- Zeichencodierung von python ersetzen Sie "u2019' mit '

Anzahl der Antworten 1 Antworten
Ich habe versucht zahlreiche Wege zu Kodieren, das zu dem Ergebnis "BACK RUSHIN'" mit der wichtigste Charakter als das richtige Apostroph '. Ich würde wie ein Weg, um zu diesem Zweck mit einigen der eingebauten Funktionen von

Regulären Ausdruck für ägyptische Hieroglyphen

Anzahl der Antworten 2 Antworten
Geschlossen. Diese Frage ist off-topic. Es ist derzeit nicht akzeptieren Antworten. verbessern Wollen dieser Frage? "Update" die Frage so ist es on-topic für Stack-Überlauf. Geschlossen 4 Jahre vor. Ich will wissen, einen regulären Ausdruck für die ägyptischen

Wie kann ich das behandeln Kommandozeilen-Argumente als UTF-8 in Perl?

Anzahl der Antworten 5 Antworten
Wie behandle ich die Elemente @ARGV als UTF-8 in Perl? Derzeit verwende ich die folgenden work-around .. use Encode qw(decode encode); my $foo = $ARGV[0]; $foo = decode("utf-8", $foo); .. das funktioniert, ist aber nicht sehr elegant.

Lateinische Zeichen überprüfen

Anzahl der Antworten 3 Antworten
gibt es einige ähnliche Fragen gibt, aber keine, die sind ziemlich die gleichen, oder haben Sie eine Antwort, die für mich funktioniert. Brauche ich eine javascript-Funktion, die überprüft, ob ein text-Feld enthält alle gültigen lateinischen Zeichen, also

Problem bei der Dekodierung von Parametern in get-Methode, JSP

Anzahl der Antworten 3 Antworten
Hier wie jsp-Seite aufgerufen wird. eventMap.jsp?venue=%C4%B0ndigo Dies ist die Zeile, in der eventMap.jsp, die ich erhalten Ort-parameter: var venue="<%= URLDecoder.decode(request.getParameter("venue"),"UTF-8") %>"; Leider ist das Ergebnis in final javascript: var venue="Ä°ndigo"; Wie kann ich die Codierung richtig in

Wie konvertiert eine unicode-Liste von Tupeln in utf-8 mit python

Anzahl der Antworten 1 Antworten
Meine Funktion gibt ein Tupel das ist dann einer Variablen zugewiesen, x und angehängt eine Liste. x = (u'string1', u'string2', u'string3', u'string4') resultsList.append(x) Die Funktion mehrfach aufgerufen wird, und die endgültige Liste besteht aus 20 Tupel. Den

Android - Anzeige von UTF-8 (Russisch) auf dem Gerät

Anzahl der Antworten 2 Antworten
Ich bin debugging-Anwendung auf meinem android-Gerät (Motorola Defy, 2.1), die Anwendung erhält, Russisch HTML-Seite aus dem Netzwerk, kann aber nicht anzeigen. Es zeigt, wie link-text. HTML-Seite ist in UTF-8 (100% sicher). Source code: HttpClient httpclient = new

Warum SQLAlchemy create_engine mit charset=utf8 zurück python-Typ <str> und nicht Typ <unicode>?

Anzahl der Antworten 1 Antworten
Mit Python 2.7 und SQLAlchemy 0.7, ich bin die Verbindung zu einer MySQL-DB mit dem Befehl: engine = create_engine('mysql://username:password@host/dbname?charset=utf8',echo=False) Entsprechend der SQLAlchemy-docs, die Einstellung charset=utf-8 impliziert automatisch use_unicode=1, so dass alle Saiten kommen sollte, wieder als unicode.

unicode Binär?

Anzahl der Antworten 2 Antworten
In Javascript, wie kann ich konvertieren von BMP unicode-Zeichen in binäre (und zurück)? Ich kann nicht scheinen zu finden, built-in string-Methode binaryCharCodeAt() kommt soetwas existieren? Wenn nicht, meine Vermutung, wie es manuell zu tun wäre, um erstellen

Nicht in der Lage zu übersetzen bytes [FC] bei index 35 aus der angegebenen Codepage in Unicode

Anzahl der Antworten 2 Antworten
Ich versuche so senden Sie ein Objekt wie dieses zu meinem REST-API(integriert mit asp-net-core) { "firstName":"tersü", "lastName":"asda" } Und dies ist, wie die Header-Formular SoapUI Aussehen: Accept-Encoding: gzip,deflate Content-Type: application/json:charset=UTF-16 Host: localhost:4004 Connection: Keep-Alive User-Agent: Apache-HttpClient/4.1.1 (java

Wie viele bytes hat ein string enthält?

Anzahl der Antworten 2 Antworten
public class ClassToTestSnippets { private static ClassToTestSnippets ctts; public static void main(String args) { ctts = new ClassToTestSnippets(); ctts.testThisMethod(); } public void testThisMethod() { System.out.println("\u2014".length()); //answer is 1 } } Obige code druckt 1. Aber \u2014 ist

VB.NET, MySQL und Unicode

Anzahl der Antworten 3 Antworten
Wie die Eingabe der textbox ist unicode-string in MySQL Datenbank. Ich änderte utf8-Zeichensatz der MySQL-Datenbank. Ich bin mit VB.NET 2005 und MySQL-Datenbank für Windows-Anwendung. Bitte Helfen Sie mir. Haben Sie versucht, es sich selbst? Post code und

Warum Fragezeichen angezeigt im web-browser?

Anzahl der Antworten 4 Antworten
War ich (wieder)Lesen Joel ist toll, Artikel auf Unicode und kam in diesem Absatz, was ich nicht ganz verstehe: Beispielsweise könnten Sie die Kodierung der Unicode-string Hello (U+0048 U+0065 U+006C U+006C U+006F) im ASCII-oder das alte OEM-Griechisch-Codierung,

Japanisch/Chinesisch text in pdf mit iText Java

Anzahl der Antworten 2 Antworten
Muss ich hinzufügen, Japanisch/chinesischen text aus der xml-Antwort in pdf mit iText im java. Ich habe versucht den folgenden code nach dem kopieren der KozMinPro-Regelmäßig.ttf meiner c:\WINDOWS\Fonts Ordner aber nicht. Font font = new Font(BaseFont.createFont("KozMinPro-Regular", "UniJIS-UCS2-H", BaseFont.EMBEDDED),

Lesen Sie Sonderzeichen aus .txt-Datei in python

Anzahl der Antworten 3 Antworten
Dem Ziel, diesen code zu finden, der Häufigkeit der Wörter in einem Buch. Ich bin binden zu Lesen, im text eines Buches, aber die folgende Zeile hält, wirft mein code aus: kostbare Schützlinge. Nein, meine Herren; er

Welche Zeichenkodierung ist c3 82 c2 bf?

Anzahl der Antworten 5 Antworten
Ich habe eine Quelle von text-Daten enthält die byte-Reihenfolge, c3 82 c2 bf. Im Kontext denke ich, es soll ein Kapital Griechische Phi-symbol (Φ). Trotzdem kann ich nicht herausfinden, welche Codierung verwendet wird; ich Schreibe ein Python-Skript

Wie kann ich unicode-Zeichen aus den robocopy-Prozess standard-Ausgabe in c#

Anzahl der Antworten 4 Antworten
Unserer Anwendung führt verschiedene Aktionen aus und zeigt die Ausgabe in einem log-Fenster angezeigt. Eine Aktion verwendet robocopy zum kopieren von Dateien zwischen Ordnern. Dies funktioniert ok, bis Sie den robocopy-Ausgabe von unicode-Zeichen enthält. Ich verstehe, dass

Wie schreibt man einen unicode-Wert in eine Datei, die mit java?

Anzahl der Antworten 3 Antworten
Ich versuche zu aktualisieren meine property-Dateien mit java.Ich bin nicht mit java.util.Eigenschaften wie ändert es die Reihenfolge der Schlüssel . Ich habe meine eigene Logik zu schreiben, die Tasten in Ordnung . Bin ich mit Datei-IO-lese -

Python - pyparsing unicode-Zeichen

Anzahl der Antworten 3 Antworten
🙂 Ich habe versucht mit w = Word(printables), aber es funktioniert nicht. Wie soll ich die Skillung für diese. 'w' ist gemeint Prozess Hindi-Zeichen (UTF-8) Gibt der code die Grammatik und analysiert entsprechend. 671.assess :: अहसास ::2

Wie kann ich die Streifen Akzente von Zeichen, die in XSL?

Anzahl der Antworten 3 Antworten
Ich weiter suchen, aber nicht finden können, ein XSL-Funktion entspricht das "normalize-space" Zeichen. Das heißt, meine Inhalte akzentuiert UNICODE-Zeichen, die ist toll, aber von diesem Inhalt, ich bin erstellen mit dem Namen, wo ich nicht wollen, dass

Wie funktioniert Java speichern von UTF-16-Zeichen in seiner 16-bit-char-Typ?

Anzahl der Antworten 2 Antworten
Entsprechend der Java SE 7 Spezifikation, Java verwendet den Unicode UTF-16-standard zur Darstellung von Zeichen. Wenn sich eine String als einfaches array 16-bit-Variablen mit je einer Figur, das Leben ist einfach. Leider gibt es code, der Punkte,