Tag: unicode

Unicode ist ein standard für die Zeichencodierung, Darstellung und Handhabung von text mit der Absicht, die Unterstützung alle erforderlichen Zeichen für Texte, die alle schreiben, Systeme, technische Symbole und Satzzeichen.

Leerzeichen Weg von PDF-Extraktion und-seltsames Wort-interpretation

6 Antworten

Mit dem snippet unten, ich habe versucht, zu extrahieren die text-Daten aus diese PDF-Datei. import pyPdf def get_text(path): # Load PDF into pyPDF pdf = pyPdf.PdfFileReader(file(path, "rb")) # Iterate pages content = "" for i in range(0,

So drucken griechischen Buchstaben delta in c++

1 Antworten

Habe ich eine kleine konsolenbasierte Anwendung, mit der Physik lösen von Gleichungen. Ich bin versuchen, um den Benutzer zu Fragen, wenn Sie wollen, finden Sie die ΔV in einer bestimmten situation, aber ich kann nicht herausfinden, wie

c++c++11 console non-ascii-characters unicode

Unicode unbekannt "�" Charakter-Erkennung in PHP

4 Antworten

Gibt es eine Möglichkeit in PHP, die erkennen die folgenden Charakter -�? Ich bin derzeit auf der Festsetzung einer Reihe von UTF-8-Codierung Probleme mit ein paar verschiedenen algorithmen und müssen in der Lage sein zu erkennen, ob

php unicode utf-8 utf8-decode

Warum Python-unicode-Zeichenfolgen, die eine Besondere Behandlung erfordern, für die UTF-8-BOM?

2 Antworten

Aus irgendeinem Grund, Python zu sein scheint, Probleme mit BOM beim Lesen von unicode-Zeichenfolgen aus einer UTF-8 - Datei. Betrachten Sie das folgende: with open('test.py') as f: for line in f: print unicode(line, 'utf-8') Scheint einfach, nicht

character-encoding io python unicode utf-8

So ändern Sie veraltet iconv zu String#encode ungültige UTF-8-Korrektur

2 Antworten

Bekomme ich Quellen aus dem web, und manchmal ist die Kodierung des Materials ist nicht zu 100% UTF8-byte-Sequenz gültig. Ich benutze iconv stillschweigend zu ignorieren, diese Sequenzen zu erhalten, die gereinigte Zeichenfolge. @iconv = Iconv.new('UTF-8//IGNORE', 'UTF-8') valid_string

character-encoding iconv ruby unicode

SyntaxError: encoding-Deklaration in einem Unicode-string

1 Antworten

Wenn ich versuche, verwenden Sie eine Magische Kommentar wie #coding=utf-8 oben auf eine Datei, hier ist was passiert: Traceback (most recent call last): File <string>, line 0 SyntaxError: encoding declaration in Unicode string Ich habe wirklich nichts

encoding python unicode

\w in PHP preg_replace deckt nur das zweite byte der UTF-8-chars

5 Antworten

haben wir diesen code: $value = preg_replace("/[^\w]/", '', $value); wo $value ist in utf-8. Nach dieser transformation erste byte der multibyte-Zeichen werden entfernt. Wie man \w Abdeckung UTF-8 chars komplett? Sorry, ich bin nicht sehr gut in

php regex unicode utf-8

erlang zum drucken von unicode-strings?

2 Antworten

Ich benutze io:format von log-Meldungen auf der Festplatte. Jede Nachricht sieht wie [{Feld1, Inhalt1}, {Feld2, Content2}, ...]. Wenn ich mit io:format("~p", [Msg]), um es zu drucken, wird die Datei Aussehen [{Feld1, <<123,456,789,...>>"}, ...]. Aber ich will drucken-unicode-Zeichenfolgen

erlang unicode

ruby: unicode-Zeichen decimal-Wert auf \uXXXX-Konvertierung? .ord-Methode funktioniert nicht

2 Antworten

Ich versuche zu arbeiten mit unicode-Zeichen, und die Informationen, die durch den string ist .ord-Methode hilft mir nicht. Ich bin gewohnt, arbeiten mit codes wie "\uXXXX". ruby-1.9.3-p0 :119 > form[0] => "כ" ruby-1.9.3-p0 :120 > form[0].ord =>

decimal ruby unicode

UnicodeEncodeError: 'charmap' codec can T encode character Probleme...

2 Antworten

Bevor jemand gibt mir Mist über diese aufgefordert, eine Milliarde mal, bitte beachten Sie, dass ich versucht habe, einige der Antworten, die in vielen thread, aber keiner von Ihnen schien zu funktionieren richtig für mein problem. import

json python python-3.x unicode

Konvertieren Ergebnismenge string und Platz in der Liste

1 Antworten

Ich versuche zu konvertieren die Werte in meiner Liste zu normalen strings wie listy = [['value1','value2','value3'],['value1','value2','value3'],[ Ich initialisiert eine leere Liste listy = alle die <a> mit find_all('a') und produziert diese als Ausgang listy = [[...

beautifulsoup python unicode xml

Finden, Zeichen, die ähnlich sind glyphically in Unicode?

3 Antworten

Können sagen, ich habe das Zeichen Ú, Ù, Ü. Alle von Ihnen sind ähnlich glyphically der englischen U. Gibt es eine Liste oder Algorithmus, um dies zu tun: Gegeben ein Ú oder Ù oder Ü die Rückkehr

glyph unicode

Zeichen mit jquery json

4 Antworten

Ich bin mit jquery $.getJSON zum abrufen der Liste der Städte. Alles funktioniert gut, aber ich bin aus Estland, und wir sind mit einigen Zeichen wie í, ü. ä, ö. Wenn ich den pass von Buchstaben wie

base64 getjson jquery unicode

Wie kann ich loswerden dieser unicode-Zeichen?

2 Antworten

Keine Ahnung, wie, um loszuwerden, diese irritierende Zeichen U+0092 aus einer Reihe von text-Dateien? Ich habe versucht, alle die unter, aber es funktioniert nicht. Es heißt U+0092+Einstellungen aus der Zeichentabelle sed -i 's/\xc2\x92//' * sed -i 's/\u0092//'

non-printing-characters sed text-files unicode

Die übergabe-Befehl-Linie unicode-argument an den Java-code,

6 Antworten

Ich pass Kommandozeilen-argument, das ist Japanisch Java-main-Methode. Wenn ich geben Sie Unicode-Zeichen auf Kommandozeilen-Fenster, es anzeigt '?????' das ist OK, aber der Wert übergebenen java-Programm ist auch '?????'. Wie bekomme ich den richtigen Wert von argument übergeben,

command-line-arguments java unicode

python prüfen, ob utf-8-string in Großbuchstaben

3 Antworten

Ich bin Probleme mit .isupper (), wenn ich eine utf-8-codierte Zeichenfolge. Ich habe eine Menge von text-Dateien bin ich der Konvertierung in xml. Während der text ist sehr variable das format ist statisch. Worte in Großbuchstaben werden

python unicode utf-8

ASCII codec can T encode character u'\u2013'

3 Antworten

Habe ich ein kleines Python-code in Q_GIS öffnet Objekten. Das problem ist, dass ich in dem Verzeichnis gibt es ein Zeichen (Unterstrich-Charakter), kann nicht kodiert werden. Der Fehler ist: Traceback (most recent call last): File "", line

python unicode

Was ist der Unicode-Codepunkt für '¿'?

7 Antworten

Google hat nicht geholfen. Albern, nicht suchen ¿ Suche upside-down-Fragezeichen. Warum wurde dieser geschlossen? Soweit Fragen gehen, es können nicht mehr real und spezifischer als diese. Shapecatcher ist ein Recht neues tool für ähnliche Fragen. Es funktioniert

unicode

Wie kann ich die diff utf-16-Dateien mit GNU diff?

6 Antworten

GNU diff scheint nicht intelligent genug sein, zu erkennen und zu behandeln UTF-16-Dateien, das wundert mich. Übersehe ich eine offensichtliche command-line option? Gibt es eine gute alternative? Ich weiß nicht, UTF-16, aber es sollte in der Lage

diff gnu unicode

C++ Visual studio 2012 Fehler C3861: '_T': Bezeichner wurde nicht gefunden?

1 Antworten

Habe ich installiert visual studio 2012 auf 64-bit windows 7, und versuchen, zu bauen-MFC-Projekt, aber auf den ersten debug erscheint immer Fehler: Error 1 error C3861: '_T': identifier not found c:\program files (x86)\microsoft visual studio 11.0\vc\atlmfc\include\atlexcept.h 66

macros mfc unicode visual-studio-2012

C# Unicode (Japanische Zeichen)

3 Antworten

Ich habe einen japanischen final kommen bald, so zu helfen, mich zu studieren, machte ich ein Programm um mir zu helfen zu studieren. Aber ich kann nicht scheinen, um VS2008 anzuzeigen, die Unicode in der Konsole. Dies

c#console unicode

chr für die nicht-ASCII-Zeichen in Python

1 Antworten

Ich versuche, eine Suchfunktion zu implementieren, die durch eine Liste von strings in einem Kontext, wo es keine Möglichkeit gibt, etwas zu verwenden, wie str.startswith (Wenn Sie neugierig sind, ich hab die Abfrage der app engine datastore.)

python unicode

Eine belastbare, tatsächlich arbeiten CSV-Umsetzung für non-ascii?

4 Antworten

[Update] zu Schätzen wissen die Antworten und geben Sie alle um, aber funktionierenden code wäre sehr zu begrüßen. Wenn Sie angeben, dass code, Lesen Sie die sample-Dateien, die Sie sind der König (oder die Königin). [Update 2]

encoding python unicode

Mithilfe von Haskell für die Ausgabe der UTF-8-kodiert ByteString

3 Antworten

Ich werde aus meinem Kopf, versuche einfach die Ausgabe UTF-8-codierte Daten an die Konsole. Habe ich es geschafft dies zu erreichen, mit String, aber jetzt möchte ich das gleiche tun mit ByteString. Ist es eine schöne und

bytestring ghc haskell io unicode

UTF-8 zu ASCII mit ICU-Bibliothek

5 Antworten

Ich habe einen std::string mit UTF-8-Zeichen. Ich möchte konvertieren Sie die Zeichenfolge in Ihrer nächsten gleichwertig mit ASCII-Zeichen. Beispiel: Łódź => Lodz Assunção => Assuncao Schloß => Schloss Leider ICU-Bibliothek ist sehr unintuitiv und ich habe nicht

c++transliteration unicode utf-8

Unicode-text über socket in java

3 Antworten

Stehe ich vor einem kleinen Problem (glaube ich) in der socket-Programmierung. Beim senden von text aus nicht-englischen Sprachen, die ich fehlerhafte Ergebnisse. Nach viel recherche bei google, habe ich einige Korrekturen. Ich änderte getBytes() zu getBytes("UTF-8") und

java sockets unicode utf-8

Pandas - Schreiben Sie eine excel-Datei mit unicode - IllegalCharacterError

5 Antworten

Ich habe den folgenden code: import pandas as pd x = [u'string with some unicode: \x16'] df = pd.DataFrame(x) Wenn ich versuche, das zu schreiben dataframe als excel-Datei: df.to_excel("test.xlsx") Oder, wenn ich versuche, das zu schreiben dataframe

export-to-excel pandas python unicode

Wie verwenden Sie iconv(3) zur Konvertierung wide-string nach UTF-8?

1 Antworten

Ich versuche, verwenden Sie iconv(3) zu konvertieren, eine wide-character-string nach UTF-8 mit dem nachstehenden code. Wenn ich unten die "iconv" - Aufruf gibt E2BIG, als gäbe es nicht genügend bytes zur Verfügung stehende Platz in den Ausgabepuffer.

c iconv linux unicode utf-8

UnicodeDecodeError: 'utf8' codec can T decode byte 0xc3 in position 0: unexpected end of data

1 Antworten

Ich Schreibe ein code für die, die einen tweet, aber ich habe Probleme mit der Codierung. Als ich versucht habe anzuwenden, porter stemmer, es zeigt Fehler.Vielleicht habe ich m nicht in der Lage, die tokenisierung es richtig

decode nltk python tweetstream unicode

- Zeichencodierung von python ersetzen Sie "u2019' mit '

1 Antworten

Ich habe versucht zahlreiche Wege zu Kodieren, das zu dem Ergebnis "BACK RUSHIN'" mit der wichtigste Charakter als das richtige Apostroph '. Ich würde wie ein Weg, um zu diesem Zweck mit einigen der eingebauten Funktionen von

character-encoding lxml python python-2.7 unicode

Regulären Ausdruck für ägyptische Hieroglyphen

2 Antworten

Geschlossen. Diese Frage ist off-topic. Es ist derzeit nicht akzeptieren Antworten. verbessern Wollen dieser Frage? "Update" die Frage so ist es on-topic für Stack-Überlauf. Geschlossen 4 Jahre vor. Ich will wissen, einen regulären Ausdruck für die ägyptischen

internationalization regex unicode

Wie kann ich das behandeln Kommandozeilen-Argumente als UTF-8 in Perl?

5 Antworten

Wie behandle ich die Elemente @ARGV als UTF-8 in Perl? Derzeit verwende ich die folgenden work-around .. use Encode qw(decode encode); my $foo = $ARGV[0]; $foo = decode("utf-8", $foo); .. das funktioniert, ist aber nicht sehr elegant.

perl unicode utf-8

Lateinische Zeichen überprüfen

3 Antworten

gibt es einige ähnliche Fragen gibt, aber keine, die sind ziemlich die gleichen, oder haben Sie eine Antwort, die für mich funktioniert. Brauche ich eine javascript-Funktion, die überprüft, ob ein text-Feld enthält alle gültigen lateinischen Zeichen, also

character-properties javascript regex unicode

Problem bei der Dekodierung von Parametern in get-Methode, JSP

3 Antworten

Hier wie jsp-Seite aufgerufen wird. eventMap.jsp?venue=%C4%B0ndigo Dies ist die Zeile, in der eventMap.jsp, die ich erhalten Ort-parameter: var venue="<%= URLDecoder.decode(request.getParameter("venue"),"UTF-8") %>"; Leider ist das Ergebnis in final javascript: var venue="Ä°ndigo"; Wie kann ich die Codierung richtig in

character-encoding get javascript jsp unicode

Wie konvertiert eine unicode-Liste von Tupeln in utf-8 mit python

1 Antworten

Meine Funktion gibt ein Tupel das ist dann einer Variablen zugewiesen, x und angehängt eine Liste. x = (u'string1', u'string2', u'string3', u'string4') resultsList.append(x) Die Funktion mehrfach aufgerufen wird, und die endgültige Liste besteht aus 20 Tupel. Den

python unicode utf-8

Android - Anzeige von UTF-8 (Russisch) auf dem Gerät

2 Antworten

Ich bin debugging-Anwendung auf meinem android-Gerät (Motorola Defy, 2.1), die Anwendung erhält, Russisch HTML-Seite aus dem Netzwerk, kann aber nicht anzeigen. Es zeigt, wie link-text. HTML-Seite ist in UTF-8 (100% sicher). Source code: HttpClient httpclient = new

android java unicode utf-8

Warum SQLAlchemy create_engine mit charset=utf8 zurück python-Typ <str> und nicht Typ <unicode>?

1 Antworten

Mit Python 2.7 und SQLAlchemy 0.7, ich bin die Verbindung zu einer MySQL-DB mit dem Befehl: engine = create_engine('mysql://username:password@host/dbname?charset=utf8',echo=False) Entsprechend der SQLAlchemy-docs, die Einstellung charset=utf-8 impliziert automatisch use_unicode=1, so dass alle Saiten kommen sollte, wieder als unicode.

mysql python sqlalchemy unicode utf-8

unicode Binär?

2 Antworten

In Javascript, wie kann ich konvertieren von BMP unicode-Zeichen in binäre (und zurück)? Ich kann nicht scheinen zu finden, built-in string-Methode binaryCharCodeAt() kommt soetwas existieren? Wenn nicht, meine Vermutung, wie es manuell zu tun wäre, um erstellen

binary javascript type-conversion unicode

Nicht in der Lage zu übersetzen bytes [FC] bei index 35 aus der angegebenen Codepage in Unicode

2 Antworten

Ich versuche so senden Sie ein Objekt wie dieses zu meinem REST-API(integriert mit asp-net-core) { "firstName":"tersü", "lastName":"asda" } Und dies ist, wie die Header-Formular SoapUI Aussehen: Accept-Encoding: gzip,deflate Content-Type: application/json:charset=UTF-16 Host: localhost:4004 Connection: Keep-Alive User-Agent: Apache-HttpClient/4.1.1 (java

.net asp.net asp.net-core asp.net-core-mvc unicode

Wie viele bytes hat ein string enthält?

2 Antworten

public class ClassToTestSnippets { private static ClassToTestSnippets ctts; public static void main(String args) { ctts = new ClassToTestSnippets(); ctts.testThisMethod(); } public void testThisMethod() { System.out.println("\u2014".length()); //answer is 1 } } Obige code druckt 1. Aber \u2014 ist

java string unicode utf-8

VB.NET, MySQL und Unicode

3 Antworten

Wie die Eingabe der textbox ist unicode-string in MySQL Datenbank. Ich änderte utf8-Zeichensatz der MySQL-Datenbank. Ich bin mit VB.NET 2005 und MySQL-Datenbank für Windows-Anwendung. Bitte Helfen Sie mir. Haben Sie versucht, es sich selbst? Post code und

mysql unicode utf-8 vb.net

Warum Fragezeichen angezeigt im web-browser?

4 Antworten

War ich (wieder)Lesen Joel ist toll, Artikel auf Unicode und kam in diesem Absatz, was ich nicht ganz verstehe: Beispielsweise könnten Sie die Kodierung der Unicode-string Hello (U+0048 U+0065 U+006C U+006C U+006F) im ASCII-oder das alte OEM-Griechisch-Codierung,

browser unicode utf-8

Japanisch/Chinesisch text in pdf mit iText Java

2 Antworten

Muss ich hinzufügen, Japanisch/chinesischen text aus der xml-Antwort in pdf mit iText im java. Ich habe versucht den folgenden code nach dem kopieren der KozMinPro-Regelmäßig.ttf meiner c:\WINDOWS\Fonts Ordner aber nicht. Font font = new Font(BaseFont.createFont("KozMinPro-Regular", "UniJIS-UCS2-H", BaseFont.EMBEDDED),

internationalization itext java unicode

Lesen Sie Sonderzeichen aus .txt-Datei in python

3 Antworten

Dem Ziel, diesen code zu finden, der Häufigkeit der Wörter in einem Buch. Ich bin binden zu Lesen, im text eines Buches, aber die folgende Zeile hält, wirft mein code aus: kostbare Schützlinge. Nein, meine Herren; er

file python python-3.x unicode

Welche Zeichenkodierung ist c3 82 c2 bf?

5 Antworten

Ich habe eine Quelle von text-Daten enthält die byte-Reihenfolge, c3 82 c2 bf. Im Kontext denke ich, es soll ein Kapital Griechische Phi-symbol (Φ). Trotzdem kann ich nicht herausfinden, welche Codierung verwendet wird; ich Schreibe ein Python-Skript

encoding unicode

Wie kann ich unicode-Zeichen aus den robocopy-Prozess standard-Ausgabe in c#

4 Antworten

Unserer Anwendung führt verschiedene Aktionen aus und zeigt die Ausgabe in einem log-Fenster angezeigt. Eine Aktion verwendet robocopy zum kopieren von Dateien zwischen Ordnern. Dies funktioniert ok, bis Sie den robocopy-Ausgabe von unicode-Zeichen enthält. Ich verstehe, dass

c#process robocopy stdout unicode

Wie schreibt man einen unicode-Wert in eine Datei, die mit java?

3 Antworten

Ich versuche zu aktualisieren meine property-Dateien mit java.Ich bin nicht mit java.util.Eigenschaften wie ändert es die Reihenfolge der Schlüssel . Ich habe meine eigene Logik zu schreiben, die Tasten in Ordnung . Bin ich mit Datei-IO-lese -

java properties unicode

Python - pyparsing unicode-Zeichen

3 Antworten

🙂 Ich habe versucht mit w = Word(printables), aber es funktioniert nicht. Wie soll ich die Skillung für diese. 'w' ist gemeint Prozess Hindi-Zeichen (UTF-8) Gibt der code die Grammatik und analysiert entsprechend. 671.assess :: अहसास ::2

nlp pyparsing python unicode

Wie kann ich die Streifen Akzente von Zeichen, die in XSL?

3 Antworten

Ich weiter suchen, aber nicht finden können, ein XSL-Funktion entspricht das "normalize-space" Zeichen. Das heißt, meine Inhalte akzentuiert UNICODE-Zeichen, die ist toll, aber von diesem Inhalt, ich bin erstellen mit dem Namen, wo ich nicht wollen, dass

character-encoding unicode xml xslt

Wie funktioniert Java speichern von UTF-16-Zeichen in seiner 16-bit-char-Typ?

2 Antworten

Entsprechend der Java SE 7 Spezifikation, Java verwendet den Unicode UTF-16-standard zur Darstellung von Zeichen. Wenn sich eine String als einfaches array 16-bit-Variablen mit je einer Figur, das Leben ist einfach. Leider gibt es code, der Punkte,

encoding java unicode utf-16 variables