Mit dem abschneiden von Strings von Bytes

Erstelle ich die folgenden für das abschneiden einer Zeichenfolge in java, um eine neue Zeichenfolge mit einer bestimmten Anzahl von bytes.

        String truncatedValue = "";
        String currentValue = string;
        int pivotIndex = (int) Math.round(((double) string.length())/2);
        while(!truncatedValue.equals(currentValue)){
            currentValue = string.substring(0,pivotIndex);
            byte[] bytes = null;
            bytes = currentValue.getBytes(encoding);
            if(bytes==null){
                return string;
            }
            int byteLength = bytes.length;
            int newIndex =  (int) Math.round(((double) pivotIndex)/2);
            if(byteLength > maxBytesLength){
                pivotIndex = newIndex;
            } else if(byteLength < maxBytesLength){
                pivotIndex = pivotIndex + 1;
            } else {
                truncatedValue = currentValue;
            }
        }
        return truncatedValue;

Dies ist die erste Sache, die mir in den Sinn kam, und ich weiß, dass ich verbessern könnte. Ich sah in einem anderen Beitrag wurde gefragt, eine ähnliche Frage gibt, aber Sie waren mit dem abschneiden von Strings mit bytes anstelle von String.substring. Ich glaube, ich würde eher die Verwendung von String.substring in meinem Fall.

EDIT: habe Sie gerade entfernt die UTF8-Referenz würde ich da eher in der Lage sein, dies zu tun für unterschiedliche storage-Typen aswell.

Ich würde das anders formulieren Ihr problem. Sie versuchen zu passen, einen string in ein byte-array, das nicht größer als maxUTF8BytesLength. Sie wollen für die Verwendung von UTF-8 für die Codierung. Sie kopieren wollen so viel Charakter wie möglich. Richtig?
richtig, ich würde sagen, dass ist richtig. Ich möchte auch, es zu tun effizient.
Ich habe gerade bearbeiteten die Frage nicht auf UTF-8. Tut uns Leid, es war irreführend.

InformationsquelleAutor stevebot | 2010-08-26

13

Warum nicht konvertieren in bytes und geht voran--gehorchen UTF8-Zeichen Grenzen, wie Sie es tun-bis Sie haben die maximale Anzahl, dann konvertieren Sie diese bytes wieder in einen string?

Oder Sie könnten nur ein Ausschneiden der original-string, wenn Sie verfolgen, wo der Schnitt auftreten sollten:
```
//Assuming that Java will always produce valid UTF8 from a string, so no error checking!
//(Is this always true, I wonder?)
public class UTF8Cutter {
  public static String cut(String s, int n) {
    byte[] utf8 = s.getBytes();
    if (utf8.length < n) n = utf8.length;
    int n16 = 0;
    int advance = 1;
    int i = 0;
    while (i < n) {
      advance = 1;
      if ((utf8[i] & 0x80) == 0) i += 1;
      else if ((utf8[i] & 0xE0) == 0xC0) i += 2;
      else if ((utf8[i] & 0xF0) == 0xE0) i += 3;
      else { i += 4; advance = 2; }
      if (i <= n) n16 += advance;
    }
    return s.substring(0,n16);
  }
}
```
^{Hinweis: bearbeitet werden, um Fehler zu beheben, auf 2014-08-25}
- Ich auf jeden Fall machen könnte. Gibt es einen Grund, warum mit String.substring ist schlimmer? Wie es scheint, tun Sie es, wie Sie beschreiben, wäre zu berücksichtigen, für alle die code-Punkte, die nicht eine ganze Menge Spaß. (abhängig von deiner definition von Spaß 🙂 ).
- Um effizient zu sein, müssen Sie, um die Vorteile der bekannten Struktur der Daten. Wenn Sie kümmern sich nicht um Effizienz, und es wollen einfach zu sein, oder Sie unterstützen möchten, jede mögliche Java-Codierung, ohne zu wissen, was es ist, Ihre Methode scheint auch vernünftig.
InformationsquelleAutor Rex Kerr

Den vernünftigeren Lösung mit decoder:

final Charset CHARSET = Charset.forName("UTF-8"); //or any other charset
final byte[] bytes = inputString.getBytes(CHARSET);
final CharsetDecoder decoder = CHARSET.newDecoder();
decoder.onMalformedInput(CodingErrorAction.IGNORE);
decoder.reset();
final CharBuffer decoded = decoder.decode(ByteBuffer.wrap(bytes, 0, limit));
final String outputString = decoded.toString();

InformationsquelleAutor kan

5

Ich denke, Rex Kerr-Lösung hat 2 bugs.
- Zuerst, es abschneiden zu begrenzen,+1, wenn ein nicht-ASCII-Zeichen kurz vor der Grenze. Mit dem abschneiden von "123456789á1" führt "123456789á", vertreten in 11 Zeichen in UTF-8.
- Zweite, ich denke, er interpretiert die UTF-standard. https://en.wikipedia.org/wiki/UTF-8#Description zeigt, dass ein 110xxxxx am Anfang einer UTF-Sequenz sagt uns, dass die Vertretung ist 2 Zeichen lang sein (im Gegensatz zu 3). Das ist der Grund, seine Umsetzung in der Regel nicht verwenden Sie alle verfügbaren Speicherplatz (wie Nissim Avitan erwähnt).
Bitte meine korrigierte version unten:
```
public String cut(String s, int charLimit) throws UnsupportedEncodingException {
    byte[] utf8 = s.getBytes("UTF-8");
    if (utf8.length <= charLimit) {
        return s;
    }
    int n16 = 0;
    boolean extraLong = false;
    int i = 0;
    while (i < charLimit) {
        //Unicode characters above U+FFFF need 2 words in utf16
        extraLong = ((utf8[i] & 0xF0) == 0xF0);
        if ((utf8[i] & 0x80) == 0) {
            i += 1;
        } else {
            int b = utf8[i];
            while ((b & 0x80) > 0) {
                ++i;
                b = b << 1;
            }
        }
        if (i <= charLimit) {
            n16 += (extraLong) ? 2 : 1;
        }
    }
    return s.substring(0, n16);
}
```
Dachte ich noch, das war weit aus effektiver. Also, wenn Sie nicht wirklich brauchen, die String-Darstellung des Ergebnis-und das byte-array haben, können Sie dieses verwenden:
```
private byte[] cutToBytes(String s, int charLimit) throws UnsupportedEncodingException {
    byte[] utf8 = s.getBytes("UTF-8");
    if (utf8.length <= charLimit) {
        return utf8;
    }
    if ((utf8[charLimit] & 0x80) == 0) {
        //the limit doesn't cut an UTF-8 sequence
        return Arrays.copyOf(utf8, charLimit);
    }
    int i = 0;
    while ((utf8[charLimit-i-1] & 0x80) > 0 && (utf8[charLimit-i-1] & 0x40) == 0) {
        ++i;
    }
    if ((utf8[charLimit-i-1] & 0x80) > 0) {
        //we have to skip the starter UTF-8 byte
        return Arrays.copyOf(utf8, charLimit-i-1);
    } else {
        //we passed all UTF-8 bytes
        return Arrays.copyOf(utf8, charLimit-i);
    }
}
```
Lustige an der Sache ist, dass mit einer realistischen 20-500 byte-Grenze, die Sie ausführen, so ziemlich das gleiche WENN erstellen Sie einen string aus dem byte-array wieder.

Bitte beachten Sie, dass beide Methoden gehen von einem gültigen utf-8-Eingabe ist eine gültige Annahme, nach der Verwendung von Java mit der getBytes () - Funktion.
- Sollten Sie auch fangen UnsupportedEncodingException bei s.getBytes("UTF-8")
- Ich sehe nicht, getBytes werfen alles. Obwohl docs.oracle.com/javase/7/docs/api/java/lang/... sagt "Das Verhalten dieser Methode, wenn Sie diese Zeichenfolge nicht kodiert werden kann, in dem angegebenen Zeichensatz nicht angegeben ist."
- Die Seite, die Sie verlinkt, zeigt, dass es throws UnsupportedEncodingException: "public byte[] getBytes(String charsetName) throws UnsupportedEncodingException"
- Danke! Seltsam, ich weiß nicht, welche version ich benutzt, als ich gepostet diese Lösung vor 2 Jahren. Aktualisieren Sie den code oben.
- Statt den Namen der Kodierung als String Sie können den Zeichensatz Konstanten aus StandardCharsets Klasse, da die String#getBytes(Charset charset) - Methode nicht werfen UnsupportedEncodingException.
InformationsquelleAutor Zsolt Taskai
3

Verwenden Sie die UTF-8 CharsetEncoder und codieren bis der Ausgang ByteBuffer enthält so viele bytes, wie Sie bereit sind zu nehmen, von der Suche nach CoderResult.OVERFLOW.

InformationsquelleAutor bmargulies
3

Zweite Ansatz funktioniert hier gut
http://www.jroller.com/holy/entry/truncating_utf_string_to_the

InformationsquelleAutor shadow
2

Wie bereits erwähnt, Peter Lawrey Lösung hat großen performance-Nachteil (~3,500 msc für 10.000 mal), Rex Kerr war viel besser (~500msc für 10.000 mal), aber das Ergebnis nicht korrekt war - es Schnitt weit mehr, als es benötigt (statt der verbleibenden 4000 bytes es remainds 3500 für einige Beispiele). attached hier ist meine Lösung (~250msc für das 10.000-fache) unter der Annahme, dass UTF-8 max Länge char in Byte 4 (danke WikiPedia):
```
public static String cutWord (String word, int dbLimit) throws UnsupportedEncodingException{
    double MAX_UTF8_CHAR_LENGTH = 4.0;
    if(word.length()>dbLimit){
        word = word.substring(0, dbLimit);
    }
    if(word.length() > dbLimit/MAX_UTF8_CHAR_LENGTH){
        int residual=word.getBytes("UTF-8").length-dbLimit;
        if(residual>0){
            int tempResidual = residual,start, end = word.length();
            while(tempResidual > 0){
                start = end-((int) Math.ceil((double)tempResidual/MAX_UTF8_CHAR_LENGTH));
                tempResidual = tempResidual - word.substring(start,end).getBytes("UTF-8").length;
                end=start;
            }
            word = word.substring(0, end);
        }
    }
    return word;
}
```
- Sieht nicht wie diese Lösung verhindert, dass ein trailing Hälfte ersatzpaar? Zweitens, im Falle getBytes().Länge geschehen würde, angewandt auf beide Hälften ein ersatzpaar individuell (nicht sofort klar, mir wird es nie), es würde auch unterschätzen die Größe der UTF-8-Darstellung des Paares als ganzes, vorausgesetzt, die "Ersatz-byte-array" ist ein einzelnes byte. Dritte, die 4-byte-UTF-8-code Punkte alle erfordern eine zwei-char ersatzpaar in Java, so effektiv ist das max nur 3 bytes pro Java-Charakter.
InformationsquelleAutor Nissim Avitan
2

s = new String(s.getBytes("UTF-8"), 0, MAX_LENGTH - 2, "UTF-8");

InformationsquelleAutor Ilya Lysenko
1

könnte man konvertieren Sie die Zeichenfolge in bytes umwandeln und nur diese bytes wieder in einen string.
```
public static String substring(String text, int maxBytes) {
   StringBuilder ret = new StringBuilder();
   for(int i = 0;i < text.length(); i++) {
       //works out how many bytes a character takes, 
       //and removes these from the total allowed.
       if((maxBytes -= text.substring(i, i+1).getBytes().length) < 0) break;
       ret.append(text.charAt(i));
   }
   return ret.toString();
}
```
- Überprüfen Sie eins nach dem anderen Charakter kann nicht gut für die Leistung
- es gibt viele Gründe, dies ist nicht sehr performant. Das wichtigste wäre die Objekt-Erstellung für die substring() und getBytes () - Aber du würdest überrascht sein, wie viel Sie tun können, in einer milli-Sekunde und das ist in der Regel genug.
- Dass die Methode nicht handhaben Surrogat-Paaren richtig, z.B. substring("\uD800\uDF30\uD800\uDF30", 4).getBytes("UTF-8").Länge zurückkehren wird 8, nicht 4. Hälfte ein ersatzpaar wird dargestellt als ein single-byte -"? " durch eine Zeichenkette.getBytes("UTF-8").
- Ich habe eine Variante dieser Antwort hier, die behandeln soll, die ersatzzeichenpaare richtig.
InformationsquelleAutor Peter Lawrey
0

Durch die Verwendung unter Regulärer Ausdruck Sie können auch entfernen Sie führende und nachfolgende Leerzeichen von double-byte-Zeichen.
```
stringtoConvert = stringtoConvert.replaceAll("^[\\s　]*", "").replaceAll("[\\s　]*$", "");
```
InformationsquelleAutor Gokul Limbe

Dies ist meine :

private static final int FIELD_MAX = 2000;
private static final Charset CHARSET =  Charset.forName("UTF-8"); 

public String trancStatus(String status) {

    if (status != null && (status.getBytes(CHARSET).length > FIELD_MAX)) {
        int maxLength = FIELD_MAX;

        int left = 0, right = status.length();
        int index = 0, bytes = 0, sizeNextChar = 0;

        while (bytes != maxLength && (bytes > maxLength || (bytes + sizeNextChar < maxLength))) {

            index = left + (right - left) / 2;

            bytes = status.substring(0, index).getBytes(CHARSET).length;
            sizeNextChar = String.valueOf(status.charAt(index + 1)).getBytes(CHARSET).length;

            if (bytes < maxLength) {
                left = index - 1;
            } else {
                right = index + 1;
            }
        }

        return status.substring(0, index);

    } else {
        return status;
    }
}

InformationsquelleAutor Сергей Сенько

Diese könnte man nicht die effizientere Lösung, aber Sie funktioniert

public static String substring(String s, int byteLimit) {
    if (s.getBytes().length <= byteLimit) {
        return s;
    }

    int n = Math.min(byteLimit-1, s.length()-1);
    do {
        s = s.substring(0, n--);
    } while (s.getBytes().length > byteLimit);

    return s;
}

InformationsquelleAutor Saúl Martínez Vidals

Habe ich verbessert Peter Lawrey, der die Lösung für genau handle ersatzzeichenpaare. Darüber hinaus habe ich optimiert, basierend auf der Tatsache, dass die maximale Anzahl von bytes pro char im UTF-8-Codierung ist 3.

public static String substring(String text, int maxBytes) {
    for (int i = 0, len = text.length(); (len - i) * 3 > maxBytes;) {
        int j = text.offsetByCodePoints(i, 1);
        if ((maxBytes -= text.substring(i, j).getBytes(StandardCharsets.UTF_8).length) < 0)  
            return text.substring(0, i);
        i = j;
    }
    return text;
}

InformationsquelleAutor Hans Brende

Schreibe einen Kommentar

Du musst angemeldet sein, um einen Kommentar abzugeben.