Ähnliche Bilder Suche von pHash Entfernung in Elasticsearch

Unsere aktuelle Zuordnung

Jedes Dokument mit verschachtelten images Feld mit Bild hashes:

{
  "images": {
    "type": "nested", 
    "properties": {
      "pHashFingerprint": {"index": "not_analysed", "type": "string"}
    }
  }
}

Unsere schlechte Lösung

Tatsache: Elasticsearch fuzzy-query unterstützt die Levenshtein-Distanz von max 2 nur.

Wir verwendet benutzerdefinierte tokenisierung split 64-bit-Zeichenfolge in 4 Gruppen von 16 bits und do 4-Gruppe suchen, mit vier fuzzy-Abfragen.

Analyzer:

{
   "analysis": {
      "analyzer": {
         "split4_fingerprint_analyzer": {
            "type": "custom",
            "tokenizer": "split4_fingerprint_tokenizer"
         }
      },
      "tokenizer": {
         "split4_fingerprint_tokenizer": {
            "type": "pattern",
            "group": 0,
            "pattern": "([01]{16})"
         }
      }
   }
}

Dann neues Feld-mapping:

"index_analyzer": "split4_fingerprint_analyzer",

Dann Abfrage:

{
   "query": {
      "filtered": {
         "query": {
            "nested": {
               "path": "images",
               "query": {
                  "bool": {
                     "minimum_should_match": 2,
                     "should": [
                        {
                           "fuzzy": {
                              "phashFingerprint.split4": {
                                 "value": "0010100100111001",
                                 "fuzziness": 2
                              }
                           }
                        },
                        {
                           "fuzzy": {
                              "phashFingerprint.split4": {
                                 "value": "1010100100111001",
                                 "fuzziness": 2
                              }
                           }
                        },
                        {
                           "fuzzy": {
                              "phashFingerprint.split4": {
                                 "value": "0110100100111001",
                                 "fuzziness": 2
                              }
                           }
                        },
                        {
                           "fuzzy": {
                              "phashFingerprint.split4": {
                                 "value": "1110100100111001",
                                 "fuzziness": 2
                              }
                           }
                        }
                     ]
                  }
               }
            }
         },
         "filter": {}
      }
   }
}

Beachten Sie, dass wir Dokumente haben, die passenden Bilder, nicht die Bilder selbst, aber das sollte nicht ändern Sie die Dinge ein Menge.

Das problem ist, dass diese Abfrage gibt Hunderte von tausenden von Ergebnissen auch nach hinzufügen von weiteren Domänen-spezifischen Filter zur Reduzierung der anfänglichen Satz. Script hat zu viel Arbeit zu berechnen, die hamming-Distanz wieder, daher die Abfrage kann einige Minuten in Anspruch nehmen.

Als erwartet, wenn die Erhöhung minimum_should_match 3 und 4, nur die Teilmenge der Bilder, die gefunden werden müssen zurückgegeben werden, aber die Ergebnismenge ist klein und schnell. Unter 95% der benötigten Bilder werden zurückgegeben mit minimum_should_match == 3 aber wir brauchen 100% (oder 99,9 Prozent), wie mit minimum_should_match == 2.

Wir haben versucht, ähnliche Ansätze mit n-Gramm, aber noch nicht so viel Erfolg in gleicher Weise zu viele Ergebnisse.

Lösungen, die von anderen Daten-Strukturen und-Abfragen?

Bearbeiten:

Merkten wir, dass es ein Fehler war, in unserem Evaluierungsprozess und minimum_should_match == 2 liefert 100% der Ergebnisse. Doch die Verarbeitung Zeit danach dauert im Durchschnitt 5 Sekunden. Wir werden sehen, wenn das script lohnt sich die Optimierung.

Wenn B ist der ganzzahlige Anzahl von bits in jeder Fingerabdruck (0 <= B <= 64). Dann können Sie speichern B mit jedem Dokument, und zunächst filtern Sie alle Datensätze, in denen B < (sourceB - 8) und B - > (sourceB + 8). Sollte reduzieren Sie Ihre Fingerabdrücke unter Berücksichtigung von mindestens 4x gegeben ist die Gleichverteilung.
Während es wahr ist, dass Elasticsearch fuzzy-Abfrage und die meisten anderen APIs mit einer Unschärfe param unterstützen nur max edit-Distanz von 2, was fuzzy_like_this Abfrage? Ihre docs tun, beachten Sie, dass es eine Ausnahme für Sie, dass hier. Ich denke, dass könnte Ihnen ermöglichen, zu vermeiden, mit dem hacky Lösung, die Sie derzeit haben. Und natürlich, Sie sind nicht immer Ergebnisse innerhalb der hamming-Abstand 8 aber die Levenshtein-Distanz 8, so bin ich nicht sicher, ob Sie neu berechnet, dass.
das ist eine interessante Idee, obwohl, dass ist eine sehr große Auswahl, um die Suche auf diese Binomialverteilung, also Reduktion ist sehr klein.
danke, wir haben versucht, fuzzy_like_this, aber es dauert Minuten dauert ES und es ist eine veraltete Funktion. Gute Idee, obwohl.
Eigentlich ein paar Millionen Elemente ist nicht viel, sogar 100 Millionen 64-bit-Ganzzahlen (also 8 Byte) ist nur 800 MB RAM und passt problemlos auf der GPU. Ich konnte nicht finden eine gute Referenz, aber ich erwarte, dass CUDA-stream über das dataset in 10er Millisekunden und die genaue Liste als Ausgabe. In hoch-dimensionalen Räumen, insbesondere fuzzy-matching kann nicht profitieren viel von Indizierung und Datenstrukturen. Auch bei der Sortierung, die Sie durch gehen könnte 1740 Millionen 32-bit-keys / Sekunde!
Ich mag die CUDA-Idee. Ohne eine domain-spezifische hashing-Schema, wirklich der einzige Weg, um die Geschwindigkeit Ihrer Berechnung in Elasticsearch ist durch Splitter Ihre Daten über mehrere cluster-Knoten. In der Erwägung, dass auf einer GPU können Sie schreiben eine optimierte Hamming-tester, der parallelisiert werden kann 32-Wege ohne Netzwerk-oder Festplatten-IO.
Natürlich ^oben^ ist wohl die vorzeitige Optimierung, es sei denn, Sie müssen subsecond Reaktionszeit. (Dein Anwendungsfall ist das recall-konzentriert, so jemand ist eindeutig investiert in die Beurteilung von tausenden von hamming=8 Spiele, die dauern würde, genug user-Zeit/ - Aufwand zum Rendern Suche Leistung weniger kritisch.)
Re: Sie sind neueste update (minimum_should_match gibt 100%): Das ist toll!!! Wenn du einen Weg findest, um deine zu pushen Hamming-Wertung aus jeder Elasticsearch-cluster-Knoten, sparen Sie auf I/O-und post-processing. Look at function_score Abfragen mit script_score. Groovy unterstützt den XOR-operator (^) und Sie können die Verwendung von Java ist Integer.bitCount auf der XOR-Ausgang, um Ihnen Hamming-Gewicht.
Ich bin auf der Suche auf das gleiche problem, diesmal aber beginnend mit einem hex-string. Also mein Skript wird zuerst analysiert den hex-string in einen BigInteger und vergleicht dann mit den ankommenden string mit @PeterDixon-Moses Vorschlag von XOR-und dann bitCount. Es dauert noch viel zu lange, um zu verarbeiten. In der Tat, dies ist die zweite scoring-script, das ich habe versucht, mit ES (ich habe vorher versucht, viele Iterationen des euklidischen Distanz), und ich habe es nicht geschafft, eine bis-Skala noch. Ich möchte Frage Sie, wie Sie erwarten, dass diese Funktionen skalieren elastisch, aber ich kann nicht sehen, um die join-user-group!
Spotify hat ein open-source-tool namens [zu ärgern], [1] dass sich aus der box. [1]: github.com/spotify/annoy

InformationsquelleAutor TautrimasPajarskas | 2015-09-25

16

Habe ich simuliert und implementiert eine mögliche Lösung, die vermeidet teure "fuzzy" - Abfragen. Statt zur index-Zeit, die Sie nehmen N Stichproben M bits, die 64 bits. Ich denke, dies ist ein Beispiel von Locality-sensitive-hashing. So wird für jedes Dokument (und wenn-Abfragen) Beispiel Anzahlx ist immer von der gleichen bit-Positionen haben eine gleichmäßige Vermischung zwischen Dokumenten.

Abfragen verwenden term Filter bool query's should Klausel mit relativ niedrigen minimum_should_match Schwelle. Untere Schwelle entspricht höheren "Unschärfe". Leider müssen Sie re-index alle Ihre Bilder zum test dieses Ansatzes.

Ich denke { "term": { "phash.0": true } } Abfragen nicht gut führen, weil im Durchschnitt jeder filter entspricht 50% von Dokumenten. Mit 16 bits /sample jedes sample entspricht 2^-16 = 0.0015% von Dokumenten.

Ich meine tests mit folgenden Einstellungen:
- 1024 samples /hash (gespeicherte doc Felder "0" - "ff")
- 16 bits /sample (gespeichert short Typ doc_values = true)
- 4 Scherben und 1 Mio hashes /index, etwa 17.6 GB Speicher (könnte minimiert werden, indem nicht speichern _source und Proben, nur die original-binary hash)
- minimum_should_match = 150 (von 1024)
- Benchmark mit 4-Millionen-docs (4 Indizes)
Erhalten Sie schnellere Geschwindigkeit und der unteren Datenträger-Auslastung mit weniger Proben, aber Dokumente zwischen den hamming-Distanzen von 8 und 9 sind nicht so gut getrennt sind (laut meinen Simulationen). 1024 scheint die maximale Anzahl von should Klauseln.

Prüfungen wurden auf einem single-Core-i5-3570K, 24 GB RAM, 8 GB für LiveCycle ES, version 1.7.1. Ergebnisse von 500 Abfragen (siehe Hinweise unten, die Ergebnisse sind zu optimistisch):
```
Mean time: 221.330 ms
Mean docs: 197

Percentiles:
   1st = 140.51ms
   5th = 150.17ms
  25th = 172.29ms
  50th = 207.92ms
  75th = 233.25ms
  95th = 296.27ms
  99th = 533.88ms
```
Werde ich testen, wie sich diese Skalen zu 15 Millionen Dokumente, aber es dauert 3 Stunden zu erzeugen und zu speichern 1 Millionen Dokumente zu jedem index.

Sollten Sie testen, oder berechnen, wie tief Sie sollten minimum_should_match um die gewünschte trade-off zwischen treer und falschen entspricht, dieser richtet sich auf die Verteilung der hashes.

Beispiel Abfrage (3 von 1024 Felder gezeigt):
```
{
  "bool": {
    "should": [
      {
        "filtered": {
          "filter": {
            "term": {
              "0": -12094,
              "_cache": false
            }
          }
        }
      },
      {
        "filtered": {
          "filter": {
            "term": {
              "_cache": false,
              "1": -20275
            }
          }
        }
      },
      {
        "filtered": {
          "filter": {
            "term": {
              "ff": 15724,
              "_cache": false
            }
          }
        }
      }
    ],
    "minimum_should_match": 150
  }
}
```
Edit: Als ich anfing, weitere benchmarks habe ich gemerkt, dass ich erzeugt hatte zu unterschiedlichen hashes für die verschiedenen Indizes, also die Suche von diesen führte zu null Treffern. Die neu generierten Dokumente Ergebnis in etwa 150 - 250 matches /index /query und sollten realistischer sein.

Neuen Ergebnisse sind in der Grafik dargestellt, bevor, ich hatte 4 GB Speicher für ES zu und die restlichen 20 GB für OS. Suche 1 - 3-Indizes hatten gute performance (mittelwertbildungszeit 0.1 - 0.2 Sekunden), aber die Suche mehr als dies führte zu viele Datenträger-E /a und die Anfragen gestartet die Einnahme von 9 - 11 Sekunden! Dies könnte umgangen werden, indem man weniger Proben der hash aber dann recall-und precision-raten wäre nicht so gut, alternativ könnten Sie eine Maschine mit 64 GB RAM und sehen, wie weit Sie erhalten.

Edit 2: ich re-generierte Daten mit _source: false und nicht die Speicherung von hash-Beispiele (nur die raw-hash), dies reduziert den Speicherplatz um 60% auf rund 6.7 GB /index (von 1 Millionen Dokumente). Dies hatte keinen Einfluss auf die abfragegeschwindigkeit auf kleinere Datensätze, aber wenn RAM nicht ausreichend und Datenträger verwendet werden musste-Abfragen wurden über 40% schneller.

Edit 3: getestet habe ich fuzzy Suche mit edit-Distanz von 2 auf einen Satz von 30 Millionen Dokumente, und im Vergleich zu 256 Stichproben der hash zu bekommen Ungefähre Ergebnisse. Unter diesen Bedingungen sind die Methoden in etwa die gleiche Geschwindigkeit, aber fuzzy gibt genaue Ergebnisse und nicht brauchen, dass extra-Speicherplatz. Ich denke, dieser Ansatz ist nur sinnvoll für "sehr fuzzy" - Abfragen wie hamming-Distanz von größer als 3.
- Schön! +1 für die Optimierung der performance (mit einer einstellbaren Leistung vs. recall-Lösung nicht weniger!) Stimme definitiv zu, dass 64 binäre indizierten Feldern nicht dazu beitragen, die Kardinalität genug, um wirklich gute Leistung. Obwohl das ursprüngliche Ziel wurde zu 100% wieder bei Hamming-Distanz von 8 unabhängig von der Leistung, die OP scheint bereit zu sein zu opfern angemessenen erinnern für die Geschwindigkeit.
- Du hast Recht, dass eine gute LSH Projektion ist die goldene Mitte hier, und Stichproben sind das beste, was Sie tun konnte, ohne zu analysieren dataset. Aber angesichts der Tatsache, dass jedes feature bit repräsentiert einen bestimmten Aspekt des Bildes, es ist eine sichere Wette, dass die Verteilung der Merkmale ist nicht zufällig, und intelligent zu gruppieren einige dieser Funktionen zusammen, basierend auf der Häufigkeit, die in das dataset könnte helfen, reduzieren Sie die Kardinalität jeder filter-operation (und reduzieren Sie die Anzahl der filter-Operationen zu << 1024 zu helfen, Leistung).
- Im moment bin ich wieder laufen diese tests mit _source: false und speichern nur die raw-64-bit-hash (als string), abgetastete Muster sind indiziert, aber nicht gespeichert. Dies reduziert die disk-Auslastung von über 50% und ich bin daran interessiert zu sehen, ob es hilft, Abfrage-performance oder nicht. Auch ich werde ausführen, diese mit 256 samples und vergleichen Sie die Leistung mit integrierten in fuzziness Suche mit edit-Distanz von 2.
InformationsquelleAutor NikoNyrh
10

Ich auch implementiert, die die CUDA-Ansatz mit guten Ergebnissen sogar auf einem laptop mit GeForce 650M Grafikkarte. Die Umsetzung war einfach mit Schub Bibliothek. Ich hoffe, dass der code nicht fehlerhaft sind (ich habe nicht gründlich testen), aber es sollte keine Auswirkungen auf benchmark-Ergebnisse. Zumindest rief ich thrust::system::cuda::detail::synchronize() vor dem anhalten der high-precision timer.
```
typedef unsigned __int32 uint32_t;
typedef unsigned __int64 uint64_t;

//Maybe there is a simple 64-bit solution out there?
__host__ __device__ inline int hammingWeight(uint32_t v)
{
    v = v - ((v>>1) & 0x55555555);
    v = (v & 0x33333333) + ((v>>2) & 0x33333333);

    return ((v + (v>>4) & 0xF0F0F0F) * 0x1010101) >> 24;
}

__host__ __device__ inline int hammingDistance(const uint64_t a, const uint64_t b)
{
    const uint64_t delta = a ^ b;
    return hammingWeight(delta & 0xffffffffULL) + hammingWeight(delta >> 32);
}

struct HammingDistanceFilter
{
    const uint64_t _target, _maxDistance;

    HammingDistanceFilter(const uint64_t target, const uint64_t maxDistance) :
            _target(target), _maxDistance(maxDistance) {
    }

    __host__ __device__ bool operator()(const uint64_t hash) {
        return hammingDistance(_target, hash) <= _maxDistance;
    }
};
```
Lineare Suche war so einfach wie
```
thrust::copy_if(
    hashesGpu.cbegin(), hashesGpu.cend(), matchesGpu.begin(),
    HammingDistanceFilter(target_hash, maxDistance)
)
```
Suche war 100% korrekt und Weg, schneller als meine ElasticSearch Antwort, in 50 Millisekunden CUDA könnte stream über 35 Millionen hashes! Ich bin mir sicher, dass neuere desktop-Karten sind auch viel schneller als diese. Auch wir bekommen sehr geringe Varianz und konsistentes lineares Wachstum, der Suche nach der Zeit, wie wir gehen durch mehr und mehr Daten. ElasticSearch Treffer schlechtes Gedächtnis-Probleme auf größeren Abfragen wegen zu hoher sampling-Daten.

So, hier bin ich Berichterstattung über die Ergebnisse der "Aus diesen N-hashes, finden diejenigen, die innerhalb von 8 Hamming-Distanz von einem einzigen hash-H". Ich führe diese 500 mal und berichtet Perzentile.

Es gibt einige kernel-Start-overhead, aber nach der Suchraum von mehr als 5 Millionen hashes für die Suche die Geschwindigkeit ist relativ konstant bei 700 Millionen hashes pro Sekunde. Natürlich ist die Obere Schranke für die Anzahl der Hash-Werte gesucht werden, wird durch GPU-RAM).

Update: ich habe wieder laufen meine tests auf GTX 1060 und scannt es etwa 3800 Millionen hashes pro Sekunde 🙂
- Haben Sie den rest des Codes irgendwo? Fragen Sie sich, was Leistung ist der erste laden des dataset - ...
- Eigentlich ja, die main-Datei ist hier: github.com/nikonyrh/stackoverflow-scripts/blob/master/... Natürlich, der code ist ein bisschen ad-hoc, es sollte aber leicht sein zu Folgen. Ich Stell mir das teuerste Schritt ist das laden des hashes von irgendwoher, sei es aus eine while-oder eine Datenbank. Aber trotzdem sollte es sehr schnell. Tatsächlich könnten Sie sogar mit CUDA "unified memory" zuweisen größere Datenmengen als das, was passen auch auf Ihren GPU-RAM).
InformationsquelleAutor NikoNyrh
5

Habe ich begonnen, an einer Lösung um dieses selbst. Ich habe nur bisher getestet gegen ein Datensatz von rund 3,8 Millionen Dokumente, und ich beabsichtige, zu drängen, dass die nach oben von zehn Millionen.

Meine Lösung bisher ist:

Schreiben einen einheitlichen scoring-Funktion, und registrieren Sie es als plugin. Dann rufen Sie diese beim Abfragen anpassen der _score Wert der Dokumente, wie Sie kommen zurück.

Als ein groovy-Skript, die Zeit, die zum ausführen des benutzerdefinierten scoring-Funktion wurde extrem unscheinbar, aber schreiben Sie als einen einheitlichen scoring-Funktion (wie gezeigt, in diesem Jahre gekommenen blog-post: http://www.spacevatican.org/2012/5/12/elasticsearch-native-scripts-for-dummies/) war um Größenordnungen schneller.

Meine HammingDistanceScript sah so etwas wie dieses:
```
public class HammingDistanceScript extends AbstractFloatSearchScript {

    private String field;
    private String hash;
    private int length;

    public HammingDistanceScript(Map<String, Object> params) {
        super();
        field = (String) params.get("param_field");
        hash = (String) params.get("param_hash");
        if(hash != null){
            length = hash.length() * 8;
        }
    }

    private int hammingDistance(CharSequence lhs, CharSequence rhs){          
        return length - new BigInteger(lhs, 16).xor(new BigInteger(rhs, 16)).bitCount();
    }

    @Override
    public float runAsFloat() {
        String fieldValue = ((ScriptDocValues.Strings) doc().get(field)).getValue();
        //Serious arse covering:
        if(hash == null || fieldValue == null || fieldValue.length() != hash.length()){
            return 0.0f;
        }

        return hammingDistance(fieldValue, hash);
    }
}
```
Es ist erwähnenswert an dieser Stelle, dass meine Hashwerte sind hex-codiert-Binär-strings. So, das gleiche wie deins, aber hex-codiert reduzieren den storage-Größe.

Auch, ich erwarte einen param_field parameter, der angibt, welches Feld Wert, die ich tun will hamming-Distanz gegen. Sie nicht brauchen, um dies zu tun, aber ich verwende das gleiche script für mehrere Felder, so dass ich tun 🙂

Ich benutze es in Anfragen wie diese:
```
curl -XPOST 'http://localhost:9200/scf/_search?pretty' -d '{
  "query": {
    "function_score": {     
      "min_score": MY IDEAL MIN SCORE HERE,
      "query":{
       "match_all":{}
      },
      "functions": [
        {
          "script_score": {
            "script": "hamming_distance",
            "lang" : "native",
            "params": {
              "param_hash": "HASH TO COMPARE WITH",
              "param_field":"phash"
            }
          }
        }
      ]
    }
  }
}'
```
Ich hoffe das hilft in irgendeiner Weise!

Andere Informationen, die möglicherweise nützlich für Sie, wenn Sie diesen Weg gehen:

1. Denken Sie daran, die es-plugin.Eigenschaften Datei

Diese muss kompiliert werden, die in der Wurzel Ihrer jar-Datei (wenn Sie kleben Sie es in /src/main/resources dann bauen Sie Ihr Glas, es gehe in die richtige Stelle).

Sah meins so aus:
```
plugin=com.example.elasticsearch.plugins.HammingDistancePlugin
name=hamming_distance
version=0.1.0
jvm=true
classname=com.example.elasticsearch.plugins.HammingDistancePlugin
java.version=1.7
elasticsearch.version=1.7.3
```
2. Verweisen Sie Ihre benutzerdefinierte NativeScriptFactory impl in elasticsearch.yml

Genau wie auf im Alter blog-post.

Sah meins so aus:
```
script.native:
    hamming_distance.type: com.example.elasticsearch.plugins.HammingDistanceScriptFactory
```
Wenn Sie dies nicht tun, es zeigt immer noch bis auf die plugins-Liste (siehe später), aber Sie erhalten Fehler, wenn Sie versuchen, es zu sagen, dass elasticsearch kann es nicht finden.

3. Nicht die Mühe mit dem elasticsearch-plugin-Skript, um es zu installieren

Es ist nur ein Schmerz, der Esel und alles, was es scheint zu tun ist, packen Sie Ihre Sachen - ein bisschen sinnlos. Statt, nur kleben Sie es in %ELASTICSEARCH_HOME%/plugins/hamming_distance
und neu starten elasticsearch.

Wenn alles geklappt hat, sehen Sie, dass es geladen wird elasticsearch Start:
```
[2016-02-09 12:02:43,765][INFO ][plugins                  ] [Junta] loaded [mapper-attachments, marvel, knapsack-1.7.2.0-954d066, hamming_distance, euclidean_distance, cloud-aws], sites [marvel, bigdesk]
```
UND wenn Sie rufen Sie die Liste der plugins, die es werden da sein:
```
curl http://localhost:9200/_cat/plugins?v
```
produziert so etwas wie:
```
name        component                version type url
Junta       hamming_distance         0.1.0   j
```
Erwarte ich um testen zu können, gegen die nach oben von zehn Millionen Dokumenten innerhalb der nächsten Woche oder so. Ich werde versuchen, und denken Sie daran, pop zurück und aktualisieren diese mit den Ergebnissen, wenn es hilft.
- Ich verstehe, dass Sie O(n) Algorithmus mit einer sehr schnellen Verarbeitungsgeschwindigkeit. Das sieht aus wie eine perfekte Lösung arbeitet als post-processing-tool, um unsere ursprünglichen fuzzy-query-Methode. Vielleicht kombinieren Sie diese beiden? Sie würde nur benötigt, ein Bruchteil der Millionen von Datensätzen - Geschwindigkeit sollte groß sein.
- Um klar zu sein: meinst du, verwenden Sie die Unschärfe-Abfrage auf Token-hashes, klar, die Ergebnisse sind Weg, und dann reinigen Sie den rest mit Hilfe dieses scoring-Skript?
- PS: Im moment ist diese scoring-Skript gibt im ~700ms für ~3,8 Millionen Ergebnisse.
- Mit einem hash-Wert von 64 bits, die ich bekommen kann Ergebnisse in etwa 1 Sekunde von 31m-Dokumenten unter Verwendung einer Kombination von Unschärfe und einheitlichen scoring-Skripts auf elasticsearch 2.3.1. Mit einfachen scoring-Skript, 15 Sekunden für die erste Abfrage, und 5 danach (sieht aus wie es ist das caching etwas)
InformationsquelleAutor ndtreviv
2

Hier ist ein unelegant, aber den genauen (brute-force) Lösung, die erfordert, dass die Dekonstruktion Ihre Funktion hash, der in einzelne Boolesche Felder, so dass Sie können führen Sie eine Abfrage wie diese:
```
"query": {
    "bool": {
      "minimum_should_match": -8,
      "should": [
          { "term": { "phash.0": true } },
          { "term": { "phash.1": false } },
          ...
          { "term": { "phash.63": true } }
        ]
    }
}
```
Ich bin mir nicht sicher, wie dies durchzuführen vs. fuzzy_like_this, aber der Grund, die FLT Umsetzung ist veraltet ist, dass Sie jeden Begriff im index zur Berechnung edit-Distanz.

(wobei hier/oben, Sie sind die Nutzung Lucene zugrunde liegt, inverted-index-Daten-Struktur und optimierte Vorgänge, die sollte zu Ihrem Vorteil gegeben, Sie haben wahrscheinlich Recht spärlich features)
- Sie inspiriert andere Strategie, die wir gleich ausprobieren. Statt 64 Felder, fügen Sie einfach ein Feld, das speichert alle 64 Staaten in einem string: 001 010 020 031 040 ... 631 (position + Status) entspricht Ihr Vorschlag, kann aber sehr unterschiedlich in der Leistung.
- Sicher. Wenn Sie wollen optimieren, dass weitere, Sie könnten nur speichern die bits als Ganzzahlen (array der Werte von 1-64) und die Verwendung der negation (die not query) zu testen unset bits. Auf diese Weise können Sie reduzieren collection Größe und Weg von der string-Vergleich von numerischen Werten.
- Hey, danke für die Unterstützung! Wir haben integer-array. 43rd set-bit Wert war 42 und nicht-set-bit war ' s +100. Nämlich 142. So ist keine negation erforderlich war, nur einfache Begriffe-Abfrage 64 Werte. Aber die Leistung war sehr schlecht, es dauerte 5-20 s nur für die Antwort. Jeder Einblick auf die Optimierung, die?
- Froh, dass diese Antwort inspirierte, eine praktikable Lösung! Keine Probleme mit Rückruf hoffen? (Immer wieder 100% Ihrer Hamming-Abstand 8 Bilder?)
- Es gibt eine Reihe von Möglichkeiten zu erkunden, die Verbesserung der Leistung. Wären Sie bereit, sich zu öffnen, einem anderen post mit mehr details, um Ihre Abholung-Größe und cluster-Konfiguration (Anzahl der Knoten/Replikate, die Art der hardware (Speicher/cpu), Art der Speicherung (SSD vs spinning disk vs NAS), etc...)
- Für das Protokoll, wir haben auch versucht, genau dieses 64 boolean-Feld-Lösung und die performance ist meist das gleiche. Über 5 Sekunden für 15 Mio hashes.
- Haben Sie versuchen, speichern die bits, die nur in einem positions-string (zB: 00 03 ... 63) und mit den whitespace tokenizer in Verbindung mit minimum_should_match? War es das, was dir 5-20s Reaktionszeiten?
- Was ist, wenn Sie speichern bits (oder unset und gehen die nicht Weg), die als einzelne Felder, sondern als array, z.B.: phash_00: 1, phash_03:1 ... phash_63: 1 und in Ihre Abfrage suchen nur für bits, die mit einer minimum_should_match? Tut dies erhöht die Geschwindigkeit, wie viele Ergebnisse Sie MÜSSEN noch nicht einmal diejenigen, die bit-Felder?
InformationsquelleAutor Peter Dixon-Moses
2

Habe ich verwendet @ndtreviv ist Antwort als Ausgangspunkt. Hier sind meine Notizen für ElasticSearch 2.3.3:
1. es-plugin.properties Datei heißt jetzt plugin-descriptor.properties
2. Du keinen Verweis auf die NativeScriptFactory im elasticsearch.yml stattdessen erstellen Sie eine weitere Klasse neben Ihrem HammingDistanceScript.
```
import org.elasticsearch.common.Nullable;
import org.elasticsearch.plugins.Plugin;
import org.elasticsearch.script.ExecutableScript;
import org.elasticsearch.script.NativeScriptFactory;
import org.elasticsearch.script.ScriptModule;

import java.util.Map;

public class StringMetricsPlugin extends Plugin {
    @Override
    public String name() {
        return "string-metrics";
    }

    @Override
    public  String description() {
        return "";
    }

    public void onModule(ScriptModule module) {
        module.registerScript("hamming-distance", HammingDistanceScriptFactory.class);
    }

    public static class HammingDistanceScriptFactory implements NativeScriptFactory {
        @Override
        public ExecutableScript newScript(@Nullable Map<String, Object> params) {
            return new HammingDistanceScript(params);
        }
        @Override
        public boolean needsScores() {
            return false;
        }
    }
}
```
1. Dann die Referenz dieser Klasse, die in Ihrem plugin-descriptor.properties Datei:
```
plugin=com.example.elasticsearch.plugins. StringMetricsPlugin
name=string-metrics
version=0.1.0
jvm=true
classname=com.example.elasticsearch.plugins.StringMetricsPlugin
java.version=1.8
elasticsearch.version=2.3.3
```
1. Sie die Abfrage, indem der name, den Sie in dieser Zeile: module.registerScript("hamming-distance", HammingDistanceScriptFactory.class); im 2.
Hoffe, dies hilft, die nächste Arme Seele, die zu tun hat mit der beschissenen ES docs.
- Eine vergleichbare performance-Metriken für Elasticsearch 2.3.3?
- Noch nicht. Aber ich halte dies für eine interim-Lösung, denn es ist O(n). Haben zu kommen mit etwas INTELLIGENTEREN, die für die Produktion höher.
- Ha! Ich habe buchstäblich gerade aktualisiert, sind unsere plugins für die Arbeit mit 2.3.1 und hatte durch diese gehen. Ich wünschte, ich hätte zuerst Lesen! Ah gut. Für was es Wert ist, ich habe open-Source-plugins, die wir verwenden, obwohl ich noch nicht verpflichtet, die änderungen für ES-2.x noch. github.com/CameraForensics/elasticsearch-plugins
- PS: Wie unten, mit meiner eigenen plugin, das ich bekommen kann Ergebnisse wieder auf 31m Dokumente innerhalb von 15 Sekunden das erste mal, und 5 Sekunden danach. Mit einem Unschärfe-filter zuerst zur Begrenzung der Ergebnismenge vor dem Tor, ich bin immer die Ergebnisse zurück in weniger als einer Sekunde in einigen Fällen. In den meisten, irgendwo um 1-2 Sekunden. Das ist ein 64-bit-hash, obwohl.
- PPS: Nur aktualisiert werden, es 2.x freundlich.
InformationsquelleAutor mirosval

Hier ist 64-bit-Lösung zu @NikoNyrh ist Antwort. Hamming-Distanz berechnet werden kann, die nur mit XOR-operator mit einer eingebauten __popcll Funktion von CUDA.

struct HammingDistanceFilter
{
    const uint64_t _target, _maxDistance;

    HammingDistanceFilter(const uint64_t target, const uint64_t maxDistance) :
            _target(target), _maxDistance(maxDistance) {
    }

    __device__ bool operator()(const uint64_t hash) {
        return __popcll(_target ^ hash) <= _maxDistance;
    }
};

InformationsquelleAutor Bahadir

Schreibe einen Kommentar

Du musst angemeldet sein, um einen Kommentar abzugeben.

Ähnliches Bild Suche problem

Unsere aktuelle Zuordnung

Unsere schlechte Lösung