Genauigkeit bei der tiefenschätzung - Stereo-Vision

Ich mache eine Forschung in stereo-vision und ich bin daran interessiert, die Genauigkeit der tiefenschätzung in dieser Frage. Es hängt von mehreren Faktoren wie:

Ordnungsgemäße stereo-Kalibrierung (rotation, translation und Verzerrung-Extraktion),
Bildauflösung,
Kamera-und Objektiv-Qualität (weniger Verzerrungen, die richtige Farbe zu erfassen),
passende Merkmale zwischen zwei Bildern.

Sagen wir, wir haben keine low-cost-Kameras und Objektive (keine Billig-webcams etc).

Meine Frage ist, wie ist die Genauigkeit der tiefenschätzung, die wir in diesem Bereich zu erreichen?
Weiß jemand eine echte stereo-vision-system, das mit einer gewissen Genauigkeit?
Erreichen wir 1 mm Tiefe Schätzung Genauigkeit?

Meine Frage zielt auch in Systemen implementiert in opencv. Welche Genauigkeit haben Sie es geschafft, zu erreichen?

vielleicht haben Sie einen Blick auf: A Comparison and Evaluation of Multi-View Stereo Reconstruction Algorithm von Seitz et al. nyx-www.informatik.uni-bremen.de/1007/1/seitz_cvpr06.pdf, von deren Auswertung Sie sehen die Genauigkeit auf etwa 1mm. Obwohl Sie nicht behandeln, traditionelle Fernglas Umbau, planen Sie zu veröffentlichen Studien über das irgendwann später.
Danke für die Antwort. Obwohl dies nicht genau ich brauche, in meinem Fall würde ich eher wissen wollen, wenn es funktionierende Lösung in der Industrie und wie ist die Genauigkeit. Trotzdem schaue ich mehr in 3d-Rekonstruktion, vielleicht wird es mir helfen in dem Thema.

InformationsquelleAutor marol | 2014-03-31

14

Ich würde hinzufügen, dass die Verwendung von Farbe ist eine schlechte Idee, auch mit teuren Kameras - nutzen Sie einfach den Farbverlauf von Grau Intensität. Einige Hersteller von high-end-stereo-Kameras (z.B. Point Grey) verwendet, um sich auf Farbe verlassen, und wechselte dann zu Grau. Berücksichtigen Sie auch einen bias und eine Varianz als zwei Komponenten einer stereo-matching-Fehler. Dies ist wichtig, da mit einer Korrelation von stereo, zum Beispiel, mit einer großen Korrelation Fenster mittlere Tiefe (d.h. das Modell der Welt als einen Haufen von fronto-parallel-patches) und reduzieren Sie die Vorspannung bei gleichzeitiger Erhöhung die Varianz und Umgekehrt. Also es ist immer ein trade-off.

Mehr als die Faktoren, die du oben erwähnt, die Genauigkeit Ihrer stereo-hängt von den Besonderheiten des Algorithmus. Es ist bis zu einem Algorithmus zu validieren, Tiefe (wichtiger Schritt nach stereo-Schätzung) und anmutig patch die Löcher in textureless Bereichen. Betrachten Sie zum Beispiel hin-und-her-Validierung (Abgleich mit R auf L sollte produzieren die gleichen Kandidaten wie passende L, R), blob-Rauschen entfernen (nicht-Gaußschen Rauschen typisch für das stereo-matching entfernt mit connected component Algorithmus), textur-Validierung (ungültig Tiefe in Gebieten mit schwacher textur), Eindeutigkeit validation (mit einem uni-modal matching-score, ohne zweiten und Dritten starken Kandidaten. Dies ist in der Regel eine kurze cut-back-and_force Validierung), etc. Die Genauigkeit hängt auch das Rauschen der sensoren und sensor Dynamikbereich.

Schließlich haben Sie Ihre Frage über die Genauigkeit als Funktion der Tiefe, da d=f*B/z, wobei B eine baseline zwischen den Kameras, f ist die Brennweite in Pixel und z der Abstand entlang der optischen Achse. Es besteht somit eine starke Abhängigkeit der Genauigkeit auf die Grundlinie und den Abstand.

Kinect bieten 1mm Genauigkeit (bias) mit ziemlich großen Varianz von bis zu 1m oder so. Dann wird es heftig nach unten geht. Kinect wäre eine tote zone, die bis zu 50 cm, da es keine ausreichende überlappung von zwei Kameras in einem engen Abstand. Und ja, Kinect ist eine stereo-Kamera, wo man von den Kameras simuliert, indem ein IR-Projektor.

Ich bin mir sicher mit probabilistischen stereo wie belief-Propagation auf Markov Random Fields erreicht man eine höhere Genauigkeit. Aber diese Methoden gehen davon aus, einige starke priors über glatte Objekt-Oberflächen oder Besondere Oberfläche-Orientierung. Sehen dies zum Beispiel, Seite 14.

Vielen Dank für hilfreiche Ratschläge. Es wird einige Zeit dauern, bis gehen durch die Informationen, die Sie zur Verfügung gestellt, und ich wundere mich über folgenden Fall: angenommen, ein Objekt ich den Abstand Messen, um so kontrastreich, dass stereo-matching-problem verschwindet fast. Dann haben wir nicht um Tiefe zu erzeugen-Karten, so konzentrieren wir uns auf die Kalibrierung und die Beseitigung, schließlich die Anwendung Funktion der Tiefe d=f*B/z. Ich Frage mich, was ist mit diesem Fall. Auf der anderen Seite, Kinect Beispiel ist vielversprechend, obwohl im Mai Fall habe ich bis zu 60 cm Platz.
So viel wie ich finde in der Regel Vlad die Antworten in der Regel ganz am Ziel, es gibt einige Ungenauigkeiten in seiner Antwort oben. Insbesondere: (a) Die Genauigkeit der Rekonstruktion ist per se vollständig und ausschließlich abhängig von den Eigenschaften der Optik und der Genauigkeit der Kalibrierung. Der matching-Algorithmus nur wählt die 3D triangulates, nicht, wie genau Sie sind trianguliert. Aber im Allgemeinen kann man rekonstruieren, genauer, als Sie übereinstimmen. (b) der Einsatz von Farbe ist eine hervorragende Idee - wenn Sie es kontrollieren können, z.B. mithilfe einer strukturierten Licht-Projektor. (c) Kinect: structured-light != stereo
Sorry, aber deine sind falsch, auf alle Punkte, Francesco. In matching, Algorithmus ist der Schlüssel, da macht es oft "falsche" Treffer beeinflussen die Genauigkeit der Rekonstruktion. Alle anderen Probleme wie die Optik sind einfach zu beheben. Menschen, die das schreiben von Hausarbeiten auf den Vergleich der Genauigkeit von verschiedenen algorithmen. Mit Farbe ist eine schreckliche Idee, denn es ist mehr laut als Grau, weil die Farbe, die Pixel weniger Licht. Nur die Geschichte betrachten von stereo-Kameras. Kinect ist nicht im Zusammenhang mit strukturiertem Licht, obwohl oft so genannt. Es nutzt Infrarot-Licht schaffen textur, aber insgesamt wirkt wie eine stereo-Kamera mit einer Kamera wird ein Projektor.
Kurz (siehe Antwort unten): (a) grob falsch übereinstimmungen betreffen nur bias, anderes vereinbaren. (a2) Menschen, die das schreiben von Hausarbeiten (und Patente) auf das, was Sie rufen "einfach zu beheben" (b) Farbe: ich habe gesagt: "wenn du es kontrollieren können", richtig? Wenn Sie eine OTS-Farb-sensor, die Verteilung des Lichts auf die Pixel ist schon disuniform. Dann verschenken Farbe ist dumm, esp. wenn Sie können Steuern, die Beleuchtung (denke zufällig farbige Muster). (c) Sie sind frei, verwenden Sie die Begriffe, die Sie mögen, aber in CV Literatur stereo == mehrere Kameras UND unbekannte Beleuchtung+geometrie, in der Erwägung, dass Kinect nutzt wissen von der Licht-Muster.

InformationsquelleAutor Vlad
14

F: kennt Jemand eine echte stereo-vision-system, das funktioniert mit einer gewissen Genauigkeit? Erreichen wir 1 mm Tiefe Schätzung Genauigkeit?

Ja, Sie auf jeden Fall erreichen können, 1mm (und viel besser) Tiefe Schätzung Genauigkeit mit einem stereo-rig (heck, Sie tun können, stereo recon mit ein paar Mikroskope). Stereo-basierte industrielle Teil-Inspektions-Systeme mit Genauigkeiten im 0,1 mm-Bereich sind in routine-Einsatz, und das seit Anfang der 1990er-Jahre mindestens. Klar, durch das "stereo-Basis" meine ich eine 3D-Rekonstruktion system mit 2 oder mehr geometrisch getrennte sensoren, wo die 3D-Position eines Punktes abgeleitet, durch triangulation abgeglichen Bilder der 3D-Punkt in den sensoren. Solch ein system kann mit strukturiertem Licht-Projektoren, um mit Hilfe des Bildes, der jedoch, im Gegensatz zu einem richtigen "structured light-basierte 3D-Rekonstruktion system", es beruht nicht auf einer kalibrierten geometrie für die Licht-Projektor selbst.

Jedoch die meisten (wahrscheinlich alle) solche stereo Systeme ausgelegt für hohe Genauigkeit verwenden Sie entweder eine form der strukturierten Beleuchtung, oder einige Vorherige information über die geometrie der rekonstruierten Formen (oder eine Kombination von beiden), um zu fest beschränken, das matching der Punkte trianguliert. Der Grund dafür ist, dass, allgemein gesprochen, kann man triangulieren genauer, als Sie übereinstimmen, so passen die Genauigkeit der limitierende Faktor für die Genauigkeit der Rekonstruktion.

Einer intuitiven Weg, um zu sehen, warum dies der Fall ist, ist die Betrachtung der einfachen form der stereo-Rekonstruktion Gleichung: z = f b /d. Hier "f" (Brennweite) und "b" (Basis) fassen die Eigenschaften des rig, und Sie werden geschätzt, indem die Kalibrierung, während "d" (Disparität) drückt die übereinstimmung der zwei Bilder ein und desselben 3D-Punktes.

Nun, entscheidend ist, dass die Kalibrations-Parameter sind "global", und Sie werden geschätzt, basierend auf zahlreichen Messungen, die über den Bereich der Ansicht, und der Tiefe Bereich von Interesse sind. Daher, vorausgesetzt, die Kalibrierung ist unvoreingenommen, und, dass das system etwa Zeit-invariante, die Fehler in den einzelnen Messungen sind gemittelt in der parameter-Schätzungen. So ist es möglich, durch viele Messungen, und durch die enge Steuerung der rig-Optik, geometrie und Umwelt (einschließlich Vibrationen, Temperaturschwankungen und Luftfeuchtigkeit, etc), die Schätzung der kalibrierungsparameter sehr genau, dass ist, mit unvoreingenommenen geschätzte Werte beeinflusst durch die Unsicherheit der Bestellung von der Auflösung des Sensors, oder besser, so dass der Effekt der Ihre restliche Ungenauigkeiten vernachlässigt werden kann in einem bekannten Volumen des Raumes, wo das rig arbeitet.

Allerdings sind die Unterschiede Punkt-Weise schätzt: die eine besagt, dass Punkt p im linken Bild entspricht (vielleicht) Punkt q im rechten Bild, und alle Fehler in der Verschiedenheit d = (q - p) wird in z skaliert f b. Es ist ein one-shot Sache. Schlimmer ist, dass die Einschätzung der Unterschiede ist in allen nichttrivialen Fällen, beeinflusst von der (a priori unbekannten) geometrie und Oberflächeneigenschaften des Objekts wird analysiert, und durch Ihre Interaktion mit der Beleuchtung. Diese verschwören sich - durch was auch immer-matching-Algorithmus verwendet man - zum verringern der praktischen Genauigkeit der Rekonstruktion kann man erreichen. Strukturierte Beleuchtung hilft hier, weil es reduziert solche matching-Unsicherheit: die basic-Idee wird zum Projekt scharf, scharfe Kanten auf das Objekt, das gefunden werden kann und angepasst werden (oft mit subpixel-Genauigkeit) in die Bilder. Es gibt eine fülle von strukturierten Licht-Methoden, also ich gehe nicht in alle details hier. Aber ich beachten Sie, dass dies ein Bereich ist, bei denen die Verwendung von Farbe kann helfen viel.

So, was man erreichen kann in der Praxis hängt, wie üblich, auf wie viel Geld Sie bereit sind, zu verbringen (bessere Optik, geringerer Geräusch-sensor, starren Materialien und design für die rig mechanik, kontrollierte Beleuchtung), und wie gut Sie sich verstehen und beschränken Ihre spezielle Wiederaufbau problem.

InformationsquelleAutor Francesco Callari
3

Wenn Sie wan ' T wissen, ein bisschen mehr über die Richtigkeit der Ansätze werfen Sie einen Blick auf diese Website, obwohl nicht mehr sehr aktiv, die Ergebnisse sind so ziemlich state of the art. Berücksichtigen Sie, dass ein paar von den Vorträgen ging es zu schaffen Unternehmen. Was meinst du mit real-stereo-vision-system? Wenn du meinst, kommerzielle, es gibt nicht viele, die meisten kommerziellen Wiederaufbau-Systeme arbeiten mit strukturiertem Licht oder direkt-Scanner. Dies ist, weil (Sie verpasste ein wichtiger Faktor in der Liste), die textur ist ein wichtiger Faktor für die Genauigkeit (oder sogar vor, die Richtigkeit); eine weiße Wand, kann nicht rekonstruiert werden durch ein stereo-system, es sei denn, textur oder Struktur-das Licht Hinzugefügt wird. Trotzdem, in meiner eigenen Erfahrung, Systeme, beinhalten variantenreiche matching kann sehr genau sein (subpixel-Genauigkeit im Bildraum), die in der Regel nicht erreicht durch probabilistische Ansätze. Eine Letzte Bemerkung, die Entfernung zwischen den Kameras ist auch wichtig für die Genauigkeit: ganz in der Nähe-Kameras finden Sie eine Menge von richtigen matches und schnell, aber die Genauigkeit ist gering, weiter entfernten Kameras finden weniger Spiele, wird wohl länger dauern, aber die Ergebnisse genauer sein könnte; es ist eine optimale konischen region definiert, in viele Bücher.
Nach all dem blabla, ich kann Euch sagen, dass die Verwendung von opencv eine der besten Dinge, die Sie tun können, ist ein erste-Kameras Kalibrieren, verwenden Brox optischen Fluss finden Spiele und rekonstruieren.

Ja ich genau das gemeint kommerziellen Systemen. Ich denke auch über die Verwendung von strukturiertem Licht, das stereo-matching-problem weniger schwer. Ich werde haben Sie einen Blick über variantenreiche matching, wenn es mir helfen, das problem zu lösen. Danke für die Antwort.
Auch Gaben mehr dem Stand der Technik: vimeo.com/channels/465969 (Der Kerl tut, 3D-Rekonstruktion)
Dies ist weiter Fortgeschritten, da die Beleuchtung ist Teil des Modells (für die Verwendung der BRDF), aber, das hat zu tun mit dem studio fängt mit kontrollierter Beleuchtung. Die Qualität ist hervorragend, obwohl.

InformationsquelleAutor paghdv

Schreibe einen Kommentar

Du musst angemeldet sein, um einen Kommentar abzugeben.