Finger - /Hand-Gestenerkennung mit Kinect

Lassen Sie mich erklären, meine müssen, bevor ich das problem erklären.
Ich freue mich für eine hand-kontrollierte Anwendung.
Navigation mit palm und klickt mit greifen/Faust.

Derzeit arbeite ich mit Openni, das klingt vielversprechend und hat nur wenige Beispiele, die sich als nützlich in meinem Fall, denn es hatte bereits eingebaut-hand-tracker in den Proben. was dient meinem Zweck, für Zeit wird.

Was ich Fragen will ist,

1) was wäre der beste Ansatz, um eine Faust - /- Greifer-Detektor ?

Ich ausgebildet und eingesetzt Adaboost Faust Klassifikatoren, die auf RGB-Daten extrahiert, die war ziemlich gut, aber es hat zu viele falsche Erkennungen, um vorwärts zu bewegen.

So, hier habe ich zwei frame mehr Fragen

2) gibt es andere gute Bibliothek, die geeignet ist, die Erreichung meine Bedürfnisse mit der Tiefe Daten ?

3)Können wir trainieren, unsere eigenen gesten, vor allem mit den Fingern, wie einige Papier bezog, HMM, wenn ja, wie gehen wir vor mit einer Bibliothek wie OpenNI ?

Ja, ich habe versucht mit dem middle-ware-Bibliotheken OpenNI, wie das grab-Detektor, aber, pflegen Sie dienen meinem Zweck, als seine weder opensource, noch entspricht meinem Bedürfnis.

Abgesehen von dem, was ich fragte, wenn es etwas gibt, Sie denken, dass mir helfen könnte akzeptiert werden, als ein guter Vorschlag.

Welches Betriebssystem waren, die Sie verwenden, um zusammen mit dem gleichen? Waren Sie zufällig mit einem Mac, oder war es ein Windows, das Sie verwenden?

InformationsquelleAutor 4nonymou5 | 2014-02-14

7

Brauchen Sie nicht zu trainieren, Ihre erste Algorithmus, da er die Dinge zu komplizieren.
Verwenden Sie nicht die Farbe, denn es ist unzuverlässig (Mischungen mit hintergrund-und verpasst unvorhersehbar, je nach Beleuchtung und Blickwinkel)
1. Unter der Annahme, dass Ihre hand ist zu einem nächsten Objekt können Sie einfach
  segment Sie es durch die Tiefe Schwelle. Sie können festlegen, Schwelle, manuell, Verwendung einer nächsten region depth-Histogramm, oder führen Sie angeschlossene Komponente eine Tiefe, die Karte zu brechen, es auf sinnvolle Teile zuerst (und dann wählen Sie Ihr Objekt nicht nur seine Tiefe, sondern auch durch seine Dimensionen, Bewegung, Benutzereingaben, etc.). Hier ist die Ausgabe des angeschlossenen Komponenten-Methode:
2. Gelten konvex Mängel aus der opencv-Bibliothek zu finden, Finger;
3. Track Finger, anstatt entdecken Sie Sie in 3D.Dies erhöht die Stabilität. Habe ich erfolgreich umgesetzt, wie Fingerabdruck-Erkennung vor etwa 3 Jahren.
- Ich habe diese Implementierung habe ich versucht, in ähnlicher Weise, statt auf die Farbe-Modus, ich habe versucht, konvex Mängel mit Schwelle und Tiefe Palette, die du erwähnt hast und ja, nur auf der hand extrahiert region, der Ansatz ist sehr gut, aber war nicht so rubust wie hand-Skelett. Aber von allen Ansätzen erwähnt, sieht dies der beste Ansatz, mit paar änderungen.
- Der Teufel steckt im Detail, wie Sie sagen. Sie erkunden die Fälle, wenn die Leistung nicht robust ist - es kann sein verbessern Sie Ihre Implementierung. Letztlich kann man eine feedback-Schleife aus mehreren analysierten Formen zurück zu pre-processing und die Auswahl der Etappen, was bedeutet, dass Ihre post-processing sollten informieren Sie Ihren sonst unvollkommen, pre-processing, was zu wählen. Aber diese Schleifen sind gefährlich und sollte getan werden, mit dem vollkommenen Verständnis.
InformationsquelleAutor Vlad
4

Lesen meiner Papier 🙂 http://robau.files.wordpress.com/2010/06/final_report_00012.pdf

Ich habe getan, Forschung auf gesten-Erkennung für die Hände, und bewertet einige Ansätze, die robust gegenüber Skalierung, rotation etc. Sie haben die Tiefe Informationen, die sehr wertvoll ist, als das größte problem für mich war eigentlich segment der hand aus dem Bild.

Meine erfolgreichste Ansatz ist, um Weg von der Kontur der hand und für jeden Punkt auf der Kontur, nehmen Sie den Abstand, um den Schwerpunkt der hand. Dies gibt eine Reihe von Punkten, die verwendet werden können, die als input für viele Trainings-algorithmen.

Ich die Bild-Momente der segmentierten hand zu bestimmen, deren rotation, so ist es ein guter Ausgangspunkt auf die Hände Kontur. Es ist sehr einfach zu bestimmen, eine Faust, streckte die hand aus und die Anzahl der verlängerten Finger.

Beachten Sie, dass, während es funktioniert gut, Ihr arm dazu neigt, müde von zeigen in die Luft.

InformationsquelleAutor RobAu
2

Es scheint, dass Sie keine Ahnung von den Point Cloud Library (PCL). Es ist ein open-source-Bibliothek gewidmet, die Verarbeitung von Punktwolken und RGB-D-Daten, die auf OpenNI für die low-level-Operationen und bietet eine Menge von high-level Algorithmus, zum Beispiel für die Registrierung, Segmentierung und auch Anerkennung.

Einen sehr interessanten Algorithmus zur Form - /Objekt-Erkennung im Allgemeinen genannt wird implizite Form Modell. Um zu erkennen ob ein Globale Objekt (wie ein Auto, oder eine offene hand), die Idee ist zunächst zu ermitteln, möglich, Teile davon (z.B. Räder, Kofferraum, etc, oder Finger, Handfläche, Handgelenk usw.) mit einem lokalen feature-Detektor, und dann zu folgern, die position des global-Objekt, indem man die Dichte und die relative position der Teile. Zum Beispiel, wenn ich erkennen kann, fünf Finger, eine Handfläche und Handgelenk in einer bestimmten Gegend, es gibt eine gute chance, dass in der Tat bin ich auf der Suche auf eine hand, wenn ich allerdings nur erkennen, ein finger und ein Handgelenk, irgendwo, es könnte ein paar von Fehlerkennungen. Die wissenschaftlichen Artikel auf dieser impliziten Form Modell Algorithmus gefunden werden kann hier.

In der PCL, es ist ein paar des tutorials widmet sich dem Thema der Form der Anerkennung, und zum Glück, ein von Ihnen deckt die implizite Form Modell, die umgesetzt wurde, in PCL. Getestet habe ich nie diese Umsetzung, aber von was ich Lesen konnte in dem tutorial, Sie können Ihre eigenen Punkt-Wolken für die Ausbildung der Klassifizierer.

, Dass gesagt wird, hast du nicht erwähnt es explizit in deiner Frage, aber da Ihr Ziel ist es, das Programm einer hand-kontrolliert-Anwendung, könnten Sie in der Tat daran interessiert sein, einen real-time Form-Erkennung-Algorithmus. Du müsstest die Geschwindigkeit des implicit shape model zur Verfügung gestellt, die in PCL, aber ich denke, dieser Ansatz ist besser geeignet, um offline-Formen zu erkennen.

Wenn Sie brauchen Echtzeit-Form der Anerkennung, ich denke, Sie sollten zunächst mit einer hand - /arm-tracking-Algorithmus (die sind in der Regel schneller als vollständige Suche), um zu wissen, wo sich in den Bildern, statt zu versuchen, führen Sie eine vollständige Form-Erkennung an jedem frame des RGB-D stream. Sie könnten zum Beispiel Spur der hand, die Lage durch die Segmentierung der depthmap (z.B. mit einer geeigneten Schwelle auf die Tiefe) und dann die Erkennung der extermities.

Dann, sobald Sie ungefähr wissen, wo die hand ist, sollte es einfacher sein, zu entscheiden, ob die hand macht eine Geste für Ihre Anwendung relevant sind. Ich bin nicht sicher, was du genau meinst, Faust/grab-gesten, aber ich schlage vor, dass Sie Sie definieren und verwenden einige app-controlling-gesten, die sind einfach und schnell voneinander zu unterscheiden.

Hoffe, das hilft.
- Oh, ja, ich habe davon gehört, aber nie gedacht, dass die Umsetzung, deine Erklärung klingt attraktiv und ich ll sicherlich schauen Sie hinein, ja, Sie haben es erraten Recht, ich erwarte eine Echtzeit und robuste Detektion. Ich habe schon eine ziemlich robuste hand-tracker, die nicht besser werden als das, das problem bleibt mit dem Greifer Geste, inclear Worte, mit dem finger eine Geste, schnappen, ich will trigger a klicken Sie auf. Ihre letzten beiden Absätze ist etwas, was ich versuchte mit Adaboost Klassifikator, obwohl ich ll versuchen, es umzusetzen mit pcl als es klingt gut. Glaubst du, es würde für einige finger-gesten, wie Daumen hoch?
- Wenn man sich am Ende der PCL-tutorial über implizite Form-Modell, werden Sie sehen, dass der Klassifikator trainiert ist, zu unterscheiden 5 Klassen (inklusive Katze, Pferd, Löwin und wolf, die sind nicht ganz so einfach). Also, wenn Sie Ihre hand/finger-gesten sind unterschiedlich genug ist (z.B. Faust, offene hand, Daumen oben, Daumen nach unten etc.), hat dieser Ansatz eine gute Möglichkeit zu arbeiten. Trotzdem, es lohnt sich das Experimentieren mit der Umsetzung.
- Ja, sicher, ich werde versuchen, die Dinge mit diesem.
- PCL ist ziemlich berühmt und viele Menschen sind sich dessen bewusst. Objekt-Registrierung funktioniert für die Erstellung der 3D-Modelle und ist ziemlich langsam, während die Form, die Modellierung ist gut für das erkennen von starren Formen, im Gegensatz zu stark verformbare hand.
- Stimmt, aber man muss unterscheiden zwei Aufgaben in der OP-Frage: hand-tracking und Gestenerkennung. Ich bin damit einverstanden, dass die implicit shape model ist nicht geeignet für das hand-tracking (das sagte ich auch in meiner Antwort), aber es ist sehr geeignet für die Gestenerkennung. Die einzige unbekannte ist auf die Kompatibilität mit der real - time constraint.
- Guter Punkt. Obwohl ich über sehr einfache gesten, wie wischen oder push-pull -, die eng mit dem tracking. Komplexere gesten natürlich werden einige Lern-und Modellierung. Ich würde Konvexität Mängel als features, obwohl da standard-Ecken können schlecht-Modell-hand Teile.
InformationsquelleAutor BConic
2

Die schnelle Antwort ist: ja, können Sie trainieren, Ihre eigenen gesten-Detektor mit Tiefe Daten. Es ist wirklich einfach, aber es kommt auf die Art der Geste.

Angenommen, Sie wollen zu erkennen, eine hand Bewegung:
1. Erkennen der hand position (x,y,x). Mit OpenNi ist geradewegs als ein Ankerpunkt für die hand
2. Ausführen der Geste und sammeln ALLE Positionen der hand während der Bewegung.
3. Mit der Liste der Positionen Zug ein HMM. Zum Beispiel können Sie Matlab, C, oder Python.
4. Für Ihre eigenen gesten, können Sie test das Modell und die Erkennung der gesten.
Hier finden Sie ein schönes tutorial und den code (in Matlab). Der code (test.m ist ziemlich einfach zu Folgen). Hier ist ein snipet:
```
%Load collected data
training = get_xyz_data('data/train',train_gesture);
testing = get_xyz_data('data/test',test_gesture); 

%Get clusters
[centroids N] = get_point_centroids(training,N,D);
ATrainBinned = get_point_clusters(training,centroids,D);
ATestBinned = get_point_clusters(testing,centroids,D);

% Set priors:
pP = prior_transition_matrix(M,LR);

% Train the model:
cyc = 50;
[E,P,Pi,LL] = dhmm_numeric(ATrainBinned,pP,[1:N]',M,cyc,.00001);
```
Umgang mit Finger ist so ziemlich das gleiche, aber statt erkennen durch die hand, die Sie brauchen, um festzustellen de Finger. Wie Kinect nicht haben finger Punkte, die Sie verwenden müssen, um einen spezifischen code, um Sie zu erkennen (mithilfe der Segmentierung oder der konturverfolgung). Einige Beispiele für die Verwendung von OpenCV gefunden werden kann hier und hier, aber die erfolgversprechendste ist der ROS-Bibliothek, die ein-finger-Knoten (siehe Beispiel hier).
- was immer gab Sie zu gut, die links wären eine große Hilfe. Aber Ihre Antwort meist konzentriert auf der hand, wenn ich sage, schnappen, ich meinte die Erfassung der Fingerbewegung, sorry, ich glaube nicht, in die Tiefe, ich hätte eingerahmt, die die Frage fingure gesten. jeder konkrete Vorschlag, basierend auf finger-gesten ? wie die codes/Algorithmus erwähnt, meist befasst sich mit der Bewegung der hand, anstatt eine bestimmte Geste fingure
- Überprüfen Sie das Bearbeiten der post. Ich fügte hinzu, eine interessante Referenz im Zusammenhang mit der finger-Erkennung
- Ja, ich habe etwas ähnliches, verwendet Tiefe Daten mit Konvexität Rumpf Mängel und noch einige andere Dinge, es war gut, aber nicht in der Lage Umgang mit meinen Bedürfnissen, wenn der link von ROS sauber aussieht, ich ll versuchen, es in diese Richtung auch, deine Antwort sieht beeindruckend aus.
- Ich habe einige arbeiten mit der Kinect, und hatte etwas Mühe mit der Tiefe. Die Auflösung der IR-Kamera war nicht so toll, so möchten Sie vielleicht, die berücksichtigen, vor allem, wenn die Tiefe Bewegung ist eingeschränkt auf, wie weit ein finger bewegen kann. Ich bin offensichtlich nicht vertraut mit Ihrem dataset, aber ich denke, es ist etwas, das man im Auge behalten sollte.
InformationsquelleAutor phyrox
2

Wenn Sie brauchen nur den Nachweis der Faust/grab Zustand, sollten Sie microsoft eine chance. Microsoft.Kinect.Toolkit.Interaction enthält Methoden und Ereignisse, erkennt der grip /halt Freigabe-Zustand einer hand. Werfen Sie einen Blick auf die HandEventType von InteractionHandPointer . Das funktioniert ganz gut für die Faust - /grab-Erkennung, aber nicht erkennt, oder der Bericht die position der einzelnen Finger.

Den nächsten kinect (kinect one) erkennt 3 joint pro hand (Handgelenk, Hand, Daumen) und hat 3 hand, basierend gestik: offen, geschlossen (Griff/Faust) und lasso (Zeiger). Wenn es das ist genug für Sie sind, sollten Sie die microsoft-Bibliotheken.
- Wird es eine zweite version von Kinect basiert auf ToF? Gibt es eine library für Linux?
InformationsquelleAutor Thomas Hetzer
0

1) Wenn es eine Menge von falschen Erkennungen, könnten Sie versuchen, zu verlängern der negativen Stichprobe der Klassifikator, und trainieren Sie es erneut. Die erweiterte negative Bild, das set sollte enthalten, wie Bilder, wo die Faust war falsch erkannt. Vielleicht wird dies helfen, zu erstellen Sie eine bessere classifier.
- ja, das wäre eine Wahl, aber, was ich dachte ist, die Eingliederung der Tiefe Daten können Hinzugefügt werden Vorteil in einem anderen Algorithmus, durch die Genauigkeit verbessert werden kann. so, mehr Interesse in diese Richtung.
InformationsquelleAutor ramez
0

Habe ich hatte ziemlich viel Erfolg mit der middleware-Bibliothek, wie es von der http://www.threegear.com/. Bieten Sie mehrere gesten (einschließlich greifen, kneifen und zeigen) und 6 DOF handtracking.

InformationsquelleAutor Nallath
0

Vielleicht haben Sie Interesse in diesem Papier & open-source-code:

Robuste Gelenkarm-ICP für die Real-Time Hand-Tracking

Code: https://github.com/OpenGP/htrack

Screenshot: http://lgg.epfl.ch/img/codedata/htrack_icp.png

YouTube-Video: https://youtu.be/rm3YnClSmIQ

Paper PDF: http://infoscience.epfl.ch/record/206951/files/htrack.pdf

InformationsquelleAutor masterxilo

Schreibe einen Kommentar

Du musst angemeldet sein, um einen Kommentar abzugeben.