Bestimmen Sie Skelettfugen mit einer Webcam (nicht Kinect)

Ich bin versucht zu bestimmen, Skelett Gelenke (oder zumindest verfolgen zu können, eine einzelne Palme) mit einem normale webcam. Ich habe gesucht alle über das web und kann nicht scheinen zu finden ein Weg, dies zu tun.

Jedes Beispiel, das ich gefunden habe ist die Verwendung der Kinect. Ich möchte an einem einzigen webcam.

Gibt es keine Notwendigkeit für mich, um die Berechnung der Tiefe der Gelenke - ich muss nur in der Lage sein zu erkennen, Ihre X -, Y-position in dem Rahmen. Das ist, warum ich bin mit Hilfe einer webcam, kein Kinect.

Bisher habe ich mir angeschaut:

OpenCV (das "Skelett" - Funktionalität ist es, einen Prozess der Vereinfachung der grafischen Modelle, aber es ist nicht eine Erkennung und/oder skeletonization des menschlichen Körpers).
OpenNI (mit NiTE) - der einzige Weg, um die Gelenke, ist die Verwendung der Kinect-Gerät, damit dieses funktioniert nicht mit einer webcam.

Ich bin auf der Suche nach einem C/C++ - Bibliothek (aber an dieser Stelle würde bei jeder anderen Sprache), am besten open source (aber, wieder, betrachten alle Lizenz), die Folgendes tun können:

Ein Bild (einen Rahmen von einer webcam) berechnen Sie die X -, Y-Positionen der sichtbaren Gelenke
[Optional] ein video-capture-stream-Anruf wieder in mein code mit Veranstaltungen für Gelenke Positionen
Muss nicht super genau ist, aber würde es vorziehen, um sehr schnell sein (sub-0,1 Sekunden Bearbeitungszeit pro Bild)

Wäre wirklich sehr dankbar, wenn mir jemand helfen kann, mit diesem. Ich Hänge schon länger auf diese für ein paar Tage jetzt mit keine klaren Weg, um fortzufahren.

UPDATE

2 Jahre später wurde eine Lösung gefunden: http://dlib.net/imaging.html#shape_predictor

InformationsquelleAutor der Frage YePhIcK | 2013-06-15

18

Verfolgen einer hand mit einer einzigen Kamera ohne Tiefe Informationen ist eine schwere Aufgabe und Thema der Laufenden wissenschaftlichen Arbeit. Ich kann Sie liefern eine Reihe von interessanten und/oder stark zitierten wissenschaftlichen papers zum Thema:
- M. de La Gorce, D. J. Fleet und N. Paragios, "Modell-Basierte 3D-Hand Pose Estimation from Monocular Video.," IEEE transactions on pattern analysis and machine intelligence, vol. 33, Feb. 2011.
- R. Wang und J. Popović, "Real-time hand-tracking with a color glove", ACM Transactions on Graphics (TOG), 2009.
- B. Stenger, A. Thayananthan, P. H. S. Torr und R. Cipolla, "Model-based hand-tracking mit Hilfe eines hierarchischen Bayes-filter.," IEEE transactions on pattern analysis and machine intelligence, vol. 28, Nein. 9, S. 1372-84, Sep. 2006.
- J. M. Rehg und T. Kanade, "Model-based tracking of self-occluding articulated objects," Proceedings of IEEE International Conference on Computer Vision, 1995, S. 612-617.
Hand-tracking Literaturrecherche im 2. Kapitel:
- T. de Campos, "3D-Visuelle Verfolgung artikulierter Objekte und Hände," 2006.
Ich weiß leider nicht, über einige frei verfügbare hand-tracking-Bibliothek.

InformationsquelleAutor der Antwort Palmstrom

es gibt eine einfache Methode für die Erkennung von hand-Haut-Ton. vielleicht könnte dies helfen... Sie sehen die Ergebnisse auf diesem youtube -video. Nachteil: der hintergrund sollte nicht enthalten hautfarbene Dinge wie Holz.

hier ist der code:

''' Detect human skin tone and draw a boundary around it.
Useful for gesture recognition and motion tracking.

Inspired by: http://stackoverflow.com/a/14756351/1463143

Date: 08 June 2013
'''

# Required moduls
import cv2
import numpy

# Constants for finding range of skin color in YCrCb
min_YCrCb = numpy.array([0,133,77],numpy.uint8)
max_YCrCb = numpy.array([255,173,127],numpy.uint8)

# Create a window to display the camera feed
cv2.namedWindow('Camera Output')

# Get pointer to video frames from primary device
videoFrame = cv2.VideoCapture(0)

# Process the video frames
keyPressed = -1 # -1 indicates no key pressed

while(keyPressed < 0): # any key pressed has a value >= 0

    # Grab video frame, decode it and return next video frame
    readSucsess, sourceImage = videoFrame.read()

    # Convert image to YCrCb
    imageYCrCb = cv2.cvtColor(sourceImage,cv2.COLOR_BGR2YCR_CB)

    # Find region with skin tone in YCrCb image
    skinRegion = cv2.inRange(imageYCrCb,min_YCrCb,max_YCrCb)

    # Do contour detection on skin region
    contours, hierarchy = cv2.findContours(skinRegion, cv2.RETR_EXTERNAL, cv2.CHAIN_APPROX_SIMPLE)

    # Draw the contour on the source image
    for i, c in enumerate(contours):
        area = cv2.contourArea(c)
        if area > 1000:
            cv2.drawContours(sourceImage, contours, i, (0, 255, 0), 3)

    # Display the source image
    cv2.imshow('Camera Output',sourceImage)

    # Check for user input to close program
    keyPressed = cv2.waitKey(1) # wait 1 milisecond in each iteration of while loop

# Close window and camera after exiting the while loop
cv2.destroyWindow('Camera Output')
videoFrame.release()

den cv2.findContour ist sehr nützlich, Sie finden den Schwerpunkt eines "blob" mit cv2.Momente nach u finden der Konturen. haben Sie einen Blick auf die opencv-Dokumentation auf shape-Deskriptoren.

ich habe nicht noch herausgefunden, wie man die Skelette liegen in der Mitte der Kontur, aber ich dachte "Erodieren" die Konturen, bis Sie eine einzelne Zeile. in der Bildverarbeitung der Prozess heißt "skeletonization" oder "morphologische Skelett". hier einige grundlegende Informationen über skeletonization.

hier ist ein link, implementiert skeletonization in opencv und c++

hier ist ein link für skeletonization in opencv und python

hoffe, das hilft 🙂

--- EDIT ----

ich würde sehr empfehlen, dass Sie gehen durch diese Papiere von Deva Ramanan (nach unten scrollen nach dem Besuch der verlinkten Seite): http://www.ics.uci.edu/~dramanan/

C. Desai, R. Ramanan. "Die Erkennung von Aktionen, Haltungen, und Objekte mit
Relationale Phraselets" European Conference on Computer Vision
(ECCV), Florenz, Italien, Okt. 2012.
D. Park, D. Ramanan. "N-Beste Maximale Decoder für Teil-Modelle" Internationale Konferenz
on Computer Vision (ICCV) Barcelona, Spanien, November 2011.
D. Ramanan. "Lernen zu Analysieren, Bilder von Artikulierten Objekten" Neuronaler Info. Proc.
Systems (NIPS), Vancouver, Kanada, Dezember 2006.

InformationsquelleAutor der Antwort samkhan13

2

Der am häufigsten verwendete Ansatz kann man im folgenden youtube-video. http://www.youtube.com/watch?v=xML2S6bvMwI

Diese Methode ist nicht sehr robust, da es dazu neigt, zu scheitern, wenn die hand gedreht wird zu viel (zB; wenn die Kamera schaut, auf der Seite der hand oder auf einem teilweise Gebogenen hand).

Wenn Sie nicht dagegen, mit zwei Kamera ' s können Sie Einblick in die Arbeit von Robert Wang. Seine aktuelle Firma (3GearSystems) verwendet diese Technologie, augmented mit kinect zu bieten tracking. Seine original-Papier verwendet zwei webcams, hat aber viel schlimmer tracking.

Wang, Robert, Sylvain Paris, und Jovan Popović. "6d Hände: markerless hand-tracking für computer aided design." Proceedings of the 24th annual ACM symposium on User interface software und Technologie. ACM, 2011.

Anderen option (wieder, wenn mit "mehr" als ein einziges webcam ist möglich), ist die Verwendung eines IR-emitter. Ihre hand reflektiert IR-Licht Recht gut in der Erwägung, dass der hintergrund nicht. Durch das hinzufügen eines filters auf die webcam, die Filter normalem Licht (und entfernen der standard-filter, der genau das Gegenteil tut) können Sie eine sehr effektive hand-tracking. Der Vorteil dieser Methode ist, dass die Segmentierung der hand vom hintergrund ist viel einfacher. Abhängig von der Entfernung und der Qualität der Kamera, Sie müssten mehr IR-leds, um zu reflektieren, ausreichend Licht zurück in die webcam. Die leap motion verwendet diese Technologie, um zu verfolgen den Fingern & palms (es wird mit 2 IR-Kameras und 3 Infrarot-leds, die bekommen auch ausführliche Informationen).

Alle, dass gesagt wird, ich denke die Kinect ist Ihre beste option in diesem. Ja, Sie brauchen nicht die Tiefe, sondern die Tiefe der Informationen macht es viel leichter zu erkennen, die hand (mit der Tiefe der Informationen für die Segmentierung).

InformationsquelleAutor der Antwort Nallath
2

Mein Vorschlag, angesichts Ihrer Einschränkungen, würden Sie etwas wie dies:
http://docs.opencv.org/doc/tutorials/objdetect/cascade_classifier/cascade_classifier.html

Hier ist ein tutorial für die Verwendung der Gesichtserkennung:
http://opencv.willowgarage.com/wiki/FaceDetection?highlight=%28facial%29/%28recognition%29

Das problem, das Sie beschrieben haben, ist ziemlich schwierig, und ich bin mir nicht sicher, dass der Versuch, es zu tun mit nur einer webcam ist ein vernünftiger plan, aber dies ist wahrscheinlich Ihre beste Wette. Wie hier erklärt (http://docs.opencv.org/modules/objdetect/doc/cascade_classification.html?highlight=load#cascadeclassifier-load), müssen Sie zum trainieren des Klassifikators mit so etwas wie dies:

http://docs.opencv.org/doc/user_guide/ug_traincascade.html

Denken Sie daran: obwohl Sie nicht erforderlich ausführliche Informationen für Ihre Nutzung, wenn Sie diese Informationen macht es einfacher für die Bibliothek zu identifizieren, die eine hand.

InformationsquelleAutor der Antwort Andrew W
2

Endlich habe ich eine Lösung gefunden habe. Stellt sich heraus, ein dlib open-source-Projekt hat eine "Form Prädiktor", dass, wenn richtig trainiert, macht genau das, was ich brauche: es geraten (mit einer ziemlich zufriedenstellenden Genauigkeit) der "pose". Eine "pose" ist lose definiert als "was auch immer du trainieren, es zu erkennen, wie eine pose" durch das training mit einer Reihe von Bildern, versehen mit den Formen, aus Ihnen zu extrahieren.

Form Prädiktor ist hier beschrieben auf dlib website

InformationsquelleAutor der Antwort YePhIcK
0

Weiß ich nicht über mögliche vorhandene Lösungen. Wenn der betreute (oder semi-supervised) lernen ist eine option, die Ausbildung Entscheidungsbäume oder neuronale Netze könnten schon genug sein (kinect verwendet zufällige Wälder von dem, was ich gehört habe). Bevor Sie gehen einen solchen Weg, alles, was Sie tun können, um eine bereits vorhandene Lösung. Erste Machine-Learning-Zeug nimmt eine Menge Zeit und Experimentieren.

OpenCV-hat Maschine-learning-Komponenten, was Sie brauchen, ist Trainingsdaten.

InformationsquelleAutor der Antwort kutschkem
0

Mit der motion-tracking-Funktionen der open-source - Blender-Projekt ist es möglich, erstellen ein 3D-Modell auf Basis von 2D-Material. Kein kinect benötigt. Da blender ist open-source, die Sie möglicherweise in der Lage, Ihre pyton scripts außerhalb des blender-framework für Ihre eigenen Zwecke.

InformationsquelleAutor der Antwort Ruut
0

Haben Sie jemals gehört, über Eyesweb

Habe ich es für eines meiner Projekt, und ich dachte, es könnte nützlich sein für das, was Sie erreichen wollen.
Hier sind einige interessante Publikation LNAI 3881 - Finger-Tracking-Methoden, die Mit EyesWeb und Powerpointing-HCI mit gesten

Grundsätzlich ist der workflow:
1. Erstellen Sie Ihre patch in EyesWeb
2. Bereiten Sie die Daten, die Sie senden möchten, mit einem Netzwerk-client
3. Verwendung Thesen verarbeiteten Daten auf Ihrem eigenen server (Ihre app)
Aber ich weiß nicht, ob es eine Möglichkeit zum einbetten von Echtzeit-Bildverarbeitung Teil der Augen Web, in einem weich wie eine Bibliothek.

InformationsquelleAutor der Antwort Gomino

Schreibe einen Kommentar

Du musst angemeldet sein, um einen Kommentar abzugeben.