Was ist "semantische Segmentierung" im Vergleich zu "Segmentierung" und "Szenen-Labeling"?

Semantische Segmentierung nur ein Pleonasmus, oder gibt es einen Unterschied zwischen "semantic segmentation" und "Segmentierung"? Gibt es einen Unterschied zu "scene labeling" oder "scene parsing"?

Was ist der Unterschied zwischen pixel-Ebene und pixelwise Segmentierung?

(Side-Frage: Wenn Sie diese Art von pixel-Weise Anmerkung, bekommen Sie object detection for free oder gibt es noch etwas zu tun?)

Bitte geben Sie eine Quelle für Ihre Definitionen.

Quellen "semantische Segmentierung"

Jonathan Lange, Evan Shelhamer, Trevor Darrell: Voll Convolutional Networks für die Semantische Segmentierung. CVPR, 2015 und PAMI, 2016
Hong, Seunghoon, Hyeonwoo Noh, und Bohyung Han: "Entkoppelten Tiefen Neuronalen Netzes für Halb-überwachte Semantische Segmentierung." arXiv preprint arXiv:1506.049242015.
V. Lempitsky, A. Vedaldi, und A. Zisserman: Ein pylon-Modell für die semantische Segmentierung. In Advances in Neural Information Processing Systems, 2011.

Quellen "- Szene die Bezeichnung"

Clement Farabet, Camille Couprie, Laurent Najman, Yann LeCun: Lernen Hierarchische Funktionen
für Szene-Kennzeichnung. In Pattern Analysis and Machine Intelligence, 2013.

Quelle von "pixel-Ebene"

Pinheiro, Pedro O., und Ronan Collobert: "Von der Bild-Ebene auf Pixel-Ebene die Kennzeichnung mit Convolutional Networks." Proceedings of the IEEE Conference on Computer Vision und Pattern Recognition, 2015. (siehe http://arxiv.org/abs/1411.6228)

Quelle "pixelwise"

Li, Hongsheng, Rui Zhao und Xiaogang Wang: "Hoch effiziente vorwärts-und rückwärts-Propagierung von convolutional neural networks für pixelwise Klassifikation." arXiv preprint arXiv:1412.45262014.

Google Ngrams

"Semantische Segmentierung" zu sein scheint, mehr Zeit als die "Szene-Kennzeichnung"

Was ist

InformationsquelleAutor der Frage Martin Thoma | 2015-11-26

65

"Segmentierung" ist eine partition des Bildes in mehrere "Runden" Teile, aber ohne jeder Versuch zu verstehen, was diese Teile darstellen. Eines der berühmtesten Werke (aber definitiv nicht die erste) ist Shi und Malik "Normalized Cuts and Image Segmentation" PAMI 2000. Diese Werke versuchen zu definieren, "Kohärenz" im Sinne von low-level cues, wie Farbe, textur und Geschmeidigkeit der Grenze. Sie verfolgen kann, diese Werke zu den Gestalttheorie.

Auf der anderen Seite "semantische Segmentierung" versucht zu partitionieren Sie das Bild in semantisch sinnvolle Abschnitte unterteilt, und zu klassifizieren jedes Teil in einer der vordefinierten Klassen. Sie können auch das gleiche Ziel erreichen durch die Klassifizierung jedes pixel (anstatt das gesamte Bild/segment). In diesem Fall sind Sie dabei pixelweise Klassifizierung, das führt zum gleichen Ergebnis, aber in einer etwas anderen Weg...

So, ich nehme an, Sie können sagen, dass "semantische Segmentierung", "scene labeling" und "pixelwise Klassifizierung" sind im Grunde versucht, zu erreichen das gleiche Ziel: semantisch Verständnis der Rolle jedes einzelnen pixels im Bild. Du kannst viele Wege, dieses Ziel zu erreichen, und diese Wege führen auf leichte Nuancen in der Terminologie.

InformationsquelleAutor der Antwort Shai
48

Ich lese viele papers zur Objekterkennung, Objekterkennung, objektsegmentierung, Bild-Segmentierung und Semantische Bildsegmentierung und hier sind meine Schlussfolgerungen, die sein könnte, nicht wahr:

Objekterkennung: In einem bestimmten Bild, das Sie haben, zu erkennen, alle Objekte (eine bestimmte Klasse von Objekten, die angewiesen sind auf Ihr dataset), Lokalisiert diese mit einem bounding-box und label, dass die bounding-box mit einem Etikett. Im unteren Bild sehen Sie eine einfache Ausgabe von state of the art object recognition.

Objekterkennung: es ist wie Objekt-Erkennung, aber in diesem Aufgabe müssen Sie nur zwei Klassen von Objekt-Klassifizierung, was bedeutet Objekt-Begrenzungsrahmen und nicht-Objekt-bounding-Boxen. Zum Beispiel Auto-Erkennung: Sie haben zu Erkennen, alle Autos in einem gegebenen Bild mit Ihrer bounding Boxen.

Objekt-Segmentierung: Wie Objekt-Erkennung erkennt alle Objekte in einem Bild, sondern die Ausgabe sollte zeigen dieses Objekt klassifizieren von Pixeln des Bildes.

Image Segmentation: In der Bildsegmentierung werden Sie segment Regionen des Bildes. Ihr Ausgang wird nicht label-Segmente und der region ein Bild, das im Einklang mit einander sein sollten im gleichen segment. Extrahieren von super Pixel aus einem Bild ist ein Beispiel für diese Aufgabe-oder Vordergrund-hintergrund-Segmentierung.

Semantische Segmentierung: In der semantischen Segmentierung haben Sie zu beschriften Sie jedes pixel mit einer Klasse von Objekten (Auto, Person, Hund, ...) und nicht-Objekte (Wasser, Himmel, Straße, ...). Ich andere Wörter in Semantische Segmentierung werden Sie label jede region des Bildes.

Ich denke, auf pixel-Ebene und pixelwise Kennzeichnung ist im Grunde könnte man das gleiche Bild Segmentierung oder semantische Segmentierung. Ich habe auch Ihre Frage beantwortet in dieser link .

InformationsquelleAutor der Antwort e_soroush
26

Den vorherigen Antworten sind wirklich toll, ich möchte darauf hinweisen, ein paar weitere Ergänzungen:

- Objekt-Segmentierung

einer der Gründe, dass diese gefallenen aus der Gunst in der Forschung ist, denn es ist problematisch vage. Objekt-Segmentierung verwendet, um einfach bedeuten, dass man ein einzelnes oder eine kleine Anzahl von Objekten in einem Bild und ziehen Sie eine Grenze um Sie herum, und für die meisten Zwecke kann man noch davon ausgehen, es bedeutet dies. Aber es begann auch zu verstehen Segmentierung von blobs, die könnte werden Objekte, die Segmentierung von Objekten aus dem hintergrund (allgemein jetzt als hintergrund-Subtraktion-oder hintergrund-Segmentierung oder Vordergrund-Erkennung), und in einigen Fällen sogar Synonym verwendet mit Objekt-Erkennung mittels bounding-Boxen (in dieser schnell gestoppt mit dem Aufkommen der deep neural network-Ansätzen zur Erkennung von Objekten, aber vorher Objekterkennung könnte auch bedeuten, einfach die Kennzeichnung des gesamten Bildes mit dem Objekt).

Was macht "Segmentierung" "semantische"?

Simpy, jedes segment, oder im Fall von deep Methoden jedes pixel wird der Klasse label basiert auf einer Kategorie. Segmentierung ist im Allgemeinen nur die Teilung des Bildes durch einige Regel. Meanshift Segmentierung, zum Beispiel, von einem sehr hohen Niveau teilen die Daten nach den änderungen in der Energie des Bildes. Graph-cut - basierte Segmentierung ist ebenfalls nicht erlernt, sondern direkt abgeleitet von den Eigenschaften jedes Bildes getrennt von dem rest. Neuere (neural network-based) Methoden verwenden Pixel, die gekennzeichnet sind, zu lernen, zu identifizieren, die die lokalen Besonderheiten, die im Zusammenhang mit bestimmten Klassen und klassifizieren jedes pixels basierend auf welche Klasse hat die höchste zuversicht für dieses pixel. Auf diese Weise, "pixel-Kennzeichnung" ist eigentlich ein ehrlicher name für die Aufgabe, und die "Segmentierung" - Komponente ist emergent.

Instanz Segmentierung

Wohl die meisten schwierig, relevante und ursprüngliche Bedeutung von Objekt-Segmentierung, "Instanz-Segmentierung" bedeutet, dass die Segmentierung der einzelnen Objekte innerhalb einer Szene, unabhängig davon, ob Sie den gleichen Typ. Doch der Grund, warum das so schwierig ist, weil aus einer vision, Perspektive (und in gewisser Weise eine philosophische) was macht ein "Objekt" Instanz ist nicht ganz klar. Sind die Körperteile, die Objekte? Sollte eine solche "Teil-Objekte" segmentiert werden durch eine Instanz der Segmentierung Algorithmus? Sollten Sie nur segmentiert, wenn Sie gesehen werden, getrennt vom ganzen? Was über zusammengesetzte Objekte, sollten zwei Dinge klar an, aber trennbar sein, ein Objekt oder zwei (ist ein fels geklebt an die Spitze eines Stockes, eine Axt, ein hammer oder einfach nur einen Stock und einen Stein, es sei denn richtig gemacht?). Auch ist es nicht klar, wie es zu unterscheiden Instanzen. Ist ein wird eine separate Instanz von den anderen Wänden ist es befestigt? In welcher Reihenfolge sollten die Instanzen gezählt werden? Wie Sie erscheinen? Die Nähe zum Aussichtspunkt? Trotz dieser Schwierigkeiten in der Segmentierung von Objekten ist immer noch ein großer deal, weil als Menschen interagieren wir mit Objekten, die alle die Zeit, unabhängig von Ihrer "class-label" (zufällige Objekte, um Sie als Briefbeschwerer, sitzen auf Dinge, die nicht mit Stühlen), und so einige dataset versuchen, um auf dieses problem, aber der Hauptgrund, gibt es nicht viel Aufmerksamkeit auf das problem doch ist, weil es nicht gut genug definiert.

Szene Analysieren/Scene labeling

Szene Analysieren ist das streng Segmentierung Ansatz für die Szene, die Kennzeichnung, die hat auch einige Unklarheiten Ihre eigenen Probleme. Historisch, scene labeling meinte zu teilen die gesamte "Szene" (Bild) bis in Segmente und Ihnen allen ein Klasse label. Es wurde jedoch auch verwendet, bedeutet, dass Klasse-Etiketten, um Bereiche des Bildes ohne explizite Segmentierung. Mit Bezug auf Segmentierung, semantische Segmentierung" nicht impliziert die Aufteilung der gesamten Szene. Für die semantische Segmentierung der Algorithmus soll das segment nur die Objekte, die es kennt, und wird bestraft werden durch den Verlust der Funktion für die Beschriftung von Pixeln, die haben keine Beschriftung. Zum Beispiel die MS-COCO-dataset ein dataset für die semantische Segmentierung in denen nur einige Objekte segmentiert sind.

InformationsquelleAutor der Antwort physincubus

Schreibe einen Kommentar

Du musst angemeldet sein, um einen Kommentar abzugeben.