3D-Vision ist ein multidisziplinäres Gebiet, das Computergrafik, Computer Vision und künstliche Intelligenz umfasst. Ziel ist es, Maschinen in die Lage zu versetzen, Informationen im dreidimensionalen Raum zu verstehen und zu verarbeiten und so eine Tiefenwahrnehmung, Erkennung und ein Verständnis von Objekten und Szenen zu erreichen.
Hauptaufgaben
3D-Rekonstruktion
Tiefenschätzung von 3D-Szenen oder digitales Sampling von Objektoberflächen sowie Verarbeitung und Darstellung von 3D-Daten; monokulare Rekonstruktion, binokulare Rekonstruktion, strukturierte licht-basierte Rekonstruktion, laser-basierte Rekonstruktion; groß angelegte 3D-Rekonstruktion, mobile 3D-Rekonstruktion.
Posenschätzung
Berechnung der Position und Ausrichtung von Kameras oder Objekten im dreidimensionalen physischen Raum und Echtzeitverfolgung.
3D-Verständnis
Objekterkennung, -erkennung und -abruf sowie Segmentierung und semantische Kennzeichnung von Szenen oder Objekten.
Arbeitsprinzipien
Die 3D-Vision-Bildgebung ist eine der wichtigsten Methoden zur Informationswahrnehmung in Industrierobotern und kann in optische und nicht{1}optische Bildgebungsverfahren unterteilt werden. Derzeit sind optische Methoden am weitesten verbreitet.
Time-of-Flugmethode (TOF).
Diese Methode berechnet die Entfernung zu einem Objekt, indem sie den Zeitunterschied zwischen Lichtaussendung und -empfang misst. Am Beispiel einer TOF-Kamera nutzt jedes Pixel den Zeitunterschied des Lichtflugs, um die Tiefe des Objekts zu ermitteln. Bei klassischen Messmethoden beginnt das Detektorsystem mit der Zeitmessung, wenn es einen Lichtimpuls aussendet, speichert die Umlaufzeit, wenn es das Ziellichtecho empfängt, und schätzt die Zielentfernung nach einer Formel.
Es wird in direktes TOF (DTOF) und indirektes TOF (I-TOF) unterteilt. DTOF wird normalerweise in Einzelpunkt-Entfernungsmesssystemen verwendet, und für die flächendeckende 3D-Bildgebung ist häufig Scantechnologie erforderlich. I-TOF extrapoliert indirekt die Zeit des Hin- und Rücklaufs aus zeitgesteuerten Messungen der Lichtintensität, wodurch eine präzise Zeitmessung überflüssig wird, und ist derzeit eine kommerzialisierte Lösung für elektronische und optische Mischer auf Basis von TOF-Kameras. TOF-Bildgebung kann für die 3D-Bilderfassung mit großem Sichtfeld, großer Entfernung, geringer{9}Präzision und niedrigen{10}}Kosten verwendet werden und wird für die Umgebungswahrnehmung in intelligenten unbemannten Systemen (wie Robotern, unbemannten Fahrzeugen, Drohnen usw.) verwendet.
Strukturierte Lichtprojektion 3D-Bildgebung
Die 3D-Bildgebung mit strukturierter Lichtprojektion ist derzeit die Hauptmethode für die 3D-Sehwahrnehmung bei Robotern. Ein Projektor projiziert ein bestimmtes strukturiertes Lichtbeleuchtungsmuster auf das Zielobjekt, beispielsweise Streifen oder Gray-Code-Muster, und eine Kamera erfasst das vom Ziel modulierte Bild. Aufgrund der Wellen der Objektoberfläche wird das strukturierte Lichtmuster auf der Objektoberfläche deformiert. Durch die Verarbeitung von Bildern und die Verwendung visueller Modelle zum Vergleich der Muster vor und nach der Verformung sowie durch die Analyse der Musterverzerrung können die dreidimensionalen Koordinateninformationen jedes Punktes auf der Oberfläche des Zielobjekts berechnet werden.
In Anwendungen von Roboter-Hand-Auge-Systemen ist die Methode der Projektion pseudozufälliger Speckle-Muster zum Erhalten von Ziel-3D-Informationen für Szenarien, in denen keine hohe 3D-Messgenauigkeit erforderlich ist (z. B. Palettieren, Depalettieren und 3D-Erfassen), sehr beliebt. Diese Methode wird häufig in der industriellen Inspektion und 3D-Modellierung verwendet und kann schnell 3D-Daten der Objektoberfläche erhalten. Ein Strukturlicht-Bildgebungssystem besteht aus mehreren Projektoren und Kameras. Zu den gängigen Strukturformen gehören: Einzelprojektor-Einzelkamera, Einzelprojektor-Doppelkamera, Einzelprojektor-Mehrfachkameras, Einzelkamera-Doppelprojektoren und Einzelkamera-Mehrfachprojektoren.
Das grundlegende Funktionsprinzip der 3D-Bildgebung mit strukturiertem Licht ist wie folgt: Der Projektor projiziert ein bestimmtes strukturiertes Lichtbeleuchtungsmuster auf das Zielobjekt, die Kamera erfasst das vom Ziel modulierte Bild und dann werden die 3D-Informationen des Zielobjekts durch Bildverarbeitung und visuelle Modelle erhalten. Zu den gängigen Projektortypen gehören: Flüssigkristallanzeige (LCD), digitale Lichtmodulationsprojektion (DLP: z. B. digitale Mikrospiegelgeräte (DMD)) und Laser-LED-Muster-Direktprojektion.
Basierend auf der Anzahl der Projektionen mit strukturiertem Licht kann die 3D-Bildgebung mit strukturiertem Licht in Einzel-{1}Aufnahme-3D- und Mehrfach-{3}Aufnahme-3D-Methoden unterteilt werden. Einzelschuss-Strukturlicht verwendet hauptsächlich räumliche Multiplex-Kodierung und Frequenz-Multiplex-Kodierung. Zu den gängigen Kodierungsformen gehören: Farbkodierung, Graustufenindizierung, Kodierung geometrischer Formen und zufällige Fleckenmuster. Derzeit wird in Anwendungen von Roboter-Hand-Auge-Systemen für Szenarien, in denen keine hohe 3D-Messgenauigkeit erforderlich ist, wie z. B. beim Palettieren, Depalettieren und 3D-Erfassen, häufig die Methode der Projektion pseudozufälliger Speckle-Muster verwendet, um Ziel-3D-Informationen zu erhalten.
Multi{0}}Shot-3D-Methoden verwenden hauptsächlich Zeit-Multiplexing-Kodierung. Zu den gängigen Formen der Musterkodierung gehören: binäre Kodierung, Mehrfrequenz-Phasenverschiebungskodierung und hybride Kodierungsmethoden (z. B. Gray-Code und Phasenverschiebungsstreifen). Das Grundprinzip der 3D-Bildgebung mit strukturiertem Licht ist in der folgenden Abbildung dargestellt. Mit einem Computer oder einem speziellen optischen Gerät wird ein strukturiertes Lichtmuster erzeugt und dann mit einem optischen Projektionssystem auf die Oberfläche des Prüflings projiziert. Ein Bilderfassungsgerät (z. B. eine CCD- oder CMOS-Kamera) wird verwendet, um das strukturierte Lichtbild zu erfassen, das durch die Objektoberfläche moduliert und verformt wird. Anschließend werden Bildverarbeitungsalgorithmen verwendet, um die Entsprechung zwischen jedem Pixel im Bild und den Punkten auf der Kontur des Objekts zu berechnen. Abschließend werden die dreidimensionalen Konturinformationen des Objekts mithilfe des Systemstrukturmodells und seiner Kalibrierungstechnologie berechnet. In praktischen Anwendungen werden üblicherweise die Gray-Code-Projektion, die Streifenprojektion mit sinusförmiger Phasenverschiebung oder eine hybride 3D-Technologie mit Gray-Code und sinusförmiger Phasenverschiebung verwendet.
Bei rauen Oberflächen kann strukturiertes Licht zur visuellen Bildmessung direkt auf die Objektoberfläche projiziert werden; Für die 3D-Messung stark reflektierender glatter Oberflächen und verspiegelter Objekte kann die strukturierte Lichtprojektion jedoch nicht direkt auf die zu prüfende Oberfläche projiziert werden, und die 3D-Messung erfordert den Einsatz von Spiegelreflexionstechniken.
Bei diesem Schema werden die Streifen nicht direkt auf die Kontur des Prüfobjekts projiziert, sondern auf einen Streuschirm, oder es wird ein Flüssigkristallbildschirm (LCD) verwendet, um die Streifen direkt anzuzeigen. Die Kamera erfasst die Streifeninformationen, die durch die Krümmungsänderungen der hellen Oberfläche über den reflektierten Lichtweg moduliert werden, und berechnet dann die dreidimensionale Konturmorphologie.
Scannen von 3D-Bildern
Scanning-3D-Bildgebungsverfahren können in Scanning-Ranging-, aktive Triangulations- und chromatisch-konfokale Verfahren unterteilt werden. Bei der Scan-Entfernung wird ein kollimierter Lichtstrahl verwendet, um die gesamte Zieloberfläche für 3D-Messungen abzutasten. Typische Scanning-Entfernungsmessungsmethoden umfassen: Einzel-punktzeit-von-Flugmethoden, wie z. B. kontinuierliche Wellenfrequenzmodulation (FM-CW) und Pulsentfernungsmessung (LiDAR); Laserstreuinterferometrie, wie z. B. Interferometer, die auf den Prinzipien der Mehrwellenlängeninterferenz, der holographischen Interferenz, der Weißlichtinterferenz und der Speckle-Interferenz basieren; und konfokale Methoden wie chromatische Konfokaltechnik und Autofokussierung.
Bei 3D-Einzelpunkt-Entfernungsscanverfahren eignet sich die Einzelpunkt---Flugmethode für das Scannen über große Entfernungen, die Messgenauigkeit ist jedoch relativ gering und liegt im Allgemeinen im Millimeterbereich. Andere Einzelpunkt-Scanmethoden umfassen Einzelpunkt-Laserinterferometrie, konfokale Mikroskopie und aktive Einzelpunkt-Lasertriangulation. Diese Methoden bieten eine hohe Messgenauigkeit, erstere erfordert jedoch eine kontrollierte Umgebung. Das Linienscannen bietet mäßige Genauigkeit und hohe Effizienz. Für die 3D-Vermessung am Endeffektor eines Roboterarms eignen sich insbesondere die aktive Lasertriangulation und die chromatische konfokale Mikroskopie. Die aktive Triangulation basiert auf dem Triangulationsprinzip, bei dem ein kollimierter Strahl oder ein oder mehrere planare Strahlen verwendet werden, um die Zieloberfläche für eine 3D-Messung abzutasten.
Der Lichtstrahl wird normalerweise auf folgende Weise erhalten: Laserkollimation, zylindrische oder quadratische prismatische Strahlaufweitung, nicht{0}}kohärentes Licht (wie weißes Licht, LED-Lichtquelle), das durch kleine Löcher, Schlitze (Gitter) projiziert wird, oder kohärente Lichtbeugung. Die aktive Triangulation kann in drei Typen unterteilt werden: Einzel-Punkt-Scanning, Einzel-Linien-Scanning und Mehr-Linien-Scanning. Derzeit sind die meisten im Handel erhältlichen Produkte für Roboterarm-Endeffektoren Einzelpunkt- und Einzellinienscanner.
Bei mehrzeiligen Scanverfahren ist die zuverlässige Identifizierung von Streifenzahlen eine Herausforderung. Um die Streifenanzahl genau zu identifizieren, werden normalerweise zwei Sätze senkrechter Lichtebenen abwechselnd mit hoher Geschwindigkeit abgebildet. Dies ermöglicht auch das „Flying Triangulation“-Scannen, dessen Scan- und 3D-Rekonstruktionsprozess in der folgenden Abbildung dargestellt ist. Mehrzeilenprojektion und Einzelblitzbildgebung erzeugen eine spärliche 3D-Ansicht. Mehrere Sequenzen von 3D-Ansichten werden durch Längs- und Querstreifenprojektionsscannen generiert und anschließend wird durch 3D-Bildregistrierung ein hochauflösendes, vollständiges und dichtes 3D-Oberflächenmodell generiert.
Die chromatische konfokale Mikroskopie scheint in der Lage zu sein, raue und glatte undurchsichtige und transparente Objekte wie reflektierende Oberflächen und transparente Glasoberflächen zu scannen und zu messen, und wird derzeit häufig in Bereichen wie der 3D-Inspektion von Mobiltelefonhüllen eingesetzt. Beim chromatischen konfokalen Scannen gibt es drei Arten: ein-punktuelles ein-dimensionales absolutes Abstandsmessungs-Scannen, mehr{4}Punkt-Array-Scannen und kontinuierliches Linienscannen. Die folgende Abbildung zeigt Beispiele für absolute Distanzmessung und kontinuierliches Linienscannen. Das kontinuierliche Zeilenscannen ist ebenfalls eine Art Array-Scanning, jedoch mit einem größeren und dichteren Punktarray.
Stereovision 3D-Bildgebung
Unter Stereovision versteht man im Allgemeinen die Rekonstruktion der 3D-Struktur oder Tiefeninformationen eines Zielobjekts durch die Aufnahme von zwei oder mehr Bildern aus unterschiedlichen Blickwinkeln. Visuelle Hinweise zur Tiefenwahrnehmung können in okulare und binokulare Hinweise (binokulare Disparität) unterteilt werden. Derzeit kann stereoskopisches 3D-Sehen durch monokulares Sehen, binokulares Sehen, mehrseitiges Sehen und Lichtfeld-3D-Bildgebung (elektronisches Facettenauge oder Array-Kamera) erreicht werden. Zu den Hinweisen für die Tiefenwahrnehmung des monokularen Sehens gehören in der Regel: Perspektive, Brennweitenunterschiede, Multi-View-Bildgebung, Okklusion, Schatten, Bewegungsparallaxe usw.
Beim robotergestützten Sehen kann dies auch mithilfe von Spiegelbildern und anderen Shape--from-X-Methoden erreicht werden. Zu den visuellen Hinweisen des binokularen Sehens, der Tiefenwahrnehmung gehören: Augenkonvergenzposition und binokulare Disparität. Bei der maschinellen Bildverarbeitung werden zwei Kameras verwendet, um zwei Blickwinkelbilder derselben Zielszene aus zwei Blickwinkeln aufzunehmen. Anschließend wird die Disparität der entsprechenden Punkte in den beiden Blickwinkelbildern berechnet, um die 3D-Tiefeninformationen der Zielszene zu erhalten. Ein typischer binokularer Stereo-Vision-Berechnungsprozess umfasst die folgenden vier Schritte: Bildverzerrungskorrektur, Stereobildpaarentzerrung, Bildregistrierung und Berechnung der Triangulations-Reprojektions-Disparitätskarte.
Bei der Multi-{0}}View-Bildgebung oder Multi-{1}}-Stereobildgebung werden eine oder mehrere Kameras verwendet, um mehrere Bilder derselben Zielszene aus mehreren Blickwinkeln zu erfassen und die dreidimensionalen Informationen der Zielszene zu rekonstruieren.
Stereobildgebung mit mehreren Ansichten wird hauptsächlich in den folgenden Szenarien verwendet: Verwendung mehrerer Kameras aus unterschiedlichen Blickwinkeln, um mehrere Bilder derselben Zielszene zu erfassen, und anschließende Verwendung merkmalsbasierter Stereorekonstruktion und anderer Algorithmen, um Informationen zur Szenentiefe und räumlichen Struktur zu erhalten; Verwendung der SFM-Technik (Structure{2}}from-Motion) unter Verwendung derselben Kamera mit unveränderten intrinsischen Parametern, um mehrere Bilder aus verschiedenen Blickwinkeln zu erfassen und die dreidimensionalen Informationen der Zielszene zu rekonstruieren. Diese Technologie wird häufig verwendet, um eine große Anzahl von Kontrollpunkten in einer Zielszene zu verfolgen und dabei kontinuierlich die 3D-Strukturinformationen der Szene sowie die Pose und Position der Kamera wiederherzustellen. Die Lichtfeld-Bildgebung unterscheidet sich von herkömmlichen Bildgebungsprinzipien mit Kameras. Herkömmliche Kameras erzeugen ein 2D-Bild direkt auf der Bildebene, nachdem Licht durch das Objektiv fällt.
Lichtfeldkameras fügen vor der Sensorebene ein Mikrolinsenarray hinzu. Durch die Hauptlinse einfallendes Licht durchläuft erneut jede Mikrolinse und wird von der lichtempfindlichen Anordnung empfangen, wodurch Informationen über die Richtung und Position der Lichtstrahlen gewonnen werden. Dadurch können die Bildergebnisse später verarbeitet werden, wodurch ein „Zuerst aufnehmen, später fokussieren“-Effekt erzielt und die dreidimensionale Struktur der Szene mithilfe dieser Informationen wiederhergestellt werden kann. In Bereichen wie Virtual Reality und Augmented Reality sorgt die Lichtfeld-Bildgebungstechnologie für ein realistischeres visuelles Erlebnis und ermöglicht eine genauere dreidimensionale Wahrnehmung und Interaktion mit der Szene.
Das Prinzip der Lichtfeld-3D-Bildgebung unterscheidet sich strukturell von den Bildgebungsprinzipien herkömmlicher CCD- und CMOS-Kameras. Herkömmliche Kameras bilden das Licht direkt auf die Bildebene ab, nachdem es das Objektiv passiert hat, und erzeugen im Allgemeinen ein 2D-Bild. Lichtfeldkameras fügen vor der Sensorebene ein Mikrolinsen-Array hinzu, wodurch das durch die Hauptlinse einfallende Licht erneut durch jede Mikrolinse geht und vom lichtempfindlichen Array empfangen wird, wodurch Informationen über die Richtung und Position der Lichtstrahlen gewonnen werden. Dadurch ist eine Nachbearbeitung der Bildergebnisse möglich, wodurch der Effekt „Erst aufnehmen, später fokussieren“ erzielt wird.

