Die bisherigen KI-Projekte haben sich mit Bilderkennung und Spracherkennung beschäftigt. Jetzt lernst du mit der Gestenerkennung ein weiteres cooles Projekt kennen
Die Gestenerkennung ist eine Computer-Vision-Technik, die menschliche Formen in Bildern und Videos erkennt und feststellen kann, wo sich etwa die Ellbogen, die Schultern oder die Hände einer Person befinden. Streng genommen handelt es sich somit um eine Posenerkennung. Das entsprechend trainierte Modell nennt sich PoseNet. Es ist dafür optimiert, auf der Edge TPU deines Dev Board Mini zu laufen. PoseNet erkennt natürlich nicht, wer sich auf einem Bild befindet, sondern schätzt lediglich ab, an welchen Stellen sich die wichtigsten Körpergelenke aufhalten.
Das PoseNet-Modell basiert auf einer zweistufigen Architektur, die ein spezielles neuronales Netzwerk (mit dem Namen “Convolutional Neural Network”, kurz CNN) und einen Dekodierungsalgorithmus umfasst. Bei einem CNN handelt es sich um eine Sonderform eines neuronalen Netzes, das sich besonders gut für die Verarbeitung von Bild- und Audiodaten eignet. Die Gestenerkennung läuft in zwei Phasen ab: Ein RGB-Eingabebild wird durch das neuronale Netzwerk geleitet. Es ist darauf trainiert, sogenannte Heatmaps zu erzeugen, die die Position aller Schlüsselpunkte, also der Körperteile, in einem Bild vorhersagen. Außerdem erzeugt es Vektoren, die helfen, die Punkte zu verbinden. Dieser Teil läuft auf der Edge-TPU. Die Ergebnisse werden dann in den nächsten Schritt eingespeist. Ein spezieller Algorithmus kommt zur Dekodierung von Posen zum Einsatz. Er ermittelt die Posen, die Positionen der Keypoints und die Konfidenzwerten. Der Dekodierungsalgorithmus verwendet die vom CNN erzeugten Heatmaps und Vektoren und stellt die Verbindung zwischen Körperteilen und Personeninstanzen her. […]
Blog-Beitrag für Buyzero