Formen, Strukturen, Farben, Konturen … Das Auge sieht, das Gehirn ordnet ein und der Mensch versteht, was da vor ihm ist – meistens zumindest. In verschiedensten Forschungsabteilungen der Welt gibt es nun schon seit einigen Jahren Bestrebungen, diese Fähigkeiten auch auf die Logik von Rechenmaschinen zu übertragen. Facebook hat nun den hauseigenen Ansatz öffentlich gemacht.
Für die Bildanalyse muss das Digitale so einiges leisten: Erstens Bildinhalte voneinander unterscheiden, zweitens deren Konturen ausmachen und drittens wissen, was der konkrete Inhalt dieser Konturen darstellen soll. Herausforderungen auf allen Ebenen!
Allein festzustellen, dass im Foto vielleicht mehrere Objekte vorhanden sind, ist sicherlich schon ein Algorithmus-Krampf für sich. Wie wahlweise einfach oder komplex es dann je nach Kantenschärfe und Bildqualität sein kann, die Umrisse der Objekte einzufangen, ist allen „Freistellenden“ ja bekannt. Und wenn die Einsen und Nullen dann noch entscheiden sollen, was da im konkreten Fall tatsächlich zu sehen ist, braucht es schon einiges an Wissen um die Dinge in der Welt. Schließlich kann schon allein die Silhouette eines Menschen stehen, sitzen, hocken, rennen, sich nach vorn beugen, das Profil, die Vorder- oder Rückansicht oder in Wirklichkeit einen Schimpansen im aufrechten Gang zeigen ...
Die Lösung kann hier eigentlich nur sein, dass die Algorithmen selbst lernen, sich Bild um Bild ansehen und mit jeder Betrachtung ein Stückchen mehr an Erfahrung sammeln: „Aha, das ist also eine Person. Ach so, das auch. Und das auch, und das auch …“ Dass der Rechner schließlich meint, da sei ein Mensch, und damit durchaus richtigliegen kann, ist in Anbetracht der beinahe grenzenlosen Formen- und Farbengestalt der Realität eine beachtliche Leistung findiger Programmierer.
Adobe ist das Ganze ja mit einer schon einmal angegangen und auch Wolfram, , Microsoft und viele andere mischen in Sachen Bildanalyse ordentlich mit.
Computer – was siehst du?
Weshalb diese Frage überhaupt gestellt werden sollte, wird zum Beispiel von Facebook im aktuellen Blog-Beitrag zum Thema so begründet: Zum einen ist da natürlich die Bildersuche – ohne hinterlegte Tags könne man so ganz spezifische Motive finden. Eine schöne Sache.
Zum anderen wird aber insbesondere der Mehrwert für Menschen mit einer Sehschwäche hervorgehoben: Wenn diese momentan durch Fotos auf Facebook browsen, „hören sie nur den Namen der Person, die das Foto geteilt hat, gefolgt von dem Wort ´Foto´.“ – Mit einer soliden Bildanalyse könnten Blinde Bilder künftig sogar regelrecht ertasten: Dazu müssten sie mit dem Finger einfach darüberfahren und das System teilt per Sprachausgabe mit, was an den betreffenden Stellen abgebildet ist. Das ist dann doch schon mehr als nur eine schöne Sache.
Drei Algorithmen
Was dabei in den von Facebook entwickelten, neuronalen Netzwerken vorgeht, sind letzten Endes vor allem zahlreiche Ja-nein-Entscheidungen.
DeepMask (Paper/Code) fragt zunächst: „Beinhaltet der Bereich ein Objekt?“ – Wird dies bejaht, dann geht es hinab auf die Pixelebene und jeder einzelne Pixel muss Auskunft darüber geben, ob er zu dem entsprechenden Objekt gehört oder nicht. Daraus ergebe sich schon einmal eine grobe Maske, die die grundlegende Form eines Objektes anzeige, jedoch noch keine präzisen Kanten aufweise. Dafür sorgt im nächsten Schritt dann SharpMask (Paper/Code), das noch einmal bis in die Tiefen des Bildes vordringt.
Vielleicht kann man es sich so vorstellen: DeepMask ist ein erster Blick auf eine Szene, der erkennen lässt, dass da beispielsweise zwei Formen, jeweils mit vier Beinen sind. SharpMask nimmt die Szene dann genauer unter die Lupe und versucht, beide Formen exakt voneinander zu trennen und alle acht Beine der jeweiligen Form zuzuordnen. Im Bild oben werden Beispiele gezeigt, die belegen, wie gut das Ganze funktioniert. Einschränkend wurden hier auch rote Linien um Objekte gezeichnet, die mit der Methode nicht erkannt wurden.
Schließlich denkt dann noch MultiPathNet (Paper/Code) nach, worum es sich bei den einzelnen Objekten handeln könnte. Dabei werden nicht nur die Konturen der Objekte selbst analysiert, sondern auch in Zusammenhang mit der Umgebung gesetzt.
Die automatische Bildanalyse ist also bereits weit gediehen, bedarf aber noch zahlreicher Verbesserungen, wie es auch im Facebook-Blog heißt. Daran werde man natürlich arbeiten und auch die Übertragung der Technik auf Video verfolge man bereits.
Zum perfekten Ergebnis ist es sicherlich noch ein weiter Weg, doch wer weiß: Vielleicht kann man irgendwann tatsächlich konkret eingeben, welche Bildbestandteile vorhanden sein und wo sie sich in der Aufnahme befinden sollen – sozusagen das Ende der Tags ...
Euer Jens
Bildquelle Vorschau und Titel: Facebook