Antworten auf deine Fragen:
Neues Thema erstellen

Facebook veröffentlicht Bildanalyse-Algorithmen

DeepMask, SharpMask und MultiPathNet

Formen, Strukturen, Farben, Konturen … Das Auge sieht, das Gehirn ordnet ein und der Mensch versteht, was da vor ihm ist – meistens zumindest. In verschiedensten Forschungsabteilungen der Welt gibt es nun schon seit einigen Jahren Bestrebungen, diese Fähigkeiten auch auf die Logik von Rechenmaschinen zu übertragen. Facebook hat nun den hauseigenen Ansatz öffentlich gemacht.

Für die Bildanalyse muss das Digitale so einiges leisten: Erstens Bildinhalte voneinander unterscheiden, zweitens deren Konturen ausmachen und drittens wissen, was der konkrete Inhalt dieser Konturen darstellen soll. Herausforderungen auf allen Ebenen!

Allein festzustellen, dass im Foto vielleicht mehrere Objekte vorhanden sind, ist sicherlich schon ein Algorithmus-Krampf für sich. Wie wahlweise einfach oder komplex es dann je nach Kantenschärfe und Bildqualität sein kann, die Umrisse der Objekte einzufangen, ist allen „Freistellenden“ ja bekannt. Und wenn die Einsen und Nullen dann noch entscheiden sollen, was da im konkreten Fall tatsächlich zu sehen ist, braucht es schon einiges an Wissen um die Dinge in der Welt. Schließlich kann schon allein die Silhouette eines Menschen stehen, sitzen, hocken, rennen, sich nach vorn beugen, das Profil, die Vorder- oder Rückansicht oder in Wirklichkeit einen Schimpansen im aufrechten Gang zeigen ...

Die Lösung kann hier eigentlich nur sein, dass die Algorithmen selbst lernen, sich Bild um Bild ansehen und mit jeder Betrachtung ein Stückchen mehr an Erfahrung sammeln: „Aha, das ist also eine Person. Ach so, das auch. Und das auch, und das auch …“ Dass der Rechner schließlich meint, da sei ein Mensch, und damit durchaus richtigliegen kann, ist in Anbetracht der beinahe grenzenlosen Formen- und Farbengestalt der Realität eine beachtliche Leistung findiger Programmierer.

Adobe ist das Ganze ja mit einer schon einmal angegangen und auch Wolfram, , Microsoft und viele andere mischen in Sachen Bildanalyse ordentlich mit.

Computer – was siehst du?

Weshalb diese Frage überhaupt gestellt werden sollte, wird zum Beispiel von Facebook im aktuellen Blog-Beitrag zum Thema so begründet: Zum einen ist da natürlich die Bildersuche – ohne hinterlegte Tags könne man so ganz spezifische Motive finden. Eine schöne Sache.

Zum anderen wird aber insbesondere der Mehrwert für Menschen mit einer Sehschwäche hervorgehoben: Wenn diese momentan durch Fotos auf Facebook browsen, „hören sie nur den Namen der Person, die das Foto geteilt hat, gefolgt von dem Wort ´Foto´.“ – Mit einer soliden Bildanalyse könnten Blinde Bilder künftig sogar regelrecht ertasten: Dazu müssten sie mit dem Finger einfach darüberfahren und das System teilt per Sprachausgabe mit, was an den betreffenden Stellen abgebildet ist. Das ist dann doch schon mehr als nur eine schöne Sache.

Drei Algorithmen

Was dabei in den von Facebook entwickelten, neuronalen Netzwerken vorgeht, sind letzten Endes vor allem zahlreiche Ja-nein-Entscheidungen.

DeepMask (Paper/Code) fragt zunächst: „Beinhaltet der Bereich ein Objekt?“ – Wird dies bejaht, dann geht es hinab auf die Pixelebene und jeder einzelne Pixel muss Auskunft darüber geben, ob er zu dem entsprechenden Objekt gehört oder nicht. Daraus ergebe sich schon einmal eine grobe Maske, die die grundlegende Form eines Objektes anzeige, jedoch noch keine präzisen Kanten aufweise. Dafür sorgt im nächsten Schritt dann SharpMask (Paper/Code), das noch einmal bis in die Tiefen des Bildes vordringt.

Vielleicht kann man es sich so vorstellen: DeepMask ist ein erster Blick auf eine Szene, der erkennen lässt, dass da beispielsweise zwei Formen, jeweils mit vier Beinen sind. SharpMask nimmt die Szene dann genauer unter die Lupe und versucht, beide Formen exakt voneinander zu trennen und alle acht Beine der jeweiligen Form zuzuordnen. Im Bild oben werden Beispiele gezeigt, die belegen, wie gut das Ganze funktioniert. Einschränkend wurden hier auch rote Linien um Objekte gezeichnet, die mit der Methode nicht erkannt wurden.

Schließlich denkt dann noch MultiPathNet (Paper/Code) nach, worum es sich bei den einzelnen Objekten handeln könnte. Dabei werden nicht nur die Konturen der Objekte selbst analysiert, sondern auch in Zusammenhang mit der Umgebung gesetzt.

Die automatische Bildanalyse ist also bereits weit gediehen, bedarf aber noch zahlreicher Verbesserungen, wie es auch im Facebook-Blog heißt. Daran werde man natürlich arbeiten und auch die Übertragung der Technik auf Video verfolge man bereits. 

Zum perfekten Ergebnis ist es sicherlich noch ein weiter Weg, doch wer weiß: Vielleicht kann man irgendwann tatsächlich konkret eingeben, welche Bildbestandteile vorhanden sein und wo sie sich in der Aufnahme befinden sollen – sozusagen das Ende der Tags ...

Euer Jens

Bildquelle Vorschau und Titel: Facebook

 

Facebook veröffentlicht Bildanalyse-Algorithmen

An diversen Algorithmen zur Bildanalyse wird schon recht lange gearbeitet, ich erinnere mich da an einen Studenten im zweiten Studienabschnitt, der bei einer Firma schon Mitte der Achtzigerjahre gearbeitet hat. Es benötigt da immer wieder neue mathematische Verfahren und findige Leute, die diese umsetzen können. Wird das alles bei Facebook als Sehhilfe eingesetzt, muss die Treffersicherheit ja nicht so groß sein. Wird dies jedoch zur Steuerung von autonom agierenden Robotern, z.B. im Verkehr oder in der Waffentechnik verwendet, sollten die Anforderungen sehr hoch sein. Wenn das alles in Echtzeit ablaufen soll müssen da noch große Fortschritte in Hard- und Software gemacht werden. Neuronale Netzwerke wurde auch schon vor Jahrzehnten als Wunderding für AI gepriesen, doch sie sind am Boden der Realität angekommen.Es ist immer noch so, dass die Forschung versucht, die Sinneswahrnehmung von Lebewesen in der Computerwelt umzusetzen. Da Computer jedoch, auch solche die mit sogenannten selbstlernenden Programmiersprachen versehen sind, grundsätzlich anders funktionieren glaube ich nicht, dass das der richtige Ansatz ist. Alle Lebewesen besitzen ein Mindestmaß an Intelligenz, auch wenn sie bei einfachen Formen nicht in der Art von höheren Tieren ausgeprägt ist. Reicht diese nicht für Anpassungen aus, dann sterben Arten aus. Der Austausch von Information, und das passiert sowohl bei Pflanzen als auch bei Bakterien, ist eine Form der Intelligenz. Computer erwerben in dem Sinn keine Intelligenz und können auf nichts "begreifen". Solange sie dies nicht können, werden sie nicht intelligent sein und damit zwar immer wieder erstaunliche Dinge tun, doch nicht intelligent sein. Seien wir froh, denn dass man einem Roboter einfach die 3 Robotergesetze von Lem einpflanzt und er wird uns nicht dominieren, ist ein frommer Wunsch. Wüsste ich so einen Ansatz, hätte ich gute Chancen auf einen Nobelpreis.Dass die Facebook die Algorithmen und sogar den Programmcode veröffentlicht zeigt nur, dass es ohnehin nur eine kleine Anzahl von Leuten gibt, die damit etwas anfangen können, und dass man damit mit den heutigen Ergebnissen noch nichts verdienen kann, ansonsten könnte man ja Facebook in die Liste der Non-Profit-Organisationen aufnehmen.
 
Bilder bitte hier hochladen und danach über das Bild-Icon (Direktlink vorher kopieren) platzieren.
Antworten auf deine Fragen:
Neues Thema erstellen

Willkommen auf PSD-Tutorials.de

In unseren Foren vernetzt du dich mit anderen Personen, um dich rund um die Themen Fotografie, Grafik, Gestaltung, Bildbearbeitung und 3D auszutauschen. Außerdem schalten wir für dich regelmäßig kostenlose Inhalte frei. Liebe Grüße senden dir die PSD-Gründer Stefan und Matthias Petri aus Waren an der Müritz. Hier erfährst du mehr über uns.

Stefan und Matthias Petri von PSD-Tutorials.de

Nächster neuer Gratisinhalt

03
Stunden
:
:
25
Minuten
:
:
19
Sekunden

Flatrate für Tutorials, Assets, Vorlagen

Zurzeit aktive Besucher

Statistik des Forums

Themen
118.565
Beiträge
1.538.067
Mitglieder
67.488
Neuestes Mitglied
Andrew56524
Oben