Ochii sunt un instrument inimitabil. Cel puțin asta am gândit până m-am cufundat în secretele viziunii cu mașina. Deci, cum funcționează viziunea robotică? Ai fi surprins de faptul că este foarte asemănător cu al nostru.

mașinile

Am decis să arunc o privire mai atentă asupra problemei și să scriu o scurtă serie „în două părți” despre aceasta. Citiți prima parte, unde vă voi explica care este asemănarea dintre ochii omului și ochii mașinii:

Recent am avut ocazia să-l cunosc pe Ján Žiška, fondatorul și CEO al Photoneo. Camera sa 3D ajută mașinile să vadă mai bine și este unică în lume. Cu toate acestea, mai mult decât un regizor, John este un mare fan al tehnologiei avansate, roboticii și science fiction-ului, la fel ca mine. De aceea am fost foarte interesat de munca lui. Ca oftalmolog, mai ales cât de mulți ochi robotici sunt asemănători cu ai noștri, umani.

Tehnologia 3D nu este nouă pentru noi

John mi-a spus un lucru interesant în timpul conversației noastre. În calitate de expert și pasionat de tehnologie, a fost foarte fascinat de sosirea filmelor 3D în cinematografe, dar a fost surprins că prietenii săi nu erau deosebit de entuziasmați de asta. Atunci a realizat că viziunea 3D nu este nimic nou pentru oameni. În cinematograf aveți ochelari în care sunt proiectate două imagini diferite de la două camere. O senzație diferită se deplasează către fiecare ochi. Ochiul uman funcționează și el.

Cum funcționează viziunea 3D?

Viziunea 3D umană funcționează pe principiul așa-numitei triangulații, adică conectarea diferitelor imagini de la ambii ochi la un moment dat. De asemenea, ne permite să distingem distanțele. Cu cât obiectele sunt mai apropiate, cu atât este mai precisă estimarea noastră. Acest lucru poate fi explicat printr-un exemplu simplu. Imaginează-ți că te uiți la un lucru care stă la 2 metri în fața ta. De exemplu, pe un dulap. Din fiecare dintre ochii tăi ies două linii imaginare, adică două imagini diferite, care se intersectează în punctul în care stă obiectul observat. Ei creează un triunghi. Deoarece dulapul este la 2 metri distanță de dvs., există și un punct în care imaginile se întâlnesc pentru a crea senzația 3D finală, la doi metri distanță. Asta nu este prea mult pentru ca creierul să determine mai mult sau mai puțin exact cât de departe este un obiect.

Este diferit atunci când privești un obiect aflat la 100 de metri distanță de tine, de exemplu. Aici creierul începe să aibă o problemă. Imaginați-vă că mergeți pe o stradă dreaptă cu o mașină parcată la capăt. Există un bărbat în picioare lângă el. Atunci triunghiul este atât de lung încât nu ai șansa să ghici dacă vehiculul sau persoana este puțin mai aproape de tine. Din punctul tău de vedere, ele sunt una lângă alta.

În acest fel funcționează vederea noastră își are rădăcinile în evoluție. De exemplu, oamenii din peșteri aveau deja nevoie să estimeze mai mult distanța apropiată, de exemplu atunci când vânează prada sau reacționează la pericol iminent.

Triangularea în practică

Puteți verifica principiul triangulației cu un experiment simplu. Ștergeți un deget în fața dvs. și închideți alternativ și deschideți ochii dreapta și stânga. Deoarece fiecare dintre ei percepe o imagine diferită, vi se pare că degetul este întotdeauna într-un loc diferit. La o mică distanță de la deget la ochi, veți vedea o schimbare relativ semnificativă. Dar cu cât mutați mâna mai departe, cu atât triunghiul se prelungește și cu cât degetul se mișcă mai puțin aparent.

Ce au în comun camera și ochii noștri?

Am menționat că viziunea umană și robotică funcționează foarte similar. La fel cum avem un creier și ochi interconectați, mașina are un proiector și o cameră. Principiul general al captării imaginii sau modul în care această percepție este procesată în creierul nostru are trei faze de bază.

Scanare

Pupila, prin care razele de lumină pătrund în ochi, pot fi comparate cu un ecran dintr-o cameră. Pe măsură ce retina, care captează această lumină, o transformă în impulsuri nervoase specifice din creier și creează o imagine specifică, camera folosește un cip. Deci, compoziția ochilor noștri și a camerei este într-adevăr foarte asemănătoare.

Prelucrare

Ochii noștri sunt de fapt un contor. După captarea luminii de pe retină, se creează o imagine și ochii numără numărul de fotoni din conurile și tijele individuale. Obiectele mai palide conțin mai puțini fotoni, mai întunecați. Așa percepem culorile individuale. Se creează și fotografia color. O valoare este scrisă în fiecare pixel, reprezentând numărul de fotoni și creând o nuanță specifică.

Interpretare

Această fază este un subiect popular al multor povești SF și, de asemenea, cea mai problematică parte a viziunii automate. În viziunea industrială a mașinilor, desigur, nu ne adâncim atât de adânc în gândirea despre conștiința inteligenței artificiale sau, așa cum a numit-o scriitorul Isaac Asimov, „spiritul în mașină”. Dar adevărul este că modul în care percepem realitatea și modul în care mașinile o percep nu este atât de diferit. La om, la fel ca în viziunea robotică, stimulul pătrunde în creier sau neuroni din ochi sau cameră și creează informații. Cu toate acestea, mintea noastră diferă în principal prin capacitatea noastră de a recunoaște ceea ce privim. Aceasta nu este o problemă pentru noi. Un copil de trei ani înțelege că își vede mama în față.

Mașinile sunt utilizate pentru a procesa informații așa-numitele rețele neuronale, blocuri create artificial în procesoare pe bază de siliciu, imitându-ne creierul. Cu toate acestea, acestea sunt încă mult mai primitive. Creierul folosește între 50 și 500 de miliarde de conexiuni neuronale pentru a percepe realitatea. Procesoare în roboți aproximativ 5-6 miliarde. Acest lucru poate fi comparat cu creierul unui pește de acvariu. Așa că văd mașinile, dar nu înțeleg. Sunt încă orbi în această privință. Pot recunoaște obiecte, dar spre deosebire de noi, nu înțeleg contextul.

Știința-ficțiune nu trebuie să fie atât de departe

Este posibil ca roboții să nu știe ce se întâmplă acum în jurul lor, dar cel mai probabil vor fi acolo. În 2008, un computer personal a putut procesa aproximativ 10 miliarde de instrucțiuni pe secundă. Dar futurologii estimează că până în 2040, creierele mașinilor ar putea fi capabile să proceseze 100 de miliarde de instrucțiuni pe secundă. Acest lucru este deja comparabil cu creierul uman.

Tehnologia 3D îi ajută pe roboți să înțeleagă lumea

Mașinile pot învăța. Experții numesc această abilitate învățarea automată. Un robot inteligent este perfecționat cu experiență la fel ca noi. De exemplu, odată ce îi „spui” că se uită la un pod, data viitoare îl va putea recunoaște automat, fără ca cineva să programeze din nou aceste informații. Învățarea automată este utilă mai ales în recunoașterea fețelor sau obiectelor dintr-o imagine, dar este, de asemenea, strâns legată de tehnologia lui Ján Žiška. Camera 3D Photoneo este unică prin faptul că rezolvă o mare problemă în domeniul mașinilor de producție. Acest lucru se datorează faptului că odată ce un robot cu o cameră 2D este programat să transfere un obiect, cum ar fi o sticlă, nu poate transfera scrumiera de la sine. Reprogramarea ar dura câteva luni. Cu toate acestea, datorită camerei 3D Photonea, aparatul poate „învăța” să recunoască diferite forme mult mai eficient.

De ce ajută tehnologia 3D roboții să înțeleagă mai bine ceea ce „văd”? Din același motiv pentru care îmbunătățește a treia fază a vederii, ambele interpretări, pentru amândoi. De exemplu, dacă vă uitați la planul 2D al unui apartament, aveți o idee aproximativă despre forma acestuia sau numărul de camere. Dar dacă ai vedea o vizualizare 3D și ai putea să te plimbi prin apartament, de exemplu în realitate virtuală, ai avea brusc informații mult mai exacte despre spațiu. Puteți percepe aspectul apartamentului sau dimensiunea camerelor. Exact același lucru se aplică viziunii automate 2D și 3D. Dacă faceți o primă fotografie de doi centimetri în aceeași cameră și apoi afișați un scaun clasic și imagini unei mașini cu viziune 2D, acesta nu va putea evalua corect aspectul spațiului și nu va recunoaște diferența. Viziunea 3D va oferi robotului mai multe informații. În acest fel, mașina poate ajunge la concluzia că ceva este diferit din punct de vedere al dispoziției.