Môžu modely umelej inteligencie pomôcť pri navigácii cez oblasti (ulice), na ktorých sa nikdy predtým necvičilo, alebo pre ktoré nedostali dostatok tréningových údajov? To je to, čo vedcov z vývojového tímu umelej inteligencie DeepMind znepokojuje. A po mnohých rokoch inkubácie vedci konečne dosiahli úspech vo výskumnom projekte s názvom: „Cross-View Policy Learning for Street Navigation“, ktorý bol nedávno odhalený v článku publikovanom na Arxiv.org.
V tomto výskume vedci z DeepMind opisujú vývoj politiky AI vyškolenej z bohatého dátového skladu s mnohými uhlami (väčšinou obrázky nasnímané zhora nadol), zameraním sa na rôzne oblasti mesta, pre optimálnu efektivitu pozorovania. Vedci sa domnievajú, že takýto prístup by viedol k lepším výsledkom zovšeobecnenia.
Tento výskum je v podstate inšpirovaný skutočnosťou, že ľudia sa môžu rýchlo prispôsobiť usporiadaniu a základnej štruktúre nového mesta tým, že si mnohokrát dôkladne preštudujú mapu tohto mesta.
„Schopnosť navigácie z vizuálnych pozorovaní v neznámych prostrediach je základnou zložkou pri štúdiu schopnosti modelov AI naučiť sa navigáciu. Schopnosť modelov umelej inteligencie pohybovať sa po uliciach v prípadoch nedostatku tréningových dát bola doteraz relatívne obmedzená a spoliehanie sa na simulačné modely nie je riešením, ktoré by mohlo byť efektívne z dlhodobého hľadiska. Našou hlavnou myšlienkou je spárovať pozemný pohľad s pohľadom zo vzduchu a preskúmať spoločné zásady, ktoré môžu umožniť prepínanie medzi pohľadmi,“ povedal zástupca výskumného tímu.
Konkrétnejšie, prvý krok, ktorý budú musieť výskumníci urobiť, je zozbierať letecké mapy oblasti, po ktorej sa chcú pohybovať (v kombinácii s režimami pozorovania ulíc založenými na geografických súradniciach). Ďalej sa pustili do trojdielnej teleportačnej misie, počnúc tréningom na dátach a úpravou zdrojovej oblasti pomocou leteckých pozorovaní oblasti a končiac presunom do cieľovej oblasti pomocou pozemných pozorovaní.
Systém strojového učenia výskumného tímu obsahuje sadu 3 samostatných modulov vrátane:
- Konvolučný modul zodpovedný za vizuálne vnímanie.
- Modul dlhodobej krátkodobej pamäte (LSTM) je zodpovedný za získavanie charakteristík špecifických pre polohu.
- Opakujúci sa neurónový modul politiky pomáha vytvárať delenia prostredníctvom akcií.
Tento model strojového učenia bol nasadený v StreetAir – multiperspektívnom vonkajšom pouličnom prostredí – postavenom na StreetLearn. (StreetLearn je prvá interaktívna zbierka panoramatických fotografií extrahovaných z Google Street View a Google Maps).
V StreetAir a StreetLearn sú letecké snímky obsahujúce panoramatické pohľady na New York City (vrátane Downtown NYC a Midtown NYC) a Pittsburgh (kampusy Allegheny College a Carnegie Mellon University) usporiadané tak, že na každej zemepisnej šírke súradnice stupňov a zemepisných dĺžok sa prostredie vracia do vzduchu. obrázky vo veľkosti 84 x 84, rovnakej veľkosti ako obrázky zo zeme.
Systém umelej inteligencie po absolvovaní školenia bude mať za úlohu naučiť sa lokalizovať a navigovať v panoramatickom grafe Street View so súradnicami zemepisnej dĺžky a šírky cieľa.
Panorámy pokrývajú oblasti od 2 do 5 km na stranu, asi 10 m od seba, a vozidlám (riadeným AI) bude umožnené vykonať 1 z 5 akcií za otočenie: posunúť sa dopredu , odbočiť doľava alebo doprava o 22,5 stupňa alebo odbočiť doľava alebo doprava 67,5 stupňa.
Keď sa tieto vozidlá priblížia k cieľovému miestu na 100 – 200 metrov, získajú „odmeny“ na podporu rýchlej a presnej identifikácie a prejazdu križovatkami.
V experimentoch vozidlá, ktoré využívali letecké snímky na prispôsobenie sa novému prostrediu, dosiahli metriku odmeny 190 pri 100 miliónoch krokov a 280 pri 200 miliónoch krokov, obe výrazne vyššie v porovnaní s vozidlami využívajúcimi iba údaje z pozemného pozorovania (50 pri 100 miliónoch krokov a 200 pri 200 milión krokov). Výsledky podľa vedcov ukázali, že ich metóda výrazne zlepšuje schopnosť vozidiel efektívnejšie získavať poznatky o viacerých oblastiach cieľového mesta.