Segíthetnek-e a mesterséges intelligencia modellek eligazodni olyan területeken (utcákon), amelyeken korábban soha nem képezték ki őket, vagy amelyekre nem kaptak elegendő képzési adatot? Ez az, ami miatt a DeepMind mesterséges intelligencia fejlesztőcsapatának tudósai aggódnak. Sok év inkubáció után a tudósok végre sikereket értek el a „Cross-View Policy Learning for Street Navigation” nevű kutatási projektben, amely nemrég derült ki az Arxiv.org oldalon megjelent cikkből.
Ebben a kutatásban a DeepMind tudósai egy olyan mesterséges intelligencia-politika kialakítását írják le, amelyet egy gazdag adattárházból képeztek ki sok szögből (többnyire felülről lefelé készült képek), amely a város különböző területeit célozza meg az optimálisabb megfigyelési hatékonyság érdekében. A kutatók úgy vélik, hogy egy ilyen megközelítés jobb általánosítási eredményekhez vezetne.
Ezt a kutatást lényegében az a tény ihlette, hogy az emberek gyorsan tudnak alkalmazkodni egy új város elrendezéséhez és alapszerkezetéhez, ha sokszor gondosan megvizsgálják az adott város térképét.
„Az ismeretlen környezetben végzett vizuális megfigyelések alapján történő navigálás alapvető eleme az AI-modellek navigációs tanulási képességének tanulmányozásának. A mesterséges intelligencia modellek útbaigazítási képessége olyan esetekben, amikor hiányoznak a képzési adatok, eddig viszonylag korlátozott volt, és a szimulációs modellekre hagyatkozni nem lehet hosszú távon hatékony megoldás. Alapelvünk az, hogy a földi nézetet párosítsuk a légi képpel, és feltárjuk a közös irányelveket, amelyek lehetővé teszik a nézetek közötti váltást” – mondta a kutatócsoport egyik képviselője.
Pontosabban, az első lépés, amelyet a kutatóknak meg kell tenniük, az, hogy légi térképeket gyűjtsenek az általuk navigálni kívánt területről (földrajzi koordinátákon alapuló utcai megfigyelési módokkal kombinálva). ennek megfelelő ok). Ezt követően három részből álló teleportációs küldetésbe kezdtek, kezdve az adatok kiképzésével és a forrásterület légi megfigyelések segítségével történő beállításával, és a célterületre való mozgással, földi megfigyelések segítségével.
A kutatócsoport gépi tanulási rendszere 3 különálló modulból áll, köztük:
- Konvolúciós modul, a vizuális észlelésért felelős.
- A hosszú rövid távú memória (LSTM) modul felelős a helyspecifikus jellemzők lekéréséért.
- A politika ismétlődő neurális modulja akciókon keresztül segít felosztást létrehozni.
Ezt a gépi tanulási modellt a StreetAirben vezették be – egy több perspektívát átfogó szabadtéri utcai környezetben –, amely a StreetLearn tetejére épült. (A StreetLearn az első interaktív panorámafotók gyűjteménye a Google Street View-ból és a Google Térképből).
A StreetAir és a StreetLearn alkalmazásban a New York Cityre (beleértve New York Downtown és Midtown NYC) és Pittsburghre (az Allegheny College és a Carnegie Mellon Egyetem kampuszai) panorámás kilátást nyújtó légifelvételek úgy vannak elrendezve, hogy minden szélességi és hosszúsági koordináta fokon és hosszúságon a környezet légi képet adjon. 84 x 84 méretű képek, amelyek megegyeznek a földről készült képekkel.
A mesterséges intelligencia rendszernek a betanítás után az lesz a feladata, hogy megtanulja lokalizálni és navigálni a panoráma Utcakép képdiagramon a cél hosszúsági és szélességi koordinátáival.
A panorámák oldalirányban 2-5 km-es, egymástól kb. 10 m-re lévő területeket fednek le, és az (AI által vezérelt) járművek kanyarodásonként 5 műveletből egyet hajthatnak végre: előre , balra vagy jobbra fordulás 22,5 fokkal vagy balra vagy jobbra 67,5 fokon.
Amikor 100-200 méteren belül megközelítik a célhelyet, ezek a járművek „jutalmakat” kapnak, amelyek ösztönzik a kereszteződések gyors és pontos azonosítását és áthaladását.
Kísérletek során azok a járművek, amelyek légi felvételeket használva alkalmazkodtak az új környezetekhez, 100 millió lépésnél 190-es, 200 millió lépésnél 280-as jutalommutatót értek el, mindkettő lényegesen magasabb, mint a csak földi megfigyelési adatokat használó járművek (50 100 millió lépésnél és 200 200 lépésnél). millió lépés). A kutatók szerint az eredmények azt mutatták, hogy módszerük jelentősen javítja a járművek azon képességét, hogy hatékonyabban szerezzenek ismereteket a célváros több területéről.