Olyan mesterséges intelligencia rendszerek tervezése, amelyek képesek pontosan felismerni a világ egyes helyeinek jellemzőit az egyén szintjén (vagyis képesek egyértelműen megkülönböztetni az azonos kategóriába tartozó helyeket, pl. a Niagara-vízesést bármely más vízeséssel) és a képlehívást (a képeken lévő objektumok) az adott objektum más változataival az egyes kategóriákban) az intellektuális kutatási részleg régóta fennálló céljai közé tartozik.A Google mesterséges intelligenciája különösen érdekes. A cég tavaly kiadta a Google-Landmarks nevű, a Föld nevezetességeihez kapcsolódó adatcsomagot, amely a Google állítása szerint a világ akkoriban a legnagyobb volt, és 2 versenyt is szervezett (Landmark Recognition 2018 és Landmark Retriny 2018), amelyen több mint 500 vezető gépi tanulással és mesterséges intelligenciával foglalkozó kutató a világon.
A tavalyi év sikerét követően, tegnap május 5-én, a Google hivatalosan is kiadta a Google-Landmarks-v2 AI képzési adattárházat nyílt forráskóddal, ami fontos lépés az új technológiák sikeres fejlesztése érdekében. gyorsan, pontosan és kifinomultan. Ez a Google-Landmarks-v2 adattárház sokkal nagyobb léptékű, mint az előző verzió, és akár 5 millió fényképet (kétszer annyit, mint az előző verzió) tartalmaz 200 000 tereptárgyról (7-szer annyi, mint az előző verzióban) szerte a világon. A világ körül.
Ezenkívül a Google nem felejtette el idén elindítani két új „kihívást”, a Landmark Recognition 2019-et és a Landmark Retriny 2019-et a Kaggle gépi tanulási közösségben, és ezzel egy időben kiadta a Detect-to-Retrieve forráskódját és modelljét. egy keretrendszer segít a képek régiónkénti visszaállításában hatékonyabban.
„Mind a képfelismerési, mind a visszakeresési módszerek általában nagyobb betanítási adatkészleteket igényelnek mind a képek számát, mind a tereptárgyak sokféleségét illetően a rendszer jobb képzéséhez és erősebbé tételéhez. Reméljük, hogy ez az adatkészlet hozzájárul a modern AI-modellek képfelismerési és visszakeresési képességeinek alaposabb fejlesztéséhez” – mondta a Google AI csapatának két szoftvermérnöke, Bingyi Cao és Tobias.
Ezen túlmenően a két szakértő szerint a Google-Landmarks-v2-ben tárolt több mint 200 000 tereptárgyról 5 millió fotót gyűjtenek össze és adnak hozzá fotósoktól szerte a világon. Minden fotón a helyszín és a szerző konkrét leírása található, például a Neuschwanstein-kastély, a Golden Gate-híd, a Kiyomizu-dera, a Burj Khalifa, a Gízai Szfinx (Gízai Nagy Szfinx), Machu Picchu és sok más híres látnivaló. A Google kutatói ezt követően a Wikimedia Commonsból, a Wikimedia Foundation kép-, hang- és sok más típusú online archívumából gyűjtött történelmi, kevéssé ismert fotókat adták hozzá.
Tehát mi a fő probléma, amelyet a Detect-to-Retrieve keretrendszer megold? Amint azt Bingyi Cao és Tobias Weyand kifejtette, a Google kiadott modelljei (amelyeket az első Google-Landmarks adatkészlet 80 000 képéből álló részhalmazra képeztek ki) kiaknázhatják a határolókeretek előnyeit. A határolókeretek egy objektumészlelési modellből a képterületek súlyának növeléséhez érdekes elemeket tartalmaz, ezáltal jelentősen javítja a pontosságot.
Ezenkívül a Landmark Recognition 2019 (ahol a résztvevő csapatok feladata a tereptárgyak azonosítását segítő mesterséges intelligencia modellek megtervezése) és a Landmark Retriny 2019 (a résztvevő csapatok mesterséges intelligencia rendszereket használnak a képek keresésére, hogy pontosan megjelenítsék a kijelölt helyet) mától fogadják a regisztrációkat. Mindkét verseny összesen 50 000 dollár pénzdíjjal jár, a győztes csapatokat pedig a Google meghívja a számítógépes látásról és mintafelismerésről szóló konferenciára (Conference on Computer Vision and Pattern Recognition). az általuk alkalmazott megközelítés részleteit.