Navrhovanie systémov umelej inteligencie, ktoré sú schopné presne rozpoznať charakteristiky každého miesta na svete na individuálnej úrovni (t. j. sú schopné jasne rozlíšiť medzi miestami v rovnakej kategórii, napr. Niagarské vodopády s akýmkoľvek iným vodopádom) a vyhľadávanie obrázkov (objekty na obrázkoch s inými verziami tohto objektu v každej kategórii) patria medzi dlhodobé ciele oddelenia intelektuálneho výskumu. O umelú inteligenciu spoločnosti Google je osobitný záujem. Minulý rok spoločnosť vydala Google-Landmarks, dátový balík týkajúci sa pamiatok Zeme, o ktorých spoločnosť Google tvrdila, že boli v tom čase najväčšie na svete, a zorganizovala aj 2 súťaže (Uznanie pamiatok 2018 a Landmark Retriny 2018), na ktorých sa zúčastnilo viac ako 500 popredných výskumníkov strojového učenia a umelej inteligencie na svete.
Po minuloročnom úspechu spoločnosť Google včera 5. mája oficiálne vydala školiaci dátový sklad Google-Landmarks-v2 AI s otvoreným zdrojovým kódom ako dôležitý krok v pláne úspešného vývoja nových technológií. Modely počítačového videnia dokážu viac rozpoznať orientačné body po celom svete rýchlo, presne a sofistikovane. Tento dátový sklad Google-Landmarks-v2 je oveľa väčší ako predchádzajúca verzia a obsahuje až 5 miliónov fotografií (dvakrát viac ako predchádzajúca verzia) 200 000 orientačných bodov (7-krát viac ako predchádzajúca verzia) po celom svete. Okolo sveta.
Okrem toho Google tento rok nezabudol spustiť dve nové „výzvy“, Landmark Recognition 2019 a Landmark Retriny 2019, v komunite strojového učenia Kaggle a zároveň zverejnil zdrojový kód a model pre Detect-to-Retrieve, rámec pomáha efektívnejšie obnovovať obrázky podľa regiónu.
„Obe metódy rozpoznávania obrázkov a ich získavania budú vo všeobecnosti vyžadovať väčšie množiny tréningových údajov, pokiaľ ide o počet obrázkov a rozmanitosť orientačných bodov, aby sa systém lepšie trénoval a aby bol silnejší. Dúfame, že tento súbor údajov pomôže dôkladnejšie zlepšiť rozpoznávanie obrázkov a možnosti získavania moderných modelov AI,“ uviedli dvaja softvéroví inžinieri z tímu Google AI, Bingyi Cao a Tobias. Weyand zdieľal.
Okrem toho, podľa týchto dvoch odborníkov, 5 miliónov fotografií viac ako 200 000 pamiatok uložených v Google-Landmarks-v2 je zhromaždených a prispievaných od fotografov z celého sveta. Každá fotografia bude označená konkrétnym popisom miesta a autora, napríklad zámok Neuschwanstein, most Golden Gate, Kiyomizu-dera, Burdž Chalífa, Sfinga v Gíze (Veľká sfinga v Gíze), Machu Picchu a mnoho ďalších známych atrakcií. Výskumníci spoločnosti Google potom pridali historické, málo známe fotografie zozbierané z Wikimedia Commons, online archívu obrázkov, zvukov a ďalších typov mediálnych údajov nadácie Wikimedia Foundation.
Aký je teda hlavný problém, ktorý rieši framework Detect-to-Retrieve? Ako vysvetlili Bingyi Cao a Tobias Weyand, modely vydané spoločnosťou Google (naučené na podskupine 80 000 obrázkov z prvého súboru údajov Google-Landmarks) môžu využívať ohraničujúce rámčeky. Ohraničovacie rámčeky z modelu detekcie objektov na „pridanie váhy“ oblastiam obrázkov obsahujú zaujímavé položky, čím sa výrazne zvyšuje presnosť.
Okrem toho od dnešného dňa začali prijímať registrácie na účasť v programoch Landmark Recognition 2019 (kde majú zúčastnené tímy za úlohu navrhovať modely umelej inteligencie, aby pomohli identifikovať orientačné body) a Landmark Retriny 2019 (zúčastnené tímy používajú systémy AI na vyhľadávanie obrázkov na presné zobrazenie určeného miesta). Obe súťaže budú zahŕňať peňažné ceny v celkovej výške 50 000 USD a víťazné tímy budú pozvané spoločnosťou Google, aby sa zúčastnili na konferencii o počítačovom videní a rozpoznávaní vzorov (Konferencia o počítačovom videní a rozpoznávaní vzorov). ), ktorá sa bude konať koncom tohto roka v Long Beach v Kalifornii, aby predviedli podrobnosti o prístupe, ktorý zaviedli.