Néhány hónappal ezelőtt az Amazon részletezett számos olyan problémát, amelyek megakadályozták, hogy az Alexa pontos választ adjon, amikor a felhasználók felébresztették a virtuális asszisztenst bizonyos TV-modellekben, internetes vagy rádiós hirdetésekben. Hiszen itt az a fő kérdés, hogy az Amazon hangsegédje hogyan tudja hatékonyan kiszűrni a környezet háttérzajt, hogy pontosabb visszajelzést adjon a felhasználóknak. A közelmúltban egy blogbejegyzésben és a kapcsolódó kutatási cikkben, az End-to-End Anchorred Speech Recognition néven, az Amazon mérnökei konkrétan bemutattak egy új, mesterséges intelligencián alapuló zajszigetelési technikát, amely 15%-kal javíthatja az Alexa hangfelismerését és parancsait. A rendszer működésével kapcsolatos részletesebb információk várhatóan az év folyamán Brightonban megrendezésre kerülő Nemzetközi Akusztikai, Beszéd- és Jelfeldolgozási Konferencián kerülnek bemutatásra.
„Valójában mindig úgy igyekszünk javítani Alexa teljesítményén, hogy megtanítjuk neki, hogyan „figyelmen kívül hagyja” azokat a parancsokat, amelyeket nem neki szántak, vagyis tudja, hogyan válassza ki a parancsokat a környező környezetből kiszűrődő számtalan zaj közül. Ehhez feltételezzük, hogy a hangszóró aktivál egy Alexa-kompatibilis eszközt egy bizonyos ébresztőszó kimondásával – általában „Alexa”. környezet. Alapvetően technikánk segít abban, hogy gyorsan „elfogjon” olyan hangokat, amelyek ébrenléti szavak lehetnek (általában intonáció vagy fonémák hasonlósága alapján), és összehasonlítjuk őket ébrenléti szavakkal. Szabvány a mondatok pontos azonosításához. Ezután azt a mondatot, amelynek elemei a legjobban egyeznek a szokásos ébresztőszóval, az Alexa parancsként fogja fel, míg a többi mondatot háttérzajnak tekinti" - mondta Xin Fan, a projektért felelős tudóscsoport vezetője. Alexa AI elmagyarázza.
Ahelyett, hogy egy külön mesterséges intelligencia rendszert tanítottak volna a háttérzaj és az ébresztő szavak megkülönböztetésére, Xin Fan és munkatársai egyesítették a szóillesztési mechanizmusukat egy intelligencia alapú beszédfelismerő modellel. A tudósok a dekóder mesterséges intelligencia architektúrájának két variációját tesztelték egymás után – vagyis olyan architektúrát használva, amely feldolgozza a bemeneti adatokat (az audiojel ezredmásodperces pillanatfelvételei), hogy megfelelő kimeneti szekvenciát állítsanak elő (a hang fonemikus megjelenítése) – és , mint a legtöbb hagyományos kódoló-dekódolási technikánál, a kódoló komponens a bemeneti adatokat vektor rögzített hosszúságú (számsorozat) összegzi, és kimeneti adatokká alakítja. Mindeközben egy speciális figyelemmechanizmus, amely „kiképzett" a környező környezet egy vagy több beszédláncában lévő ébresztőszavak néhány alapvető jellemzőjének észlelésére, lesz felelős a halmaz „irányításáért". A dekódolás nagyobb figyelmet fordít a vektor ezen jellemzőire.
Egy kísérlet során a kutatók megtanították az egyik mesterséges intelligencia-modelljüket, hogy nagyobb hangsúlyt fektessenek a szavak kiejtésének felismerésére, először egy olyan komponens hozzáadásával, amely közvetlenül hasonlította össze a szavak hangjait. Wake word különféle kiejtéssel, majd ezeket az adatokat egy másik különálló kiejtés bemeneteként használja fel. komponens, amelyet arra tanítottak, hogy tömörítse a kódolóvektor bitjeit. Az eredmények érdekesek voltak, ez a modell 15%-hoz képest 13%-ra csökkentette a hibaarányt.