Pred niekoľkými mesiacmi Amazon podrobne opísal množstvo problémov, ktoré Alexe bránili v poskytovaní presných odpovedí, keď používatelia prebudili virtuálneho asistenta na určitých modeloch televízorov, v internetových alebo rádiových reklamách. Koniec koncov, hlavným problémom je, ako môže hlasový asistent Amazonu efektívne odfiltrovať hluk pozadia z prostredia, aby používateľom poskytol presnejšiu spätnú väzbu. Nedávno v blogovom príspevku a sprievodnom výskumnom článku s názvom End-to-End Anchored Speech Recognition inžinieri Amazonu konkrétne predstavili novú techniku izolácie hluku založenú na umelej inteligencii, ktorá môže pomôcť zlepšiť rozpoznávanie hlasu a príkazy Alexa o 15 %. Očakáva sa, že podrobnejšie informácie o tom, ako systém funguje, budú predstavené na medzinárodnej konferencii o akustike, reči a spracovaní signálov, ktorá sa bude konať v Brightone koncom tohto roka.
„V skutočnosti sa vždy snažíme zlepšiť Alexin výkon tým, že ju učíme, ako „ignorovať“ príkazy, ktoré nie sú pre ňu určené, inými slovami, vedieť vyberať príkazy spomedzi nespočetných zvukov vychádzajúcich z okolitého prostredia. Aby sme tak urobili, predpokladáme, že reproduktor aktivuje zariadenie s podporou Alexa vyslovením konkrétneho slova na prebudenie – zvyčajne „Alexa.“ – a toto je kľúčová fráza, ktorú musí virtuálny asistent izolovať a identifikovať v chaose zvukov zvonku. životné prostredie. Naša technika v podstate pomôže rýchlo „zachytiť“ zvuky, ktoré môžu byť bdelými slovami (zvyčajne na základe podobnosti v intonácii alebo fonémach) a porovnať ich s bdelými slovami. štandard na presnú identifikáciu viet. Potom vetu, ktorej prvky sa najviac zhodujú so štandardným budiacim slovom, bude Alexa chápať ako príkaz, zatiaľ čo ostatné vety budú považovať za hluk v pozadí,“ povedal Xin Fan, vedúci tímu vedcov zodpovedných za projekt. Alexa AI vysvetľuje.
Namiesto trénovania samostatného systému AI na rozlíšenie medzi hlukom v pozadí a prebudenými slovami, Xin Fan a kolegovia zlúčili svoj mechanizmus zhody slov s modelom rozpoznávania reči založeným na inteligencii, štandardne umelým. Vedci testovali postupne dve varianty architektúry AI dekodéra – to znamená použitie architektúry, ktorá spracováva vstupné dáta (milisekundové snímky zvukového signálu), aby sa vytvorila zodpovedajúca výstupná sekvencia (fonemické vykreslenie zvuku) – a Ako pri väčšine konvenčných techník kódovania a dekódovania, kódovací komponent sumarizuje vstupné dáta ako vektor s pevnou dĺžkou (reťazec čísel) a konvertuje ich na výstupné dáta. Medzitým, špeciálny mechanizmus pozornosti, "vycvičený" na detekciu niektorých základných charakteristík budiacich slov v jednom alebo viacerých rečových reťazcoch z okolitého prostredia, bude zodpovedný za "vedenie" množiny. dekódovanie venuje väčšiu pozornosť týmto vlastnostiam vo vektore.
V experimente výskumníci trénovali jeden zo svojich modelov AI tak, aby kládol väčší dôraz na rozpoznávanie výslovnosti slov, najprv pridaním komponentu, ktorý priamo porovnával zvuky slov. prebudiť slovo s rôznymi výslovnosťami a potom použiť tieto výsledné údaje ako vstup do iného samostatného komponent, ktorý bol natrénovaný na kompresiu bitov kódovacieho vektora. Výsledky boli zaujímavé, tento model znížil chybovosť na 13 % oproti 15 %.