Realisticky povedané, skutočnosť, že AI dokáže vytvárať originálne klipy z jedného alebo viacerých kúskov textu, nie je v technologickom svete seizmickou novinkou. Minulý rok výskumníci podrobne opísali, ako systém využíva neurónové siete - vrstvy matematických funkcií modelovaných podľa biologických neurónových sietí (neurónov) - na vytváranie útržkov informácií. Video má dĺžku 32 snímok a veľkosť 64 × 64 pixelov z mnohých evokujúcich popisov, napr. ako „hrať futbal na trávniku“. Podľa nového článku zverejneného na Arxiv.org sa však vedcom z Disney Research a Rutgers podarilo posunúť túto myšlienku o krok ďalej pomocou modelu umelej inteligencie s krížovými slovami. Od začiatku do konca je možné vytvoriť hrubý dej ako aj video popisy textov zo scenárov. Konkrétne, vedcov model prevodu textu na animáciu pomáha vytvárať animácie bez potreby anotačných údajov – predbežný krok, ktorý sa používa na poskytnutie popisného vstupného textu pre aktivity.
„Automatické generovanie animácií z textu v prirodzenom jazyku je veľmi užitočná technológia, ktorú možno použiť v mnohých oblastiach, ako je písanie filmových scenárov alebo vytváranie inštruktážnych videí. Tieto systémy AI budú obzvlášť cenné, keď sa použijú na skriptovanie, pretože umožnia rýchlejšie opakovanie, prototypovanie a overenie konceptu. V tomto výskume sme úspešne vyvinuli systém prevodu textu na animáciu, ktorý dokáže uspokojivo zvládnuť zložité vety. Účelom tohto systému AI nie je úplne nahradiť scenáristov alebo scenáristov, ale vytvoriť AI asistenta schopného efektívne podporovať a uľahčovať prácu scenáristov, zaujímavejšou,“ zdieľal výskumný tím.
Ako vedci vysvetlili, preklad textu do animácie nie je jednoduchá úloha. V skutočnosti vety (vstupné údaje) aj animácie (výstupné údaje) nemajú pevnú štruktúru. To je tiež dôvod, prečo väčšina súčasných nástrojov na prevod textu na video nedokáže zvládnuť zložité vzorce viet. Aby sa riešili obmedzenia súčasných systémov, výskumný tím vytvoril modulárnu neurónovú sieť, ktorá obsahuje množstvo komponentov, ako napríklad: Nový modul na analýzu skriptov, ktorý automaticky dynamicky izoluje relevantný text od popisov scén v skripte; modul na spracovanie prirodzeného jazyka, ktorý zjednodušuje zložité vzorce viet pomocou súboru jazykových pravidiel a extrahuje informácie zo zjednodušených viet do preddefinovaných akčných reprezentácií; a animačný modul zodpovedný za konverziu uvedených reprezentácií do viacerých animačných sekvencií.
Podľa vedcov tento zjednodušený prístup výrazne uľahčuje extrahovanie kľúčových informácií o skriptoch a ich systém bude schopný automaticky identifikovať, kedy má časť kódu konkrétnu syntaktickú štruktúru, a potom ju rozložiť a poskladať do jednoduchších viet a potom rekurzívne spracovávať, kým nie je možné ďalšie zjednodušenie. Ďalší „koordinačný krok“ bude aplikovaný na vety, ktoré majú rovnaký syntaktický vzťah a zároveň plnia rovnakú funkčnú úlohu. A nakoniec, simulátor slovnej zásoby, ktorý zodpovedá akciám opísaným vo vetách, bude zjednodušený pomocou 52 rôznych animácií (ktoré možno rozšíriť na 92 animácií pomocou slovníka synoným).význam) v preddefinovanej knižnici.
Systém s názvom Cardinal potom tieto animácie používa ako vstup pre akcie a vytvára predvizualizácie v Unreal – populárnom engine videohier vyvinutom spoločnosťou Epic Games. Na základe preddefinovanej knižnice animácií sa predinštalujú objekty a tiež modely, ktoré môže použiť na vytváranie postáv, čo pomáha vytvárať 3D animačné videá, ktoré presne zodpovedajú spracovanému scenáru.
Na trénovanie tohto špičkového systému začali výskumníci zostavovať databázu popisov scén zloženú z 996 scenárov, čerpajúcich z viac ako 1000 skriptov prevzatých z voľne dostupných zdrojov vrátane IMSDb, SimplyScripts a ScriptORama5. Celkovo tento korpus obsahuje 525 708 popisov obsahujúcich 1 402 864 viet, z ktorých 920 817 (viac ako 40 %) má aspoň jedno sloveso opisujúce dej.
V kvalitatívnom experimente vedci požiadali 22 účastníkov, aby ohodnotili 20 systémovo generovaných animácií na 5-bodovej škále (napr. je zobrazené video vhodne animované vzhľadom na textový obsah? text? alebo koľko textových informácií bolo popísaných vo videu a koľko informácií vo videu bolo spomenutých v texte), 68 % účastníkov uviedlo, že systém vytvoril efektívne animácie.reálna hodnota zo vstupných scenárov – nie obzvlášť vysoká, ale veľmi chvályhodná.
To ukazuje, že toto nie je skutočne dokonalý systém. V skutočnosti zoznam akcií a ich objektov nie je vyčerpávajúci a niekedy proces lexikálneho zjednodušenia nedokáže úspešne namapovať zložité slovesá na podobné animátory, alebo je možné vytvoriť len niekoľko jednoduchých viet pre sloveso, ktoré má v pôvodnej vete viacero predmetov. . Je to však ešte mladá štúdia a takéto obmedzenia sú úplne pochopiteľné. Vedci majú v úmysle v blízkej budúcnosti odstrániť vyššie uvedené nedostatky.
„Interné a externé hodnotenia ukázali primeranú výkonnosť tohto systému a chceli sme využiť diskurzné informácie skúmaním postupnosti akcií opísaných v textových fragmentoch. To tiež pomôže vyriešiť nejasnosti v texte týkajúce sa akcií. Okrem toho môže byť náš systém použitý na generovanie údajov potrebných na trénovanie podobných end-to-end neurónových systémov,“ povedal tím.