Reálisan nézve, az a tény, hogy a mesterséges intelligencia egy vagy több szövegrészből képes eredeti klipeket készíteni, nem szeizmikus hír a technológiai világban. Tavaly a kutatók részletezték, hogyan használja ki egy rendszer a neurális hálózatokat – a biológiai neurális hálózatok (neuronok) alapján modellezett matematikai függvények rétegeit – információfoszlányok létrehozására. A videó 32 képkocka hosszú és 64 × 64 pixel méretű, számos idéző leírásból, pl. mint „focizni a gyepen”. Az Arxiv.org oldalon megjelent új cikk szerint azonban a Disney Research és a Rutgers kutatóinak sikerült egy lépéssel továbbvinniük ezt az ötletet egy keresztszavas mesterséges intelligencia-modell segítségével. valamint a forgatókönyvekből származó szövegek videóleírásai. Pontosabban, a tudósok szöveg-animáció modellje segít animációkat létrehozni annotációs adatok nélkül – ez egy előzetes lépés, amelyet a tevékenységek leíró bemeneti szövegének biztosítására használnak.
„Az animáció automatikus generálása természetes nyelvű szövegből egy nagyon hasznos technológia, amely számos területen alkalmazható, például filmforgatókönyvek írásában vagy oktatóvideók készítésében. Ezek az AI-rendszerek különösen értékesek lesznek, ha szkriptekre alkalmazzák őket, mivel lehetővé teszik a gyorsabb iterációt, prototípus-készítést és a koncepció bizonyítását. Ebben a kutatásban sikeresen kifejlesztettünk egy olyan szöveg-animációs rendszert, amely képes kielégítően kezelni az összetett mondatokat. Ennek az AI-rendszernek nem az a célja, hogy teljesen leváltsa az írókat vagy a forgatókönyvírókat, hanem egy mesterséges intelligencia asszisztens létrehozása, amely hatékonyan támogatja és megkönnyíti a forgatókönyvírók munkáját.” – osztotta meg a kutatócsoport.
Ahogy a kutatók kifejtették, a szöveg animációra fordítása nem egyszerű feladat. Valójában a mondatoknak (bemeneti adatoknak) és az animációknak (kimeneti adatoknak) nincs rögzített szerkezete. Ez az oka annak is, hogy a legtöbb jelenlegi szöveg-videó eszköz nem képes kezelni az összetett mondatmintákat. A jelenlegi rendszerek korlátainak kezelése érdekében a kutatócsoport felépített egy moduláris neurális hálózatot, amely számos összetevőt tartalmaz, például: Új szkriptelemző modul, amely automatikusan dinamikusan elkülöníti a releváns szöveget a szkriptben lévő jelenetek leírásaitól; természetes nyelvi feldolgozó modul, amely nyelvi szabályok segítségével egyszerűsíti az összetett mondatmintákat, és az egyszerűsített mondatokból előre meghatározott cselekvési reprezentációkba vonja ki az információkat; és egy animációs modult, amely az említett reprezentációk több animációs szekvenciává alakításáért felelős.
A kutatók szerint ez az egyszerűsített megközelítés sokkal könnyebbé teszi a kulcsfontosságú szkriptinformációk kinyerését, és rendszerük képes lesz automatikusan azonosítani, ha egy kódrészlet adott szintaktikai struktúrát adott, majd lebontja és egyszerűbb mondatokká állítja össze, majd rekurzív feldolgozása, amíg további egyszerűsítés nem lehetséges. A következő „koordinációs lépést” azokra a mondatokra alkalmazzuk, amelyek azonos szintaktikai kapcsolatban állnak, és ugyanakkor ugyanazt a funkcionális szerepet töltik be. És végül a mondatokban leírt műveletekhez illeszkedő szókincsszimulátor 52 különböző animációval (amely szinonimszótár segítségével 92 animációra bővíthető) egyszerűsödik egy előre meghatározott könyvtárban.
A Cardinal nevű rendszer ezután ezeket az animációkat használja fel akciókhoz, és előzetes vizualizációkat hoz létre az Unrealban – az Epic Games által fejlesztett népszerű videojáték-motorban. Az előre definiált animációs könyvtár alapján az objektumok és a modellek, amelyekkel karaktereket hozhat létre, előre betöltődnek, ezáltal segítve a 3D animációs videók létrehozását, amelyek pontosan a feldolgozott forgatókönyvet tükrözik.
Ennek a kiváló rendszernek a betanításához a kutatók egy 996 forgatókönyvből álló jelenetleíró adatbázist kezdtek összeállítani, több mint 1000 szabadon elérhető forrásból származó szkriptből, beleértve az IMSDb-t, a SimplyScripts-t és a ScriptORama5-t. Ez a korpusz összesen 525 708 leírást tartalmaz, amelyek 1 402 864 mondatot tartalmaznak, amelyek közül 920 817 (több mint 40%) tartalmaz legalább egy cselekvést leíró igét.
Egy kvalitatív kísérlet során a tudósok 22 résztvevőt kértek meg, hogy értékeljenek 20 rendszer által generált animációt egy 5-ös skálán (pl. Megfelelően animált-e a megjelenített videó a szövegtartalomhoz képest? Szöveg?, vagy mennyi szöveges információ található a videóban és mennyi információ szerepel a videóban), a résztvevők 68%-a azt mondta, hogy a rendszer hatékony animációkat hozott létre. valós érték a bemeneti forgatókönyvekből - nem különösebben magas arány, de nagyon dicséretes.
Ez azt mutatja, hogy ez nem igazán tökéletes rendszer. Valójában a műveletek és objektumok listája nem teljes, és néha a lexikális egyszerűsítési folyamat nem képes sikeresen leképezni az összetett igéket hasonló animátorokra, vagy csak néhány egyszerű mondatot lehet létrehozni egy olyan igéhez, amelynek több alanya van az eredeti mondatban. . Ez azonban még fiatal tanulmány, és az ilyen korlátok teljesen érthetőek. A fenti hiányosságokat a kutatók a közeljövőben kívánják orvosolni.
„A belső és külső értékelések e rendszer ésszerű teljesítményét mutatták, és a szövegrészletekben leírt cselekvési sorrend vizsgálatával a diskurzusinformációkat kívántuk hasznosítani. Ez segít feloldani a szövegben a cselekvésekkel kapcsolatos kétértelműségeket is. Ezenkívül rendszerünk felhasználható a hasonló végpontok közötti neurális rendszerek betanításához szükséges adatok előállítására” – mondta a csapat.