A Disney mesterséges intelligencia modellje animált szekvenciákat generál forgatókönyvekből

A Disney mesterséges intelligencia modellje animált szekvenciákat generál forgatókönyvekből

Reálisan nézve, az a tény, hogy a mesterséges intelligencia egy vagy több szövegrészből képes eredeti klipeket készíteni, nem szeizmikus hír a technológiai világban. Tavaly a kutatók részletezték, hogyan használja ki egy rendszer a neurális hálózatokat – a biológiai neurális hálózatok (neuronok) alapján modellezett matematikai függvények rétegeit – információfoszlányok létrehozására. A videó 32 képkocka hosszú és 64 × 64 pixel méretű, számos idéző ​​leírásból, pl. mint „focizni a gyepen”. Az Arxiv.org oldalon megjelent új cikk szerint azonban a Disney Research és a Rutgers kutatóinak sikerült egy lépéssel továbbvinniük ezt az ötletet egy keresztszavas mesterséges intelligencia-modell segítségével. valamint a forgatókönyvekből származó szövegek videóleírásai. Pontosabban, a tudósok szöveg-animáció modellje segít animációkat létrehozni annotációs adatok nélkül – ez egy előzetes lépés, amelyet a tevékenységek leíró bemeneti szövegének biztosítására használnak.

„Az animáció automatikus generálása természetes nyelvű szövegből egy nagyon hasznos technológia, amely számos területen alkalmazható, például filmforgatókönyvek írásában vagy oktatóvideók készítésében. Ezek az AI-rendszerek különösen értékesek lesznek, ha szkriptekre alkalmazzák őket, mivel lehetővé teszik a gyorsabb iterációt, prototípus-készítést és a koncepció bizonyítását. Ebben a kutatásban sikeresen kifejlesztettünk egy olyan szöveg-animációs rendszert, amely képes kielégítően kezelni az összetett mondatokat. Ennek az AI-rendszernek nem az a célja, hogy teljesen leváltsa az írókat vagy a forgatókönyvírókat, hanem egy mesterséges intelligencia asszisztens létrehozása, amely hatékonyan támogatja és megkönnyíti a forgatókönyvírók munkáját.” – osztotta meg a kutatócsoport.

Ahogy a kutatók kifejtették, a szöveg animációra fordítása nem egyszerű feladat. Valójában a mondatoknak (bemeneti adatoknak) és az animációknak (kimeneti adatoknak) nincs rögzített szerkezete. Ez az oka annak is, hogy a legtöbb jelenlegi szöveg-videó eszköz nem képes kezelni az összetett mondatmintákat. A jelenlegi rendszerek korlátainak kezelése érdekében a kutatócsoport felépített egy moduláris neurális hálózatot, amely számos összetevőt tartalmaz, például: Új szkriptelemző modul, amely automatikusan dinamikusan elkülöníti a releváns szöveget a szkriptben lévő jelenetek leírásaitól; természetes nyelvi feldolgozó modul, amely nyelvi szabályok segítségével egyszerűsíti az összetett mondatmintákat, és az egyszerűsített mondatokból előre meghatározott cselekvési reprezentációkba vonja ki az információkat; és egy animációs modult, amely az említett reprezentációk több animációs szekvenciává alakításáért felelős.

A Disney mesterséges intelligencia modellje animált szekvenciákat generál forgatókönyvekből

A kutatók szerint ez az egyszerűsített megközelítés sokkal könnyebbé teszi a kulcsfontosságú szkriptinformációk kinyerését, és rendszerük képes lesz automatikusan azonosítani, ha egy kódrészlet adott szintaktikai struktúrát adott, majd lebontja és egyszerűbb mondatokká állítja össze, majd rekurzív feldolgozása, amíg további egyszerűsítés nem lehetséges. A következő „koordinációs lépést” azokra a mondatokra alkalmazzuk, amelyek azonos szintaktikai kapcsolatban állnak, és ugyanakkor ugyanazt a funkcionális szerepet töltik be. És végül a mondatokban leírt műveletekhez illeszkedő szókincsszimulátor 52 különböző animációval (amely szinonimszótár segítségével 92 animációra bővíthető) egyszerűsödik egy előre meghatározott könyvtárban.

A Cardinal nevű rendszer ezután ezeket az animációkat használja fel akciókhoz, és előzetes vizualizációkat hoz létre az Unrealban – az Epic Games által fejlesztett népszerű videojáték-motorban. Az előre definiált animációs könyvtár alapján az objektumok és a modellek, amelyekkel karaktereket hozhat létre, előre betöltődnek, ezáltal segítve a 3D animációs videók létrehozását, amelyek pontosan a feldolgozott forgatókönyvet tükrözik.

A Disney mesterséges intelligencia modellje animált szekvenciákat generál forgatókönyvekből

Ennek a kiváló rendszernek a betanításához a kutatók egy 996 forgatókönyvből álló jelenetleíró adatbázist kezdtek összeállítani, több mint 1000 szabadon elérhető forrásból származó szkriptből, beleértve az IMSDb-t, a SimplyScripts-t és a ScriptORama5-t. Ez a korpusz összesen 525 708 leírást tartalmaz, amelyek 1 402 864 mondatot tartalmaznak, amelyek közül 920 817 (több mint 40%) tartalmaz legalább egy cselekvést leíró igét.

Egy kvalitatív kísérlet során a tudósok 22 résztvevőt kértek meg, hogy értékeljenek 20 rendszer által generált animációt egy 5-ös skálán (pl. Megfelelően animált-e a megjelenített videó a szövegtartalomhoz képest? Szöveg?, vagy mennyi szöveges információ található a videóban és mennyi információ szerepel a videóban), a résztvevők 68%-a azt mondta, hogy a rendszer hatékony animációkat hozott létre. valós érték a bemeneti forgatókönyvekből - nem különösebben magas arány, de nagyon dicséretes.

Ez azt mutatja, hogy ez nem igazán tökéletes rendszer. Valójában a műveletek és objektumok listája nem teljes, és néha a lexikális egyszerűsítési folyamat nem képes sikeresen leképezni az összetett igéket hasonló animátorokra, vagy csak néhány egyszerű mondatot lehet létrehozni egy olyan igéhez, amelynek több alanya van az eredeti mondatban. . Ez azonban még fiatal tanulmány, és az ilyen korlátok teljesen érthetőek. A fenti hiányosságokat a kutatók a közeljövőben kívánják orvosolni.

A Disney mesterséges intelligencia modellje animált szekvenciákat generál forgatókönyvekből

„A belső és külső értékelések e rendszer ésszerű teljesítményét mutatták, és a szövegrészletekben leírt cselekvési sorrend vizsgálatával a diskurzusinformációkat kívántuk hasznosítani. Ez segít feloldani a szövegben a cselekvésekkel kapcsolatos kétértelműségeket is. Ezenkívül rendszerünk felhasználható a hasonló végpontok közötti neurális rendszerek betanításához szükséges adatok előállítására” – mondta a csapat.


Az AI-alapú rendszert az orvvadászok észlelésére tervezték

Az AI-alapú rendszert az orvvadászok észlelésére tervezték

A vadászok gyakran éjszaka vadásznak, ezért észlelésükre drónokra szerelt infravörös kamerákat használnak. A probléma az, hogy mivel az orvvadász és az állat is hőt bocsát ki, nehéz lehet pontosan azonosítani őket.

5 ingyenes AI chatbot az Ön webhelyéhez

5 ingyenes AI chatbot az Ön webhelyéhez

Képzelje el, hogy alvás közben is válaszol az ügyfelek kérdéseire. Íme, mit tehetnek az ingyenes mesterséges intelligencia chatbotok az Ön webhelyén.

Csaposok, figyelem: Ez a robot mindössze 1 perc alatt képes összekeverni egy koktélt

Csaposok, figyelem: Ez a robot mindössze 1 perc alatt képes összekeverni egy koktélt

Japán elöregedő és csökkenő népessége miatt az országból jelentős számú fiatal munkaerő hiányzik, különösen a szolgáltatási szektorban.

A Character.AI finanszírozást keres, hogy a cég értékét több mint 5 milliárd dollárra emelje

A Character.AI finanszírozást keres, hogy a cég értékét több mint 5 milliárd dollárra emelje

A Character.AI, a Generatív mesterséges intelligencia és a chatbot technológiára összpontosító startup állítólag tárgyalásokat folytat olyan finanszírozás megszerzéséről, amely több mint 5 milliárd dollár értékben érheti el a céget.

A mesterséges intelligencia segít tisztázni egy híres, közel 400 éves színdarab szerzőjével kapcsolatos vitát

A mesterséges intelligencia segít tisztázni egy híres, közel 400 éves színdarab szerzőjével kapcsolatos vitát

A VIII. Henrik az angol irodalom történetének egyik legklasszikusabb darabja, amelyet két híres szerző, William Shakespeare és John Fletcher írt 1623-ban.

Telepítse az AI-t mikrohullámú sütőre, hogy képzeletbeli barátja valóra váljon, de ami létrejön, az egy gyilkos gép

Telepítse az AI-t mikrohullámú sütőre, hogy képzeletbeli barátja valóra váljon, de ami létrejön, az egy gyilkos gép

Egy YouTuber és egy brazíliai mérnök, Lucas Rizzotto a közelmúltban megosztotta a Twitteren azt a történetet, hogy megvalósította képzeletbeli barátját – egy mikrohullámú sütőt a házban, aki mesterséges intelligenciát használ, de élete "egyik legfélelmetesebb élményét" kapta.

A Microsoft Research távoli egészségmegfigyelési technológiát fejleszt, kizárólag okostelefonok kameráival

A Microsoft Research távoli egészségmegfigyelési technológiát fejleszt, kizárólag okostelefonok kameráival

A kutatók felfedezték, hogy a webkamerák és az okostelefonok kamerái kombinálhatók speciális mesterséges intelligencia-algoritmusokkal, hogy rendkívül hatékony távoli személyes egészségfigyelő rendszerként működjenek.

A tudósok mesterséges intelligencia segítségével mutatják be, mitől boldog a házasság

A tudósok mesterséges intelligencia segítségével mutatják be, mitől boldog a házasság

Úgy tűnik, hogy a modern élet egyre negatívabb hatással van az emberi kapcsolatokra.

A Google mesterséges intelligenciája gyorsabban és jobban tud chipeket tervezni, mint az emberek

A Google mesterséges intelligenciája gyorsabban és jobban tud chipeket tervezni, mint az emberek

Az élgráfokon alapuló összetett neurális hálózati architektúra segítségével a Google Brain mesterséges intelligencia modellje az emberi időnek csupán töredéke alatt képes alaprajzokat megtervezni.

A legjobb Python-eszközök a gépi tanuláshoz és az adattudományhoz

A legjobb Python-eszközök a gépi tanuláshoz és az adattudományhoz

A Python számos nagy könyvtárral és keretrendszerrel rendelkezik, amelyek kényelmesek a kódíráshoz és a számítástechnika fejlesztéséhez. A Docs.NeoTechSystems felkéri Önt, hogy beszéljen néhány hasznos Python-eszközről mind a gépi tanulási, mind az adattudományi alkalmazásokhoz.