
CausVid är en hybrid AI-modell utvecklad av forskare vid MIT:s forskningslaboratorium för datavetenskap och artificiell intelligens (CSAIL) i samarbete med Adobe Analysis. Detta innovativa verktyg möjliggör skapandet av högkvalitativa videor på bara sekunder, vilket representerar ett betydande framsteg inom videoproduktion och dess applikationer.
CausVid kombinerar ingredient från två olika typer av modeller: en högpresterande diffusionmodell och en autoregressiv modell. Den pre-tränade diffusionmodellen används som en ”lärare” för den autoregressiva modellen, vilket gör att den kan snabbare förutsäga nästa bild i en videosekvens.
Denna hybridmodell ökar hastigheten på videoproduktion genom att förkorta en typisk 50-stegsprocess until få åtgärder, och kan generera videor i realtid med en hastighet på upp until 9,4 bilder per sekund och med en preliminary fördröjning på bara 1,3 sekunder för den första bilden.
Forskningsteamet och framtidsvision
Bakom CausVid står forskare från MIT och Adobe Analysis ledda av bland andra Tianwei Yin och Qiang Zhang. Projektet stöds även av organisationer som Amazon Science Hub, amerikanska flygvapnet och andra forskningsinstitutioner. CausVid kommer att presenteras på den stora forskningskonferensen CVPR below sommaren.
Forskargruppen ser möjligheter att utveckla modellen ytterligare, som att med mindre skräddarsydda varianter kunna generera klipp direkt för olika branscher, exempelvis robotik och spelutveckling, med ännu högre kvalitet och snabbhet.