Videoavatars er nu tæt på perfekte!

Jeg har efterhånden lavet flere versioner af mig selv som videoavatar, så hvorfor er det relevant at blive ved? Svaret er simpelt - fordi kvaliteten af avatars udvikler sig nærmest eksplosivt. Med halve års mellemrum kommer de tættere og tættere på virkeligheden, stemmerne og mimikken bliver bedre og det bliver lettere og lettere at lave dem.

For halvandet år siden krævede det et relativt profesionelt studie med green-screen-baggrund, lys og mikrofoner og selvom det i sig selv var imponerende at kunne lave noget, der lignede et rigtigt menneske, så var der ingen tvivl om, at det var kunstigt og lidt kluntet.

Siden kom muligheden for at optage med sit webcam og en hvilken som helst baggrund, og i dag er kvaliteten så høj, at jeg næsten vil påstå at det er svært at skelne en videoavatar fra mennesket, der efterlignes.

De to førende firmaer på området er HeyGen og Synthesia - de tilbyder grundlæggende det samme, men som du vil kunne se i testen herunder er der alligevel én af dem der har en overhånd i kvaliteten. Mere om det senere, for hvad kan de overhovedet bruges til?

Vi har faktisk ikke set meget til dem endnu, men jeg er overbevist om, at det kun er et spørgsmål om tid, for potentialet er enormt.

Helt grundlæggende har en video avatar den funktion, at når den én gang er lavet, fortæller den seeren/lytteren dét du indsætter i en tekstprompt. Dvs. modsat almindelig videoproduktion, hvor du hver gang skal optage, hvad der skal kommunikeres - og formentlig tage optagelserne om igen og igen for at ramme perfekt, ja, så kræver avataren, når først den er lavet, kun et tekstinput - og du kan vælge hvilket sprog den skal tale på. I de nyeste versioner kan seeren faktisk selv vælge hvilket sprog der skal tales.

Det giver uanede muligheder inden for eksempelvis trænings- og undervisningsvideoer og det vil kunne generere undervisnings- og præsentationsmateriale, som er langt mere indlevende og interesseskabende. På sigt vil det også blive interaktivt, så tilskuerne kan stille spørgsmål som avataren besvarer, eksempelvis med udgangspunkt i ChatGPT.

Man kunne også forestille sig avatars der bliver brugt til marketing- og SoMe indhold, onboarding af nye medarbejdere, intranetkommunikation eller kundeinteraktion. Vi har alle sammen oplevet chatbots på internetsider, hvor man får tekstuelle svar i en chat, men med avatars vil hjælpen være langt mere nærværende og realistisk og give modtageren oplevelsen af at tale med en virkelig kundeservicemedarbejder.

Så hvor god er kvaliteten og hvilken service er pt. bedst?

I eksemplet herunder har jeg lavet en identisk avatar hos både HeyGen og Synthesia. Den er lavet med baggrund i det samme videomateriale og med det samme tekstinput. De to udbydere har gennem de sidste 2 år på skift haft førertrøjen i kvalitet og funktion. Til venstre ser du versionen fra HeyGen og til højre fra Synthesia.

Hvad synes du selv er bedst?

Efter min vurdering er der ikke så meget tvivl om, at avataren fra HeyGen i øjeblikket er mest realistisk. Lipsync som det hedder, altså avatarens evne til at synkronisere mundbevægelser med det talte ord, er tæt på perfekt. Samtidig har HeyGen den fordel, at de tilbyder integration med Elevenlabs, som er den førende udbyder af AI-generede stemmer. Dvs. at du kan skabe en meget virkelighedstro kopi af din stemme hos Elevenlabs og så importere den til avataren hos HeyGen.

De der kender mig, vil kunne høre at avataren til venstre har en meget realistisk stemme, der lyder som mig. Avataren fra Synthesia (til højre) har en anden klang og intonation og deres videoalgoritme er måske lidt for venlig med at udjævne rynker (men tak 😄) Til gengæld har Synthesia en "edge" på naturlige bevægelser. Begge avatars er såkaldte "expressive avatars", men HeyGen-versionen er en anelse mere stiv i betrækket, hvor den fra Synthesia giver den lidt mere gas med hænder og hovedbevægelser.

Uanset at HeyGen i øjeblikket synes at være den mest virkelighedstro version, så er kvaliteten af dem begge meget imponerende og meget virkelighedstro. De næste versioner vil have bevægelser og udseende som er stort set identisk med virkeligheden, og så vil vi givetvis se en voldsom udvikling i forhold til at kunne styre bevægelser, vinkler og følelser/udtryk der matcher det talte ord.

Hvad end du synes det er fascinerende eller skræmmende, kan du lige så godt vænne dig til at møde videoavatars både i arbejdssammenhæng og som privat forbruger.

Og har du eller din virksomhed brug for input til, hvordan I kan udnytte teknologien, så hop over på kontakt-siden og skriv en besked 😃