Vytvoření AI avatara znamená vytvoření digitální verze osoby, která vypadá a zní jako ona. Když výsledkem je někdo, kdo se originálu jen matně podobá, problémem je zřídka nástroj – je to pořadí kroků a kvalita referenčních dat. Proto je pracovní postup sestaven jako sekvenční řetězec: nejprve sestavíte list postavy, poté vytvoříte krátká videa typu „mluvící hlava“, přidáte doplňkové záběry B-roll a teprve potom výsledek škálujete do dlouhého obsahu pro YouTube.
V tomto přístupu záleží na obraze i na zvuku. AI avatar bez přesvědčivého hlasu rychle ztrácí důvěryhodnost a slabý soubor referenčních dat snižuje kvalitu následných videí. Hlavní princip je jednoduchý: nejprve se uzamkne vzhled, pak hlas, pak formát úprav a teprve potom škálování.
Čtyřkrokový pracovní postup má čtyři atomické kroky:
- generování realistických statických obrázků;
- tvorba krátkých videozáznamů typu "mluvící hlava";
- přidávání filmového B-roll pro reklamy a příběhy;
- přesun výsledku do dlouhometrážního obsahu na YouTube.
Pro tento přístup jsou nejběžnějšími nástroji Higgsfield, HeyGen a ElevenLabs. Higgsfield se používá pro obrázky, videa a klonování hlasu. HeyGen zpracovává dlouhé avatary. ElevenLabs je potřeba, když chcete vysoce kvalitní komentář a profesionální klon hlasu.
Krok 1. Karta postavy
![]()
Character Sheet je malá sada obrázků, která učí model, jak vypadá člověk. V tomto bloku AI Avatar získává svůj vizuální základ a Soul ID a Nano Banana řeší různé části jednoho pracovního postupu.
Nano Banana se používá pro generování realistických statických obrazů a pro generování listů postav. Praktický scénář je jednoduchý: nahrajete jednu dobře osvětlenou fotografii, napíšete výzvu s více úhly, celým tělem a neutrálním pozadím a získáte sadu obrázků, které již zachycují rozpoznatelné detaily obličeje a oblečení. Dobře to funguje, když potřebujete rychle sestavit úvodní list postavy uvnitř Higgsfield.
Soul ID je funkce pro uzamykání identity v Higgsfield. Funguje přesněji, když obdrží 15–20 fotografií v různých pózách, nastaveních osvětlení a oblečení. Zde je přímá souvislost: Soul ID potřebuje různorodá referenční data a tato různorodost zvyšuje přesnost umělé inteligence této osoby.
Pokud nemáte mnoho připravených fotografií, použijte přístup s balíčkem promptů. Nejprve napište 20 popisů póz – detailní záběr, boční pohled, celé tělo, mluvící, kráčející, sedící. Poté každou vygenerujte pomocí Nano Banana a vraťte je zpět do Soul ID jako tréninkový soubor. Character Sheet přestane být náhodnou sadou snímků a stane se řízenou bází pro stabilní identifikaci.
Jakmile je Soul ID zafixován, můžete měnit oblečení, osvětlení, pozadí a úhel kamery, aniž byste ztratili obličej. Na tom záleží, když potřebujete AI avatara, který vypadá jako stejná osoba v různých scénách, spíše než soubor podobně vypadajících postav.
Krok 2. Krátké rozhovory s tváří v tvář
Po statických snímcích přechází pracovní postup k videu. V této fázi se AI Avatar stává krátkým konverzačním videem pro Instagram, TikTok a YouTube Shorts.
Kling 3.0 slouží k proměně statických snímků ve video. Vstupuje počáteční snímek a pokyn s určením směru kamery, akce subjektu a prostředí. Toto je klíčová kombinace: nejprve nastavíte zdrojový snímek, pak popíšete pohyb a nakonec uzamknete scénu. Pokud jsou tyto tři prvky zapsány jasně, výsledek vypadá znatelně přirozeněji.
Pracovní schéma:
- vytvořte statický obrázek ve správném prostředí – u stolu, v posilovně, v kuchyni;
- nahraj snímek do Kling 3.0 jako počáteční snímek;
- Napište prompt, který odděleně uvádí směr kamery, akci subjektu a prostředí.
Příklad by mohl vypadat takto: Pevná kamera. Muž se dívá přímo do kamery a s ostrou přesvědčivostí říká: „Nyní můžete vytvářet profesionální webové stránky během několika minut.“ Obě ruce se na výrazu „profesionální“ zvednou ze stolu.Kamera, subjekt a akce jsou uvedeny samostatně, takže Kling 3.0 má snazší čas sestavit scénu bez další improvizace.
Délka by měla nejlépe odpovídat řádku. Pro krátkou frázi obvykle stačí asi šest sekund. Video však naráží na samostatný problém: hlas často neodpovídá původní osobě.
Existují dva způsoby, jak opravit zvuk:
- Higgsfield nabízí vestavěný hlasový měnič pro rychlou výměnu hlasu. Naklonujete si hlas zhruba dvouminutovým záznamem řeči a poté spustíte video přes měnič. Je to rychlá cesta s dobrým, ale ne dokonalým výsledkem.
- Profesionální klon hlasu je vytvořen v ElevenLabs. Využívá až 30 minut tréninkového audia, hlasový projev je pak generován odděleně a synchronizován zpět pomocí nástroje pro synchronizaci rtů v Higgsfield.
Odkaz zde je důležitý: klonování hlasu zlepšuje, jak přesně hlas AI avatara odpovídá původní osobě. Pokud tvář vypadá přesvědčivě, ale hlas zní cize, iluze se rozplyne. V pracovním procesu hlas často znamená víc než obraz.
Pro krátká videa s více úhly můžete vytvořit dva související statické obrázky – jeden zepředu a druhý mírně z boku. Poté je použijte jako počáteční a koncový snímek v Kling. Toto pořadí zajišťuje přirozenější přechod a odstraňuje pocit, že video bylo prostě slepeno z náhodných generací.
Krok 3. Filmové záběry B-roll
B-roll dělá krátká videa profesionálnějšími. Bez něj AI avatary často vypadají spíše jako statický koncept mluvící hlavy než jako hotová reklama nebo příběh.
Při produktových záběrech, zejména v reklamách, pracovní postup vypadá následovně:
- vezměte si tabulku postavy a referenční fotografii produktu;
- vytvoř scény, kde se AI Avatar setkává s produktem – drží ho, otevírá ho, ukazuje ho;
- animuj scénu v Kling pomocí struktury kamera + subjekt + akce + prostředí + osvětlení.
Pevná kamera. Předmět (muž) drží vak s horolezeckou křídou blízko objektivu, ukazuje ho kameře, dává malé palce nahoru. V pozadí horolezecká stěna, lezci na stěně. Přirozené horní osvětlení. Bez dialogu.
První tři bloky – kamera, subjekt, akce – jsou zde povinné. Zbytek pomůže, když výsledek působí příliš obecně. Není to trik pro efekt, ale způsob, jak modelu poskytnout přesnější vodítko pro scénu.
Pro příběhový filmový B-roll použijte dohromady Higgsfield Soul, Nano Banana 2 a Cinema Studio. Higgsfield Soul vytvoří základní statický obraz z referenčního obrázku se správnou pózou a stylem. Nano Banana 2 vylepší obraz při zachování tváře: můžete měnit oblečení, pozadí nebo rámování, aniž byste narušili identitu. Poté Cinema Studio animuje scénu a Multishot Manual vám umožní popsat až tři po sobě jdoucí scény v rámci jednoho 10sekundového klipu.
Takhle vytvoříte záběry, kde někdo projde kolem okna, podívá se na telefon a zareaguje – vše v jednom souvislém záběru. Každý fragment se nastavuje samostatně, ale vykresluje se jako jeden klip. Je to obzvlášť užitečné, když potřebujete umělou inteligenci pro postavu víc filmovým formátem.
V této fázi je důležitá iterace. Generování pomocí umělé inteligence funguje statisticky: výsledek sotva trefí cíl napoprvé. Obvykle je třeba udělat 30–50 variací, porovnat je a nejlepší verzi sestavit ručně. Kvalita navazujících videí přímo závisí na kvalitě referencí.
Krok 4. Dlouhé avatary na YouTube
![]()
Pokud formát vyžaduje 5–20 minut, pracovní postup přechází do HeyGen. Zde HeyGen slouží pro dlouhé avatary a renderuje mluvící hlavu s realistickým pohybem rtů a kýváním hlavy.
Základní scénář:
- pořiďte snímek obrazovky osoby, nikoli video;
- nahraj to na HeyGen;
- připojit klon hlasu nebo nový dabing od ElevenLabs;
- vybrat Avatara 4 a krajinu na celou obrazovku;
- začni generování.
Výsledkem je AI Avatar, který vypadá jako dlouhý klip s mluvící hlavou, nikoli jako krátký testovací kousek. To je způsob, jak stejnou postavu škálovat do formátu YouTube bez neustálého přetáčení.
Existuje také flexibilnější možnost. Nejprve v Nano Banana změňte pozadí pomocí výzvy jako "umísti subjekt do akvária, odpovídajícím způsobem uprav osvětlení," poté animujte nový obrázek v HeyGen. Tímto způsobem můžete měnit lokace bez nutnosti opakovaného natáčení.
Nejpružnější metoda je plná kontrola nad pozadím:
- v Nano Banana nahraďte pozadí jasně zelenou a přední část nechte beze změny;
- V HeyGen vytvořte renderovanou mluvící verzi sebe sama na čistém zeleném pozadí.
- V aplikaci CapCut použijte automatické odstranění pozadí a vložte za sebe jakékoli video.
Tato objednávka vám umožní být v kavárně, na stadionu, v akváriu nebo dokonce ve vesmíru, aniž byste opustili své místo. Nejde o samotný efekt – jde o to, že AI Avatar zůstává stejnou osobou, zatímco se okolí mění tak, aby odpovídalo úkolu.
Na co si pamatovat
Referenční data ovlivňují výsledek v řetězci. Slabý Character Sheet vytváří slabá videa a slabá videa stahují dlouhé avatary. Krok 1 nelze přeskočit ani udělat napůl.
Hlas je stejně kritický. Dokonce i dobře navržený AI avatar ztrácí důvěru, pokud hlas zní roboticky. Pokud je úkol vážný, profesionální klon hlasu v ElevenLabs poskytuje silnější základ pro dabing.
Smyslem pracovního postupu je, aby se počáteční nastavení provedlo jednou a poté systém začne fungovat jako produkční průvodce. Nepotřebujete studio, mikrofon ani kameramana u každého nového klipu. Potřebujete pořádek, přesné pokyny, kvalitní referenční data a ochotu opakovat.
Pokud potřebujete přesnou sadu promptů pro Charakterový list, více úhlů, Kling strukturu a Cinema Studio multishot, obvykle se nacházejí v samostatné sekci zdrojů. Základní princip ale zůstává stejný: nejprve uzamkněte tvář a hlas, pak vytvořte videa a teprve potom škálujte AI avatary do stabilního obsahu.






