🤹 Twój awatar AI w 4 krokach

W 4 krokach tworzymy awatar, który powie, co zechcesz. Poza tym nowości ze świata AI, szybki sposób na edycję PDF i polecany komunikator zespołowy.

Cześć! 👋

Mam dzisiaj dla Ciebie mały powrót do przeszłości - a bardziej porównanie tego, co w kontekście AI zmieniło się na przestrzeni ostatnich dwóch lat, jeśli chodzi o generowanie głosu i wirtualnych awatarów.

Przejdziemy przez to praktycznie i w 4 krokach stworzymy wirtualny awatar, który powie co tylko chcesz.

Poza tym podrzucam garść ciekawych nowości ze świata AI, poradę na łatwe edytowanie plików PDF bez dodatkowych programów i polecaną aplikację do komunikowania się w zespole (i nie jest to Slack 😉).

Życzę miłej lektury ✌️

🔥 Temat wydania:
Twój awatar AI w 4 krokach

Dwa lata temu, gdy Sztuczna Inteligencja nieśmiało pukała do naszych drzwi, polskie Radio Piekary uruchomiło audycję prowadzoną przez wirtualnego prezentera. To był jeden z pierwszych takich eksperymentów na naszym podwórku.

Zainspirowany tym ruchem, w 13. wydaniu tego newslettera rozbiłem na kroki proces tworzenia takiej audycji – od wizerunku, przez scenariusz i głos, aż po wideo. Efekt, jak na tamte czasy, był ciekawy, ale wymagał nieco żonglowania narzędziami.

Dla nas te dwa lata to mrugnięcie okiem. W świecie AI – to cała wieczność. Zobaczmy więc, jak ten sam proces wygląda dzisiaj i – co ważniejsze – do czego Ty możesz go wykorzystać w swojej pracy.

🔄 Kiedyś vs. dziś

Dla przypomnienia (lub dla tych, którzy dołączyli tutaj później), tak wyglądał nasz zestaw narzędzi w 2023 roku:

Wtedy uzyskaliśmy taki efekt:

To był solidny pakiet i ciekawy rezultat, jak na tamte czasy. Dziś możemy to zrobić sprytniej i z lepszym efektem. Nasz zaktualizowany warsztat pracy:

  • Do tworzenia wizerunku wykorzystamy ChatGPT. Ale tylko dlatego, że chcę, żeby była to wirtualna postać. Możesz też nagrać wideo siebie (telefonem) i je wykorzystać - będzie nawet lepiej.

  • Do generowania skryptu również wykorzystamy ChatGPT i dodamy do niego opcję przeszukiwania Internetu, żeby w wypowiedzi odnosił się od razu do rzeczywistych wydarzeń.

  • Jeśli chodzi o głos, to z mojego doświadczenia wynika, że ElevenLabs wciąż jest królem, a jego nowe modele brzmią wręcz niewiarygodnie naturalnie.

  • I finalnie wideo wygenerujemy w usłudze HeyGen.

Najważniejszy element pozostaje bez zmian: Twoja kreatywność i krytyczne myślenie, by nadać całości sens.

👷‍♂️ Wirtualny prezenter w 4 krokach

Przejdźmy do praktyki. Oto gotowy przepis, który możesz skopiować.

Krok 1: Generujemy wizerunek prezentera (ChatGPT) 

Nie będziemy tutaj wymyślać koła na nowo. ChatGPT 4o potrafi generować świetne grafiki z prostych poleceń, takiego więc prostego polecenia użyjemy:

Wygeneruj obraz mężczyzny pracującego w radio. Zdjęcie powinno być fotorealistyczne, portretowe, ujęcie do pasa. W tle lekko rozmazane studio radiowe. Mężczyzna nie ma na sobie żadnych atrybutów radiowych, ale siedzi przed mikrofonem.

Jeśli zdecydujesz się stworzyć awatar z Tobą w roli głównej, nagraj telefonem krótkie, co najmniej dwuminutowe wideo, na którym patrzysz prosto w obiektyw i o czymś opowiadasz. Zadbaj o dobre oświetlenie twarzy i stabilny kadr.

Krok 2: Tworzymy scenariusz wypowiedzi (ChatGPT)

Do wygenerowania scenariusza audycji wykorzystamy poniższe polecenie. Zwróć uwagę na sugestie tonu wypowiedzi, których będziemy oczekiwać – przydadzą nam się one później do generowania głosu.

Jesteś prezenterem radiowym i prowadzisz audycję "Dzień dobry!". Opowiadasz na luzie o tym, jak mija dzień i co ciekawego wydarzyło się ostatnio na świecie, z dodatkowym naciskiem na Polskę. Rozpocznij wypowiedź od "Cześć i czołem!". W treści, w nawiasach kwadratowych, dodawaj sugestie dotyczące intonacji głosu, np. [z entuzjazmem] lub [z lekkim zamyśleniem]. Wygeneruj spójną wypowiedź, bez nagłówków i list, tak jakby brzmiała na antenie.

Ważna uwaga: Po wygenerowaniu tekstu, zawsze sprawdź, czy jego merytoryka i odniesienia do bieżących wydarzeń są poprawne. AI potrafi się mylić, więc traktuj to jako solidną bazę, ale do weryfikacji.

Krok 3: Generujemy głos w ElevenLabs 

Teraz wygenerujemy właściwą wypowiedź. Wykorzystamy do tego celu ElevenLabs, gdzie (co ważne) skorzystamy z wersji 3. modelu audio.

To najnowsza wersja modelu, która brzmi... no musisz tego posłuchać (zobacz tylko to wideo!). Już poprzednie wersje były dobre, ale ta czyni tak wygenerowane nagranie niemal nie do odróżnienia od rzeczywistej wypowiedzi.

W ElevenLabs możesz sklonować swój głos w wersji szybkiej, na małej próbce i w wersji profesjonalnej, na dłuższym nagraniu.

Skopiuj wygenerowany skrypt, zaloguj się do ElevenLabs i na stronie “Text to Speech” wybierz model Eleven v3. Jeśli masz sklonowany swój głos, możesz go tutaj wybrać. Jeśli nie, skorzystaj z innego dostępnego. Wklej skrypt i wygeneruj plik.

Krok 4: Tworzymy wideo w HeyGen

Ostatni przystanek. W HeyGen składamy nasz projekt.

  1. Zaloguj się (lub załóż konto) i przejdź do sekcji Avatar. Stwórz nowy awatar, używając grafiki z ChatGPT (opcja A) lub swojego nagrania wideo (opcja B). Przetworzenie wideo może zająć kilka minut.

  2. Gdy awatar jest gotowy, stwórz nowe wideo (Create Video).

  3. Wybierz swoją postać, a następnie załaduj plik audio z ElevenLabs, klikając na ikonę fali dźwiękowej (Audio Script).

  4. Ważne: Upewnij się, że opcja "Voice Mirroring" jest wyłączona, ponieważ używamy głosu z zewnętrznego narzędzia. HeyGen ma zsynchronizować ruch ust z gotowym audio.

  5. Kliknij Generate i poczekaj na gotowe wideo.

Oto efekt przygotowany z wygenerowanej grafiki:

Daj znać, co myślisz! Użycie własnego wizerunku i głosu dałoby jeszcze bardziej autentyczny rezultat.

💡 Garść pomysłów dla Ciebie

Podejrzewam, że raczej nie prowadzisz radia, więc możesz się zastanawiać, jak możesz to wykorzystać.

Taki wirtualny prezenter to narzędzie, które możesz wykorzystać do:

  • Tworzenia wideo na social media, gdy nie masz czasu nagrać ich całkowicie od podstaw.

  • Przygotowania materiałów wdrożeniowych i szkoleniowych dla nowych pracowników czy klientów.

  • Wzbogacania prezentacji/ofert, wysyłając krótkie wideo obok statycznego PDF-a.

  • Przygotowywania treści w innych językach, dzięki czemu będziesz brzmieć profesjonalnie i wejdziesz na nowe rynki.

Chcę jednak coś mocno podkreślić. Tam, gdzie liczy się głęboka relacja, autentyczność i zaufanie, nic nie zastąpi prawdziwej, ludzkiej interakcji. Traktuj to jako narzędzie do automatyzacji powtarzalnych komunikatów, a nie zastępstwo dla siebie. I bądź transparentny – informuj, że treść powstała z pomocą AI. To buduje zaufanie.

💬 Podsumowanie

Zarówno dwa lata temu, jak i teraz, stworzenie wirtualnego awatara, który wypowiada się według scenariusza, było na wyciągnięcie ręki. Ewolucja narzędzi AI sprawiła, że dzisiaj proces ten oferuje o wiele większą jakość.

Pamiętaj tylko, żeby traktować tę technologię jako rozszerzenie swoich możliwości, a nie całkowite zastąpienie siebie. Nikt dzisiaj nie chce oglądać sztucznie wygenerowanych ludzi, opowiadających sztucznie wygenerowane historie.

Z drugiej jednak strony, jeśli mądrze wykorzystasz te możliwości jako dźwignię i uzupełnienie swoich umiejętności, możesz osiągnąć świetne rezultaty.

📰 Warto wiedzieć:
Ciekawe nowości ze świata AI

W ostatnich dniach duzi gracze na rynku Sztucznej Inteligencji, wprowadzili do swoich usług nowe możliwości, o których warto wiedzieć:

  • OpenAI opublikowało nową wersję GPT, oznaczoną numerem 5. Co ją wyróżnia? Jest pierwszym najnowszym modelem od razu dostępnym dla wszystkich (nawet darmowych użytkowników).

    Mocno skupia się na umiejętnościach zdrowotnych, programowaniu i bardziej naturalnej rozmowie. Poza tym nie trzeba już wybierać, z którego modelu chcemy skorzystać. Wystarczy wybrać GPT-5, a on automatycznie dostosuje swoją moc. Dodatkowo tryb rozmowy głosowej dla użytkowników darmowych pozwoli na dłużą rozmowę, niż do tej pory.

    Co ciekawe, OpenAI współpracowało z twórcami aplikacji, udostępniając im wcześniej informacje na temat modelu i w efekcie w wielu z nich (np. Notion, Raycast AI, T3.chat, aplikacje do programowania) GPT-5 jest już dostępny.

  • Zarówno ChatGPT, jak i Google Gemini udostępniły tryb nauki, dzięki któremu czatbot nie daje użytkownikowi gotowych odpowiedzi na zadania, tylko wyjaśnia i zachęca do samodzielnego myślenia. Super krok w kierunku rozsądnego korzystania z SI.

  • W ChatGPT pojawił się tzw. agent, czyli opcja w której czatbot w wirtualnym oknie korzysta z Internetu i wykonuje zlecone przez Ciebie zadanie.

  • W NotebookLM obok podsumowań audio można już generować podsumowania wideo (póki co po angielsku). Otrzymasz wtedy wideoprezentację, w trakcie której lektor opowie o danym zagadnieniu, posiłkując się slajdami.

💡 Szybka porada:
Szybki sposób na edycję plików PDF

Chcesz poprawić literówkę w ofercie, zaktualizować datę w raporcie albo usunąć stronę z przesłanego dokumentu PDF? Zanim zaczniesz szukać specjalistycznego programu, sprawdź darmowy edytor PDF wbudowany w Canva.

Jak to działa? 
Po prostu przeciągnij i upuść plik PDF na stronę główną Canvy.

Narzędzie samo „przetłumaczy” go na edytowalny projekt. Będziesz mógł swobodnie edytować tekst, wstawiać grafiki, usuwać strony i zmieniać ich kolejność. Na koniec pobierasz gotowy plik z powrotem na dysk.

Proste, darmowe i skuteczne.

Dodatkowo
PDF to format stworzony do prezentacji, a nie do edycji i nie zawsze zawiera wszystkie potrzebne informacje na temat formatowania.

Dlatego po otwarciu pliku w Canvie zawsze sprawdź, czy czcionki i ułożenie elementów wyglądają poprawnie. Czasem trzeba je ręcznie poprawić, ale to i tak o wiele szybsze niż szukanie innego rozwiązania.

☕ Jeśli moje treści Ci się przydają, to możesz wesprzeć ten newsletter kubkiem gorącej kawy.

🧰 Polecana aplikacja: Pumble

Logo Pumble.

Pumble to komunikator dla zespołu będący alternatywą do Slacka, czy Microsoft Teams. Podstawowa różnica między nimi to cena, która nie powoduje, że łapiesz się za portfel.

Pumble oferuje bardzo bogaty plan darmowy, w którym znajdziesz:

  • Nielimitowaną historię wiadomości (Slack kasuje ją po 90 dniach),

  • Nielimitowaną liczbę użytkowników,

  • Kanały publiczne i prywatne,

  • Rozmowy wideo 1:1,

  • 10 GB miejsca na pliki dla całego zespołu.

A jeśli to przestanie Ci wystarczać, to płatna wersja z rozmowami grupowymi i większą przestrzenią na dane kosztuje obecnie ok. 2,50 euro za użytkownika.

💬 Moja ocena
Pumble to idealny wybór, jeśli startujesz z nowym projektem, budujesz społeczność lub prowadzisz małą firmę i chcesz mieć profesjonalne narzędzie bez ponoszenia kosztów. To rozwiązanie, które wspiera pracę, a nie obciąża budżetu.

Jeśli jednak znasz już bardzo dobrze Slacka i cena lub ograniczenia darmowego pakietu nie mają aż takiego znaczenia - to Slack może być lepszym wyborem.

Jak oceniasz to wydanie?

Klikając w opcję poniżej, pomagasz mi w pracy nad kolejnymi wydaniami. Z góry dziękuję!

Login or Subscribe to participate in polls.

⭐ Bonusy dla subskrybentów

Nie wiesz, jak zalogować się, żeby zobaczyć bonusy? Zobacz instrukcję.

Na dzisiaj to wszystko.

Pamiętaj, że jeśli masz pytania lub chcesz podzielić się ze mną swoim feedbackiem na temat tego newslettera, to wystarczy kliknąć odpowiedz - zawsze czekam po drugiej stronie skrzynki na wiadomość od Ciebie 🙂

Życzę Ci dobrego dnia i do zobaczenia w kolejnym wydaniu!

Reply

or to participate.