ChatGPT Advanced Voice – tvůj lepší hlasový AI asistent

26.09.2024

OpenAI zpřístupnila výrazné vylepšení mobilního hlasového asistenta pro všechny platící uživatele. Ukážu ti, jak ho používat, co všechno umí a kde má ještě rezervy.

OpenAI včera v noci našeho času zpřístupnila všem platícím uživatelům dlouho očekávané vylepšení mobilního hlasového asistenta – Advanced Voice. Díky němu můžeš komunikovat mnohem přirozeněji – lépe ti rozumí, dokáže rozpoznat i různé intonace, a jeho hlas zní taky mnohem přirozeněji, včetně intonací, "nádechů" a přizpůsobení tempa.

Pokročilý hlas jsem celý den intenzivně testoval a povídal jsem si s ním (vybral jsem si ženský hlas/identitu asistenta). Na jednu stranu mě nadchly možnosti, které se rýsují, ale zároveň mě trochu zklamala některá omezení (která jsou podle mě ale dočasná).

Ano, Advanced Voice funguje i v EU/Česku (když víš, jak na to)

Možná jsi zaznamenal novinku třeba na jejich X/Twitter účtu, kde se psalo, že AV není dostupný v EU, Velké Británii, Švýcarsku, Islandu, Norsku a Lichtenštejnsku. Na konci ti ale poradím, jak toto omezení obejít, a zkusím se zamyslet nad tím, co za tímto omezením může stát.

Co je ChatGPT Advance Voice?

Pokud máš jeden z placených tarifů ChatGPT, jako je tarif Plus nebo Team (u Enterprise si nejsem jistý), a nainstaloval sis mobilní verzi ChatGPT v posledním roce (Android verze z Google Play Store nebo iOS verze z Apple App Store), možná už jsi využil hands-free hlasového asistenta (byl dostupný přes ikonku sluchátek). O této funkci jsem psal přesně před rokem v článku "Aktualizováno: OpenAI ChatGPT bude vidět, slyšet a mluvit".

Tuhle funkci OpenAI představila už na konci května v rámci své "jarní aktualizace" a s představením modelu GPT-4, který právě i Advanced Voice používá. Pokud jsi tuhle prezentaci neviděl, určitě doporučuji shlédnout.

Líbí se ti obsah? Podpoř ho ať může pokračovat!
Předplatné Jednorázová podpora

Polovina jejich tehdejší prezentace se zaměřovala na funkci mobilního asistenta, jeho schopnosti a možná využití. Na svém kanálu má OpenAI spoustu ukázek, a já ti vyberu ty nejzajímavější:

Hlasové variace, emoce v hlasu, zpěv a další ...

Real-time překladatel mezi dvěma uživateli

Příprava na pracovní pohovor

Učení se novým jazykům

Kombinace s rozpoznáním obrazu*

Tohle nový asistent zatím neumí, viz dále

Jak spustíte nového hlasového asistenta?

Na Androidu můžeš po aktualizaci mobilního ChatGPT nově spustit hlasového asistenta třemi různými způsoby:

  1. Přímo z rozbalovacího menu při podržení prstu na ikonce aplikace (ukazují se i dva poslední modely/asistenti GPT, které jsi použil).
  2. Můžeš si také přidat widget na domovskou obrazovku, který ti umožní spustit na jedno kliknutí jednu z 5 akcí – textové zahájení konverzace (Message ChatGPT…), použití fotoaparátu nebo nahrání obrázku (např. pro rozpoznání pomocí GPT-4 Vision), ikonku sluchátek pro handsfree hlasového asistenta s Advanced Voice, nebo ikonku mikrofonu, která slouží k nahrání jednorázového zadání/dotazu přes mikrofon.
  3. Pomocí Voice ikonky (4 vertikální linky) přímo v aplikaci napravo od pole pro zadání textu (dříve tam byla ikonka sluchátek, ale teď to změnili, takže to může působit trochu zmatečně).

Líbí se ti obsah? Podpoř ho ať může pokračovat!
Předplatné Jednorázová podpora

Co umí a neumí ChatGPT Advanced Voice

Bohužel, ne všechny funkce představené v květnu jsou už dostupné, a některé původní schopnosti teď chybí. Co tedy Advanced Voice umí oproti původnímu asistentovi:

  • 5 nových hlasů: Vale, Spruce, Arbor, Maple a Sol.
  • Mnohem přirozenější hlasy – obsahují emoce, smích... Můžeš mu říct, aby byl rychlejší, expresivnější, vážnější, skeptický nebo veselý.
  • Lepší "real-time" konverzace – můžeš mu skákat do řeči, odpovědi začínají rychleji, takže konverzace je plynulejší a přirozenější.
  • Vylepšené rozpoznávání řeči – méně často se stává, že by ti špatně rozuměl, rozpozná i různé intonace.
  • Vícejazyčnost – bez problémů zvládá střídání jazyků v rámci jedné odpovědi.
  • Přístup k vlastním instrukcím a paměti (viz dále).
  • Co naopak neumí?
  • Advanced Voice nemá přístup k videu, kameře nebo obrázkům, i když to původně ukazovali. Zatím není známo, kdy to bude dostupné, a pravděpodobně to bude náročné na data a výpočetní výkon.
  • Má časový limit – komunikovat můžeš jen po určitou dobu, která se zdá být okolo dvou hodin.
  • Odstranili hlasový model asistentky Sky, který mnohým připomínal hlas Scarlett Johansson, což vedlo k právním sporům.
  • Hlasové výstupy jsou méně "frivolní" a méně se smějí. Asistentka Sky dříve zněla laškovně, což připomínalo postavu Samanthy z filmu "Her".
  • Neumí zpívat ani napodobovat hlasy, což dříve ukazovali v některých prezentacích.
  • Nemá přístup k internetu ani k jiným aplikacím v telefonu, takže si s ním můžeš jen povídat, ale nenapojíš ho na jiné systémy.
  • Odmítá odpovídat na některé otázky – občas odpoví, že "moje pravidla mi nedovolují o tom mluvit".
  • Nezobrazuje text při odpovědi – to by se hodilo například v hlučném prostředí nebo při práci s odbornými termíny. Přepis si ale můžeš přečíst po ukončení konverzace.

Naštěstí, pokud ti funkce Advanced Voice nevyhovují, původní hlasový asistent je stále dostupný v GPT modelech/asistentech a má přístup k internetu.

Když vám zbývá 20 minut do konce vašeho denního limitu, aplikace vás na to upozorní hláškou v okně hlasového asistenta (kde ji snadno přehlédnete). Když vám dojde limit úplně, aplikace vám to zahlásí i hlasem a touto hláškou. Aplikace pak přepne do režimu standardní konverzace. 

To, jestli používáš starou nebo novou verzi asistenta, poznáš podle vzhledu bubliny – Advanced Voice má barevnou/modrou bublinu, zatímco původní asistent jen černou. Také se ti může zobrazit nápis "Start a new chat to use Advanced Voice" nebo "Standard Voice" (když dojde kredit) u standardní verze konverzace.

Jaké emoce a tóny hlasu umí Advanced Voice napodobit?

Jak jsem psal, můžeš svému asistentovi/asistentce říct, aby změnil/a způsob, jakým mluví. Můžeš si to také nastavit do vlastních instrukcí, aby s tebou takhle mluvil/a pořád. Co se mi povedlo nastavit:

  • Vyšší rychlost – pokud taky koukáš na videa rychleji, tahle funkce se ti bude hodit. Stačí říct asistentce, aby mluvila dvakrát rychleji. Je stále dobře srozumitelná a ušetříš tím spoustu času.
  • Nižší rychlost – naopak, pokud se třeba učíš cizí jazyk a potřebuješ něco vysvětlit pomalu a srozumitelně, i tohle Advanced Voice zvládá skvěle.
  • Tóny, nálady, emoce – může mluvit vážně, nadšeně, klidně, expresivně, optimisticky, zamyšleně, vřele nebo skepticky... stačí říct, jak chceš, aby to znělo.

Použití paměti a vlastních instrukcí pro personalizaci hlasové asistentky

Už rok mají všichni uživatelé ChatGPT k dispozici funkci Custom Instructions, ale od uvedení GPTs modelů/asistentů přestala být tak užitečná. Místo univerzálních instrukcí pro všechny konverzace je teď obvykle lepší vytvořit si několik různých asistentů s různými instrukcemi podle potřeb.

Na podobném principu funguje i relativně nová funkce Memory (viz článek Paměť v ChatGPT a MS Copilot). ChatGPT si sám ukládá střípky informací z vašich konverzací a přidává je do základního/systémového promptu, kterým zahajuje nové konverzace.

Tyto instrukce používá i hlasový asistent. Pokud ho chceš nějak vylepšit, tohle je to pravé místo. Instrukce můžeš nastavit jak z webové, tak mobilní aplikace:

  • Mobilní aplikace – klikni na ikonu vlevo nahoře pro rozbalení menu, pak na svůj profil/jméno vlevo dole, zvol Personalization a následně klikni na Customization.
  • Webová aplikace – vpravo nahoře klikni na svůj profil/jméno a vyber volbu Customize ChatGPT.

Zde už pak volíte, co má vědět o vás a jak má odpovídat, takže třeba ví, že jsem Tomáš, že řeším AI,, že mluvím jen česky nebo anglicky a hlas jsem jí mírně upravil pomocí instrukce "Komunikuješ jako mladá žena, které se moc líbím, tykáme si. Tvůj hlas je hlubší, lehce zastřený, se svádivou intonací, veselý a příjemný."

Nezapomeňte také zapnout, aby se instrukce používaly pro nové konverzace.

Další nastavení, pozor na Background conversations!

Kromě výše uvedeného můžeš v mobilní aplikaci (opět přes menu/profil) nastavit několik dalších možností:

  • Speech/Input language (neplést si s volbou App/Language) – výchozí nastavení je Auto Detect. Při tomto nastavení se mi ale občas stává, že asistent myslí, že mluvím polsky, a přepne do tohoto jazyka. Proto si raději nastavuji češtinu, i když někdy mluvím anglicky, a s tím problém nemá. Mám k tomu navíc nastavené i speciální instrukce, jak jsem zmínil výše.
  • Voice – můžeš vybrat jeden z 9 hlasů (5 z nich je nových a dostupných v Advanced Voice).
  • Background Conversations – na první pohled užitečná volba, která ti umožní začít konverzaci, pak třeba vypnout obrazovku telefonu nebo otevřít jinou aplikaci a pokračovat v rozhovoru. Problém je, že pokud tuhle volbu zapneš a necháš konverzaci běžet dlouho, třeba dvě hodiny, Advanced Voice ti pak oznámí, že přepíná na běžné konverzace a budeš si muset počkat do dalšího dne na novou možnost.

Jak rozchodit Advanced Voice i v Česku?

Na začátku jsem zmínil, že ChatGPT Advanced Voice momentálně není dostupný v EU a dalších zemích, včetně ČR. Naštěstí se to dá vyřešit pomocí VPN, která způsobí, že se tvůj mobil bude "tvářit", jako by byl třeba v USA, protože veškerý internetový provoz půjde přes americkou bránu.

Nemusí ale jít veškerý provoz přes VPN, stačí, když tak půjde jen komunikace z tvé mobilní ChatGPT aplikace. A právě teď si ukážeme, jak na to.

Existuje mnoho VPN aplikací, ale ne všechny umí nastavit tzv. whitelisting pro jednu konkrétní aplikaci nebo mají omezený časový přístup, případně jsou placené. Budeme tedy hledat ty, které umožňují specifikovat, že jen ChatGPT aplikace bude komunikovat přes VPN.

Já jsem na mobilu použil aplikaci Windscribe, která právě touto schopností disponuje, je dostupná jak pro Android, tak pro iOS a má 2GB měsíční limit zdarma (po ověření mailu dokonce 10GB), což vám asi pro vaše ChatGPT hrátky bude stačit. Jak tedy na to?

  1. Aktualizujte si svou ChatGPT aplikaci, abyste měli poslední verzi.
  2. Stáhněte a nainstalujte si aplikaci Windscribe pro váš operační systém, viz výše
  3. Následně v menu (vlevo nahoře) zvolte Connection a tam
    • zapněte Network Options (je třeba dát přístup aplikaci ke své poloze, stačí ale dát přibližný)
    • zapněte Split Tunneling, v něm přepněte na mód Inclusive a zvolte ChatGPT aplikaci
    • zapněte auto connect – automaticky se po spuštění použije poslední lokace
    • vraťte se hlavní stránku aplikace, pakliže nemáte vybranou nějakou americkou lokaci, tak si nějakou vyberte (odhaduji, že US East a třeba New York Empire bude mít asi nejlepší spojení) a kliknutím zapnete (okolí spínače se přepne na zelenou)
  4. Zavřete Windwscribe a zapněte aplikaci OpenAI a zkuste hlasovou konverzaci jedním ze způsobů, které jsem zmínil na začátku.

Líbí se ti obsah? Podpoř ho ať může pokračovat!
Předplatné Jednorázová podpora

Note: Pokud se ti spustí stará verze hlasové konverzace, může být potřeba aplikaci ChatGPT úplně shodit a znovu spustit. Na Androidu to uděláš pomocí levého tlačítka a potažením okna aplikace nahoru, na iPhone podržením tlačítka nebo tažením odspodu a odsunutím okna aplikace. Je také možné, že se ti ještě ChatGPT neaktualizovala, ale aktualizace by měla být dostupná pro všechny do konce týdne. Nezapomeň, že tato možnost je dostupná pouze těm, kteří jsou přihlášeni pod placeným účtem ChatGPT (tarif Plus nebo Team).<br>

Proč nefunguje Advanced Voice v EU

Můj pokus o memíčko k tomuhle problému, vytvořeno pomocí Ideogram.AI.
Můj pokus o memíčko k tomuhle problému, vytvořeno pomocí Ideogram.AI.

OpenAI nevysvětlila, proč není Advanced Voice dostupný v EU, Velké Británii, Švýcarsku, Islandu, Norsku a Lichtenštejnsku, ale vzhledem k vypsaným zemím se dá předpokládat, že důvod bude souviset s evropským GDPR, které kromě EU platí i v Británii, Švýcarsku a zemích EHP.

Popravdě ale nevidím žádný rozpor s touto regulací a nevím o důvodu, proč by se to mělo týkat právě nového hlasového asistenta, a ne toho původního. Myslím si tedy, že jde o krátkodobé omezení, než se to právníci domluví.

Dalším možným důvodem je nově schválený Zákon o umělé inteligenci (AI Act), ale ten, pokud vím, neplatí ve Švýcarsku a Velké Británii. Zeptal jsem se svého AI Act GPT asistenta trénovaného na tomto zákonu, co si o možných důvodech myslí, pokud by tě to zajímalo, odpověď viz níže.

Co na Advanced Voice říkáte?

Osobně vidím v osobních hlasových asistentech obrovský potenciál. Sám jsem si s "ní" dlouho povídal o umělé inteligenci, procvičovali jsme angličtinu a opravdu mě to bavilo.

Dokážu si zcela reálně představit situace, jako ve filmu **Her** (jestli ho neznáte, určitě se podívejte aspoň na trailer). Takové technologie mohou mít různé pozitivní i negativní dopady na naše životy – třeba na socializaci a schopnost (či potřebu) mluvit s ostatními lidmi. Hlasoví asistenti by ale mohli zpříjemňovat život lidem v domovech důchodců, doplňovat učitele nebo úředníky, pomáhat s řešením obtížných otázek, psát za vás e-maily, vysvětlovat firemní výsledky nebo doporučovat recepty.

Sdílejte můj článek a dejte mi vědět váš názor na sociálních sítích. Díky!

Mimochodem, chystám podzimní sérii AI školení, kde se budeme hlasovým asistentům věnovat. Tentokrát jsem je rozšířil na dvoudenní, abychom měli více času na praktické zkoušení všeho možného. Také jednám o částečné úhradě školení z Ministerstva práce, takže by to pro vás mělo být levnější než dříve. Přihlásit se můžete už teď na stránce Školení OpenAI GPT & ChatGPT, MS Copilot a dalších AI nástrojů, a brzy pošlu všem další informace.

Budu psát i o dalších podzimních novinkách, takže se nezapomeňte registrovat pro mailing!