Az OpenAI kedden elkezdte az új Advanced Voice Mode alfa verziójának bevezetését egy szűk csoport ChatGPT Plus előfizető számára. Ez a funkció, amelyet az OpenAI májusban mutatott be a GPT-4o indításakor, arra törekszik, hogy a mesterséges intelligenciával való beszélgetések természetesebbek és reagálóbbak legyenek.
A májusi bemutató során a funkció kritikát váltott ki a szimulált érzelmi kifejezésmódja miatt, és nyilvános vitát generált Scarlett Johansson színésznővel, aki azzal vádolta az OpenAI-t, hogy lemásolta a hangját. Ennek ellenére a felhasználók által megosztott korai tesztek a közösségi médiában túlnyomórészt lelkesek voltak.
A valósidejű beszélgetések élménye
A felhasználók által riportált korai tesztek szerint az Advanced Voice Mode lehetővé teszi, hogy a felhasználók valós időben beszélgessenek a ChatGPT-vel, beleértve a lehetőséget arra, hogy az AI-t szinte azonnal félbeszakítsák. Az AI képes érzékelni és reagálni a felhasználók érzelmi jeleire a hang tónusa és kifejezése alapján, valamint hanghatásokat biztosítani a történetek mesélése közben.
De ami sokakat meglepett, az a hangok lélegzési szüneteinek szimulálása volt. „A ChatGPT Advanced Voice Mode gyorsan számolja 10-ig, majd 50-ig (ez teljesen lenyűgözött – lélegzetet vett, mint egy ember),” írta Cristiano Giardina tech író az X-en.
Hogyan működik?
Az Advanced Voice Mode szimulálja a hallható lélegzés közbeni szüneteket, mivel az emberi beszéd hangmintáira tanították, amelyek tartalmazták ezt a jellemzőt. A modell megtanulta, hogy látszólag megfelelő időpontokban szimulálja a belégzéseket, miután több százezer, ha nem millió emberi beszéd példáját látta.
Giardina megosztotta más benyomásait is az Advanced Voice Mode-ról az X-en, beleértve az akcentusokra vonatkozó megfigyeléseket és a hanghatásokat. „Nagyon gyors, gyakorlatilag nincs késleltetés azután, hogy abbahagyod a beszédet, és amikor kérdezel tőle hangokat, mindig a hang „előadja” a zajokat (vicces eredményekkel). Képes akcentusokat csinálni, de amikor más nyelveken beszél, mindig amerikai akcentusa van.”
Biztonság és elérhetőség
Az OpenAI szóvivője elmondta, hogy a cég több mint 100 külső tesztelővel dolgozott együtt az Advanced Voice Mode kiadásán, akik 45 különböző nyelvet beszéltek és 29 földrajzi területet képviseltek. A rendszer állítólag megakadályozza az egyének vagy közszereplők utánzását azzal, hogy blokkolja az OpenAI négy kiválasztott előre beállított hangjától eltérő kimeneteket.
Az OpenAI szűrőket is hozzáadott, hogy észlelje és blokkolja a zene vagy más szerzői joggal védett audio generálására irányuló kéréseket. A tervek szerint az OpenAI a következő hetekben bővíti a hozzáférést több ChatGPT Plus felhasználóra, a teljes indítást pedig várhatóan ősszel tervezik.
Érdekesség: Az AI technológiák fejlesztése során az OpenAI által használt modellek képesek több ezer órányi emberi beszéd elemzésére, hogy megtanulják a természetes beszédmintákat!
Források: Ars Technica, X, OpenAI