Lenyűgöző hanghatásokkal robban be a ChatGPT Fejlett Hangmódja – A tesztelők teljesen elájulnak!

Az OpenAI kedden elkezdte az új Advanced Voice Mode alfa verziójának bevezetését egy szűk csoport ChatGPT Plus előfizető számára. Ez a funkció, amelyet az OpenAI májusban mutatott be a GPT-4o indításakor, arra törekszik, hogy a mesterséges intelligenciával való beszélgetések természetesebbek és reagálóbbak legyenek.

A májusi bemutató során a funkció kritikát váltott ki a szimulált érzelmi kifejezésmódja miatt, és nyilvános vitát generált Scarlett Johansson színésznővel, aki azzal vádolta az OpenAI-t, hogy lemásolta a hangját. Ennek ellenére a felhasználók által megosztott korai tesztek a közösségi médiában túlnyomórészt lelkesek voltak.

A valósidejű beszélgetések élménye

A felhasználók által riportált korai tesztek szerint az Advanced Voice Mode lehetővé teszi, hogy a felhasználók valós időben beszélgessenek a ChatGPT-vel, beleértve a lehetőséget arra, hogy az AI-t szinte azonnal félbeszakítsák. Az AI képes érzékelni és reagálni a felhasználók érzelmi jeleire a hang tónusa és kifejezése alapján, valamint hanghatásokat biztosítani a történetek mesélése közben.

De ami sokakat meglepett, az a hangok lélegzési szüneteinek szimulálása volt. „A ChatGPT Advanced Voice Mode gyorsan számolja 10-ig, majd 50-ig (ez teljesen lenyűgözött – lélegzetet vett, mint egy ember),” írta Cristiano Giardina tech író az X-en.

Hogyan működik?

Az Advanced Voice Mode szimulálja a hallható lélegzés közbeni szüneteket, mivel az emberi beszéd hangmintáira tanították, amelyek tartalmazták ezt a jellemzőt. A modell megtanulta, hogy látszólag megfelelő időpontokban szimulálja a belégzéseket, miután több százezer, ha nem millió emberi beszéd példáját látta.

Giardina megosztotta más benyomásait is az Advanced Voice Mode-ról az X-en, beleértve az akcentusokra vonatkozó megfigyeléseket és a hanghatásokat. „Nagyon gyors, gyakorlatilag nincs késleltetés azután, hogy abbahagyod a beszédet, és amikor kérdezel tőle hangokat, mindig a hang „előadja” a zajokat (vicces eredményekkel). Képes akcentusokat csinálni, de amikor más nyelveken beszél, mindig amerikai akcentusa van.”

Biztonság és elérhetőség

Az OpenAI szóvivője elmondta, hogy a cég több mint 100 külső tesztelővel dolgozott együtt az Advanced Voice Mode kiadásán, akik 45 különböző nyelvet beszéltek és 29 földrajzi területet képviseltek. A rendszer állítólag megakadályozza az egyének vagy közszereplők utánzását azzal, hogy blokkolja az OpenAI négy kiválasztott előre beállított hangjától eltérő kimeneteket.

Az OpenAI szűrőket is hozzáadott, hogy észlelje és blokkolja a zene vagy más szerzői joggal védett audio generálására irányuló kéréseket. A tervek szerint az OpenAI a következő hetekben bővíti a hozzáférést több ChatGPT Plus felhasználóra, a teljes indítást pedig várhatóan ősszel tervezik.

Érdekesség: Az AI technológiák fejlesztése során az OpenAI által használt modellek képesek több ezer órányi emberi beszéd elemzésére, hogy megtanulják a természetes beszédmintákat!

Források: Ars Technica, X, OpenAI