Dühös vagy 80%-ban és szomorú 2%-ban? Miért problémás az ‘érzelmi AI’?


Érzelmi Intelligenciával Rendelkező Hangalapú AI: A Jövő Kommunikációja?

Szerda este van, és a konyhaasztalomnál ülve dühösen meredek a laptopomra, miközben minden keserűséget beleadok három kis szóba: „Szeretlek.”

A szomszédaim talán azt feltételezik, hogy egy melodramatikus hívást folytatok az ex-partneremmel, vagy valamilyen színészi gyakorlatot végzek. Valójában egy új demót tesztelek a Hume nevű manhattani startupból, amely azt állítja, hogy kifejlesztette a „világ első érzelmi intelligenciával rendelkező hangalapú mesterséges intelligenciáját”.

„Egy nagy nyelvi modellt képezünk, amely a hangszínedet is megérti,” mondja a Hume vezérigazgatója és vezető tudósa, Alan Cowen. „Ez lehetővé teszi számunkra, hogy megjósoljuk, hogyan váltanak ki egy adott beszéd vagy mondat érzelmi mintákat.” Más szóval, a Hume azt állítja, hogy felismeri az érzelmeket a hangunkban (és egy másik, nem nyilvános változatban az arckifejezéseinkben is), és empatikusan válaszol.

Az Open AI májusban bevezetett új, érzelmesebb GPT-4o-ja által ösztönözve az úgynevezett érzelmi AI egyre nagyobb üzlet. A Hume márciusban 50 millió dollárt gyűjtött a második finanszírozási körében, és az iparág értéke idén várhatóan meghaladja az 50 milliárd dollárt.

De Andrew McStay professzor, a Bangor Egyetem Érzelmi AI Laborjának igazgatója szerint az ilyen előrejelzések értelmetlenek. „Az érzelem az emberi élet annyira alapvető dimenziója, hogy ha meg tudnánk érteni, mérni és természetes módon reagálni rá, annak hatásai messze meghaladhatnák az 50 milliárd dollárt,” mondja.

Az alkalmazások lehetőségei a jobb videojátékoktól és a kevésbé frusztráló ügyfélszolgálatoktól az Orwelli szintű megfigyelésig és tömeges érzelmi manipulációig terjednek. De vajon valóban lehetséges-e, hogy az AI pontosan olvassa az érzelmeinket, és ha ezen technológia valamilyen formája elkerülhetetlenül úton van, hogyan kellene kezelnünk?

„Nagyra értékelem kedves szavaidat, itt vagyok, hogy támogassalak,” válaszolja a Hume Empatikus Hang Interfésze (EVI) barátságos, szinte emberi hangon, miközben a szerelmi vallomásom leírva és elemezve jelenik meg a képernyőn: 1 (az 1-ből) a „szeretetért”, 0.642 az „imádatért” és 0.601 a „romantika” értékért.

Bár az, hogy nem észlelt semmilyen negatív érzést, lehet a rossz színészi teljesítményem hibája, úgy érzem, nagyobb súlyt fektetnek a szavaimra, mint a hangszínemre. Amikor ezt elmondom Cowennek, azt mondja, hogy a modell számára nehéz megérteni azokat a helyzeteket, amelyeket még nem tapasztalt. „Megérti a hangszínedet,” mondja. „De nem hiszem, hogy valaha is hallotta volna valakit, aki ilyen hangnemben mondja, hogy ‘szeretlek’.”

Talán nem, de nem kellene egy valóban empatikus AI-nak felismernie, hogy az emberek ritkán viselik a szívüket a torkukon? Ahogy Robert De Niro, az emberi érzelmek ábrázolásának mestere egyszer megjegyezte: „Az emberek nem próbálják megmutatni az érzéseiket, inkább elrejtik őket.”

Idén korábban Matt Coler docens és csapata a Groningeni Egyetem beszédtechnológiai laborjában amerikai szitkomok, köztük a Jóbarátok és az Agymenők adatait használta fel egy AI kifejlesztésére, amely felismeri a szarkazmust. Ez hasznosnak tűnhet, gondolhatnánk, és Coler szerint tényleg az.

„Amikor azt nézzük, hogy a gépek egyre inkább áthatják az emberi életet, kötelességünk biztosítani, hogy ezek a gépek valóban hasznos módon segítsenek az embereknek,” mondja Coler. Coler és kollégái remélik, hogy munkájuk a szarkazmussal előrelépést hoz más nyelvi eszközök, például az irónia, a túlzás és az udvariasság terén, lehetővé téve a természetesebb és hozzáférhetőbb ember-gép interakciókat, és lenyűgöző kezdést értek el. A modell 75%-ban pontosan észleli a szarkazmust, de a fennmaradó 25% kérdéseket vet fel, például: mennyi szabadságot kellene adnunk a gépeknek a szándékaink és érzéseink értelmezéséhez; és milyen mértékű pontosságot igényelne ez a szabadság?

Az érzelmi AI alapvető problémája, hogy nem tudjuk határozottan megmondani, mik az érzelmek. „Tegyél össze egy szobányi pszichológust, és alapvető nézeteltérések lesznek,” mondja McStay. „Nincs alapvető, elfogadott definíciója annak, hogy mi az érzelem.”

Egy érdekesség: A Hume által használt technológia egy része az OpenAI GPT-4o modelljén alapul, amely az érzelmek felismerésében és megértésében is jelentős előrelépést hozott.

Forrás: OpenAI, Hume, Bangor Egyetem