Az OpenAI bemutatja a GPT-4o mini-t: Újabb mérföldkő az AI fejlesztésben
Csütörtökön az OpenAI bejelentette a GPT-4o mini elindítását, amely a legújabb GPT-4o AI nyelvi modell kisebb verziója, és a ChatGPT-ben a GPT-3.5 Turbo-t fogja felváltani. A CNBC és a Bloomberg jelentése szerint az új modell ma már elérhető az ingyenes felhasználók és a ChatGPT Plus vagy Team előfizetők számára, és jövő héten érkezik a ChatGPT Enterprise-hoz.
A GPT-4o mini állítólag multimodális lesz, mint nagytestvére, amely májusban jelent meg, és jelenleg képbevitel is engedélyezett az API-ban. Az OpenAI szerint a jövőben a GPT-4o mini képes lesz képeket, szöveget és hangot értelmezni, valamint képeket generálni.
A GPT-4o mini 128K token bemeneti kontextust támogat, és tudásának határideje 2023 októbere. API termékként rendkívül olcsó, 60%-kal kevesebbe kerül, mint a GPT-3.5 Turbo, mindössze 15 cent millió bemeneti tokenenként és 60 cent millió kimeneti tokenenként. A tokenek olyan adatdarabok, amelyeket az AI nyelvi modellek az információ feldolgozására használnak.
Különösen figyelemre méltó, hogy az OpenAI szerint a GPT-4o mini lesz az első AI modelljük, amely egy új technikát használ, az úgynevezett „utasítási hierarchiát”. Ez lehetővé teszi, hogy az AI modell bizonyos utasításokat előnyben részesítsen másokkal szemben, ami megnehezítheti az emberek számára, hogy prompt injekciós támadásokat vagy jailbreak-eket hajtsanak végre, vagy a rendszerszintű promptok finomhangolását vagy irányelveit kijátszák.
Amint a modell a nyilvánosság kezébe kerül (a GPT-4o mini jelenleg nem érhető el a mi ChatGPT példányunkban), biztosan látni fogjuk, hogy az emberek próbára teszik ezt az új védelmi módszert.
Teljesítmény
Az OpenAI szerint a GPT-4o mini jól teljesít számos benchmarkon, mint például a MMLU (egyetemi szintű tudás) és a HumanEval (kódolás), de a probléma az, hogy ezek a benchmarkok valójában nem sokat jelentenek, és kevés olyan dolgot mérnek, ami valóban hasznos a modell gyakorlati használatában. Ez azért van, mert a modell kimenetének minősége gyakran inkább a stíluson és a szerkezeten múlik, mint a nyers ténybeli vagy matematikai képességeken. Ez a fajta szubjektív „vibemarkolás” az egyik legbosszantóbb dolog jelenleg az AI területén.
Az OpenAI azt állítja, hogy az új modell felülmúlta a tavalyi GPT-4 Turbo-t a LMSYS Chatbot Arena ranglistán, amely a felhasználói értékeléseket méri, miután véletlenszerűen összehasonlították a modellt egy másikkal. De még ez a metrika sem olyan hasznos, mint remélték az AI közösségben, mert az emberek észrevették, hogy bár a mini nagytestvére (GPT-4o) rendszeresen felülmúlja a GPT-4 Turbo-t a Chatbot Arenában, általában sokkal kevésbé hasznos kimeneteket produkál (például hosszadalmasabb, vagy olyan feladatokat végez, amit nem kértek tőle).
A kisebb nyelvi modellek értéke
Az OpenAI nem az első cég, amely kisebb verziót bocsát ki egy meglévő nyelvi modellből. Az AI iparágban ez általános gyakorlat olyan eladóktól, mint a Meta, a Google és az Anthropic. Ezeket a kisebb nyelvi modelleket egyszerűbb feladatok elvégzésére tervezték alacsonyabb költségek mellett, például listák készítésére, összefoglalók készítésére, vagy szavak javasolására, ahelyett, hogy mélyebb elemzéseket végeznének.
A kisebb modelleket általában API felhasználóknak szánják, akik fix árat fizetnek token bemenetenként és kimenetenként, hogy a modelleket saját alkalmazásaikban használják, de ebben az esetben a GPT-4o mini ingyenes felajánlása a ChatGPT részeként látszólag pénzt takarítana meg az OpenAI számára is.
Az OpenAI API termékigazgatója, Olivier Godement a Bloombergnek elmondta: „Küldetésünk az élvonalbeli technológia lehetővé tétele, a legnagyobb teljesítményű, leghasznosabb alkalmazások építése. Természetesen továbbra is szeretnénk folytatni a határmodellek fejlesztését és a lehetőségek kitolását. De azt is szeretnénk, hogy a legjobb kis modellekkel rendelkezzünk.”
A kisebb nagy nyelvi modellek (LLM-ek) általában kevesebb paraméterrel rendelkeznek, mint a nagyobb modellek. A paraméterek numerikus értéktárolók egy neurális hálózatban, amelyek tárolják a tanult információkat. Kevesebb paraméter azt jelenti, hogy egy LLM kisebb neurális hálózattal rendelkezik, ami jellemzően korlátozza az AI modell képességét a kontextus értelmezésére. A nagyobb paraméterekkel rendelkező modellek jellemzően „mélyebb gondolkodók” a numerikus paraméterekben tárolt koncepciók közötti nagyobb kapcsolatok miatt.
Azonban a dolgok bonyolítása érdekében nincs mindig közvetlen összefüggés a paraméter mérete és a képesség között. A képzési adatok minősége, a modell architektúrájának hatékonysága és maga a képzési folyamat is befolyásolja a modell teljesítményét, ahogy azt a Microsoft nemrégiben bemutatott, kisebb, de mégis nagyon képes modellje, a Phi-3 is bizonyította.
Kevesebb paraméter kevesebb számítást igényel a modell futtatásához, ami azt jelenti, hogy kevésbé erős (és kevésbé drága) GPU-kra van szükség, vagy kevesebb számítást igényel a meglévő hardveren, ami olcsóbb energia számlákat és alacsonyabb végfelhasználói költséget eredményez.
Érdekes tény: Az AI nyelvi modellek, mint a GPT-4o mini, több milliárd paramétert használnak, miközben az emberi agy körülbelül 86 milliárd neuront tartalmaz, ami az egyik oka annak, hogy az AI még mindig messze van az emberi szintű intelligenciától! Források: CNBC, Bloomberg