Az Apple mesterséges intelligencia kutatói új tanulmányt publikáltak, amely a nagy nyelvi modellek (LLM-ek) érvelési képességeit vizsgálta. Az eredmények meglepő hiányosságokat tárt fel, amelyek aláássák a mesterséges intelligencia megbízhatóságába vetett hitet.
A kutatás során a szakemberek több vezető nyelvi modellt elemeztek, beleértve az OpenAI, a Meta és más jelentős fejlesztők modelljeit, mint például az OpenAI o1, GPT 40, Meta LlaMa és Google Gemma-2. A kutatók arra voltak kíváncsiak, hogy ezek a modellek mennyire képesek kezelni a matematikai érvelési feladatokat.
Az eredmények azt mutatták, hogy egy csekély változtatás a kérdés megfogalmazásában jelentős eltéréseket okozott a modell válaszaiban. Például, ha egy kérdésben módosultak a nevek és a változók, a pontosság néhány százalékponttal csökkent. Érdekes módon az OpenAI modelljei jobban teljesítettek, mint a nyílt forráskódú versenytársaik, de az eltérést „nem elhanyagolhatónak” ítélték.
A kutatók felfedezték, hogy a modellek „látszólag releváns, de végső soron lényegtelen kijelentéseket” is figyelembe vettek. Egy egyszerű matematikai feladat során, ahol azt kérdezték, hány kivit gyűjtött össze egy ember, a modellek hajlamosak voltak figyelmen kívül hagyni a kisebb kiwiket, amikor irreleváns részleteket adtak hozzá a kérdéshez. Ez azt jelzi, hogy a modellek nem értik meg a kérdések valódi jelentését, és inkább mintákat keresnek az érvelési problémákban.
„A jelenlegi LLM-ek nem képesek valódi logikus érvelésre, ehelyett megpróbálják megismételni a képzési adataikban megfigyelt érvelési lépéseket” – állítják a kutatók. Ez aggasztó jel a jövőbeli mesterséges intelligencia-alkalmazások számára, ahol következetes, pontos érvelést várnánk el. Az Apple szakemberei szerint a mesterséges intelligenciának kombinálnia kellene a neurális hálózatokat a hagyományos, szimbólum alapú érveléssel a pontosabb döntéshozatali és problémamegoldó képességek érdekében.
Érdekes tény: A mesterséges intelligencia fejlődése során a kutatók egyre inkább az emberekhez hasonló érvelési képességek elérésére összpontosítanak, azonban a jelenlegi modellek még mindig nem képesek a mélyebb megértésre.
Források: Apple MI-kutatócsoport, OpenAI, Meta, Google