Még a legjobb mesterséges intelligenciák sem tudják felülmúlni ezt az új mércét.

Új mérföldkő az AI tesztelésében

A Center for AI Safety (CAIS) és a Scale AI, amely adatcímkézési és mesterséges intelligencia fejlesztési szolgáltatásokat nyújt, egy új, kihívásokkal teli benchmarkot mutatott be a legfejlettebb mesterséges intelligencia rendszerek számára. A benchmark neve Humánum Utolsó Vizsgája, amely több ezer közösségi kérdést tartalmaz, érintve a matematika, a humán tudományok és a természettudományok területeit.

A cél az, hogy a mesterséges intelligencia rendszerek képesek legyenek a komplex gondolkodásra, valamint a kritikus és kreatív problémamegoldásra, amely elengedhetetlen a jövőbeli fejlesztésekhez. A kérdések nem csupán egyszerű tényekre vonatkoznak, hanem a mélyebb megértést és a szintetizáló képességet is próbára teszik.

Ez a benchmark különösen fontos, mivel a mesterséges intelligencia alkalmazása egyre szélesebb körben terjed, és szükség van olyan tesztelő eszközökre, amelyek képesek valósághűen mérni a rendszerek teljesítményét. A Humánum Utolsó Vizsgája célja, hogy a fejlesztők és a kutatók számára új irányvonalat adjon az AI rendszerek értékeléséhez.

Érdekes tény, hogy a mesterséges intelligencia rendszerek már most is képesek különféle kreatív feladatok megoldására, mint például a festészet és a zeneszerzés, ami új lehetőségeket nyit az emberi kreativitás és a gépi intelligencia együttműködésében.

Forrás: TechCrunch