PaperBench: az AI-kutatás megismétlésére való képesség értékelése az AI által

Április 2, 2025 – A legújabb kutatások alapján bemutatjuk a PaperBench-t, egy új benchmarkot, amely értékeli az AI ügynökök képességét, hogy reprodukálják a legmodernebb mesterséges intelligencia kutatásokat. Az ügynököknek 20 ICML 2024 Spotlight és Oral cikket kell reprodukálniuk a nulláról, beleértve a cikkek hozzájárulásának megértését, egy kódalap fejlesztését és a kísérletek sikeres végrehajtását.

A független értékelés érdekében olyan rubrikákat dolgoztunk ki, amelyek hierarchikusan lebontják az egyes reprodukciós feladatokat kisebb alkotóelemekre, világos értékelési kritériumokkal. Összesen a PaperBench 8,316 külön-külön értékelhető feladatot tartalmaz. A rubrikákat az egyes ICML cikkek szerzőivel közösen dolgoztuk ki a pontosság és a realizmus érdekében.

Az értékelés skálázhatóságának érdekében egy LLM-alapú bíró rendszert is kifejlesztettünk, amely automatikusan értékeli a reprodukciós próbálkozásokat a rubrikák alapján. Ezenkívül külön benchmarkot hoztunk létre a bírák teljesítményének értékelésére. Különböző élenjáró modelleket vizsgáltunk meg a PaperBench-en, és megállapítottuk, hogy a legjobban teljesítő tesztelt ügynök, a Claude 3.5 Sonnet (Új) nyílt forráskódú kerettel, átlagosan 21.0%-os reprodukciós pontszámot ért el.

Végül, a legjobb ML PhD hallgatókat toboroztuk, hogy próbáljanak meg reprodukálni a PaperBench egy részhalmazát, és megállapítottuk, hogy a modellek még nem teljesítik a humán alapot. A jövőbeli kutatás elősegítése érdekében a kódunkat nyílt forráskódúvá tettük, hogy támogassuk az AI ügynökök mérnöki képességeinek megértését.

Érdekesség: A mesterséges intelligencia kutatása során a legelső AI program, az „Logic Theorist”, 1956-ban készült, és képes volt matematikai tételeket bizonyítani.

Források: ICML 2024, PaperBench kutatási anyagok, mesterséges intelligencia szakirodalom.