Innováció
Új Benchmark Az AI Információkereső Képességeinek Mérésére
2025. április 10-én a kutatók bemutatták a BrowseComp nevű új benchmarkot, amely az AI ügynökök képességeit méri az interneten nehezen megtalálható információk felkutatásában. Az AI ügynökök, amelyek képesek böngészni az interneten, egyre fontosabbá válnak a tudásgyűjtésben.
A BrowseComp benchmark 1,266 kihívást jelentő problémából áll, és kifejezetten azokat az információkat célozza meg, amelyekhez sokszor több tucat vagy akár több száz weboldal átnézése szükséges. A SimpleQA benchmarkkal ellentétben, amely az alapvető tények visszakeresésére összpontosít, a BrowseComp a bonyolult, összetett információk felkutatását méri.
A BrowseComp Kérdései
Példák a BrowseComp kérdéseire:
- Kérjük, azonosítsa azt a fiktív karaktert, aki időnként megszegi a negyedik falat a közönséggel, és akinek a háttértörténete önzetlen aszkéták segítségével alakult.
- Nevezze meg azt a kutatási publikációt, amely 2023 júniusa előtt jelent meg és említi a kulturális hagyományokat, tudományos folyamatokat és kulináris újításokat.
- Kérem, mondja meg egy író álnévét, aki számos könyvet írt, beleértve az önéletrajzát is.
A BrowseComp célja, hogy az AI ügynökök képesek legyenek kreatívan keresni és stratégiákat kidolgozni a megfelelő információk megtalálására, még akkor is, ha azok nehezen hozzáférhetők. A benchmark egyszerűsíti a tesztelés folyamatát, mivel a kérdésekre rövid, egyértelmű válaszok várhatók.
Az AI Modellek Teljesítménye
A BrowseComp benchmarkot különböző AI modellek teljesítményének értékelésére használták, beleértve a GPT‑4o és a GPT‑4.5 modelleket. Ezen modellek teljesítménye alacsony volt, a GPT‑4o például mindössze 0,6%-os pontosságot ért el. Ezzel szemben a Deep Research modell, amely kifejezetten a folyamatos webböngészésre lett kiképezve, a problémák körülbelül felét meg tudta oldani.
Ez a benchmark nemcsak a modellek böngészési képességeit méri, hanem azt is, hogy mennyire képesek stratégiailag gondolkodni és releváns keresési utakat azonosítani. A BrowseComp célja, hogy a kutatók számára hasznos eszköz legyen az AI fejlődésének támogatásában.
Érdekesség: A BrowseComp benchmark célja, hogy elősegítse az AI megbízhatóságának és hatékonyságának kutatását az információkeresés területén.
Források: OpenAI, BrowseComp kutatási anyag.
