BrowseComp: egy referencia a böngésző ügynökök számára

Innováció

Új Benchmark Az AI Információkereső Képességeinek Mérésére

2025. április 10-én a kutatók bemutatták a BrowseComp nevű új benchmarkot, amely az AI ügynökök képességeit méri az interneten nehezen megtalálható információk felkutatásában. Az AI ügynökök, amelyek képesek böngészni az interneten, egyre fontosabbá válnak a tudásgyűjtésben.

A BrowseComp benchmark 1,266 kihívást jelentő problémából áll, és kifejezetten azokat az információkat célozza meg, amelyekhez sokszor több tucat vagy akár több száz weboldal átnézése szükséges. A SimpleQA benchmarkkal ellentétben, amely az alapvető tények visszakeresésére összpontosít, a BrowseComp a bonyolult, összetett információk felkutatását méri.

A BrowseComp Kérdései

Példák a BrowseComp kérdéseire:

  • Kérjük, azonosítsa azt a fiktív karaktert, aki időnként megszegi a negyedik falat a közönséggel, és akinek a háttértörténete önzetlen aszkéták segítségével alakult.
  • Nevezze meg azt a kutatási publikációt, amely 2023 júniusa előtt jelent meg és említi a kulturális hagyományokat, tudományos folyamatokat és kulináris újításokat.
  • Kérem, mondja meg egy író álnévét, aki számos könyvet írt, beleértve az önéletrajzát is.

A BrowseComp célja, hogy az AI ügynökök képesek legyenek kreatívan keresni és stratégiákat kidolgozni a megfelelő információk megtalálására, még akkor is, ha azok nehezen hozzáférhetők. A benchmark egyszerűsíti a tesztelés folyamatát, mivel a kérdésekre rövid, egyértelmű válaszok várhatók.

Az AI Modellek Teljesítménye

A BrowseComp benchmarkot különböző AI modellek teljesítményének értékelésére használták, beleértve a GPT‑4o és a GPT‑4.5 modelleket. Ezen modellek teljesítménye alacsony volt, a GPT‑4o például mindössze 0,6%-os pontosságot ért el. Ezzel szemben a Deep Research modell, amely kifejezetten a folyamatos webböngészésre lett kiképezve, a problémák körülbelül felét meg tudta oldani.

Ez a benchmark nemcsak a modellek böngészési képességeit méri, hanem azt is, hogy mennyire képesek stratégiailag gondolkodni és releváns keresési utakat azonosítani. A BrowseComp célja, hogy a kutatók számára hasznos eszköz legyen az AI fejlődésének támogatásában.

Érdekesség: A BrowseComp benchmark célja, hogy elősegítse az AI megbízhatóságának és hatékonyságának kutatását az információkeresés területén.

Források: OpenAI, BrowseComp kutatási anyag.