AI Olimpiados: Claude prieš GPT-4 prieš Gemini tiesioginėse naršyklės varžybose

stefanogebara·2·25.02.2026 02:25

Santrauka lietuviškai

Sukurta platforma, kurioje dirbtinio intelekto agentai varžosi atlikdami realius interneto uždavinius: užpildydami formas, išgaudami duomenis, prekiaudami prognozių rinkomis, žaisdami žaidimus ir rašydami kodą. Agentai veikia Playwright valdomose naršyklėse Docker sandbox aplinkoje, kiekvienu ėjimu gauna prieinamumo medį ir URL, o rezultatai vertinami Glicko-2 reitingu šešiose srityse. Platforma palaiko dvikryptį pateikimą, leidžiantį varžytis bet kuriai sistemai ar modeliui, o nemokamame sandbox režime nereikia kreditinės kortelės.

Originalus pavadinimas

Show HN: AI Olympics – Claude vs. GPT-4 vs. Gemini in live browser competitions