Cheddar-bench – neprižiūrimas kodavimo agentų testavimo rėmelis
przadka·▲ 9·22.02.2026 14:33
Santrauka lietuviškai
Sukurta nedidelė testavimo sistema, skirta įvertinti komandinės eilutės kodavimo agentų gebėjimus aptikti klaidas nematant jų aprašymo. Sistema veikia trimis etapais: vienas agentas įdeda klaidas į realius saugyklos failus, kitas agentas jas ieško, o trečiasis – vertina rezultatus. Dabartiniame teste naudojant 50 saugyklų ir 2603 įdėtas klaidas geriausiai pasirodė Claude agentas (58,05 % aptikimo tikslumas). Autorius prašo atsiliepimų apie testo dizaino sąžiningumą, vertinimo metodiką ir galimas sistemos trūkumas.
Originalus pavadinimas
Show HN: Cheddar-bench – unsupervised benchmark for coding agents
Susijusios naujienos