Cheddar-bench – neprižiūrimas kodavimo agentų testavimo rėmelis

przadka·9·22.02.2026 14:33

Santrauka lietuviškai

Sukurta nedidelė testavimo sistema, skirta įvertinti komandinės eilutės kodavimo agentų gebėjimus aptikti klaidas nematant jų aprašymo. Sistema veikia trimis etapais: vienas agentas įdeda klaidas į realius saugyklos failus, kitas agentas jas ieško, o trečiasis – vertina rezultatus. Dabartiniame teste naudojant 50 saugyklų ir 2603 įdėtas klaidas geriausiai pasirodė Claude agentas (58,05 % aptikimo tikslumas). Autorius prašo atsiliepimų apie testo dizaino sąžiningumą, vertinimo metodiką ir galimas sistemos trūkumas.

Originalus pavadinimas

Show HN: Cheddar-bench – unsupervised benchmark for coding agents