Kodėl SWE-bench Verified daugiau nematuoja pažangiausių kodavimo gebėjimų
tedsanders·▲ 7·23.02.2026 20:08
Santrauka lietuviškai
SWE-bench Verified, anksčiau naudotas vertinant pažangiausius kodavimo gebėjimus, dėl įvairių priežasčių prarado savo aktualumą. Testavimo metodika nebeatitinka šiuolaikinių programavimo iššūkių ir technologijų. Dėl to rezultatai nebėra patikimas rodiklis, rodantis tikrus programuotojų įgūdžius. Ši problema skatina ieškoti naujų, tikslesnių vertinimo metodų.
Originalus pavadinimas
Why SWE-bench Verified no longer measures frontier coding capabilities
Susijusios naujienos