Kodėl SWE-bench Verified daugiau nematuoja pažangiausių kodavimo gebėjimų

tedsanders·7·23.02.2026 20:08

Santrauka lietuviškai

SWE-bench Verified, anksčiau naudotas vertinant pažangiausius kodavimo gebėjimus, dėl įvairių priežasčių prarado savo aktualumą. Testavimo metodika nebeatitinka šiuolaikinių programavimo iššūkių ir technologijų. Dėl to rezultatai nebėra patikimas rodiklis, rodantis tikrus programuotojų įgūdžius. Ši problema skatina ieškoti naujų, tikslesnių vertinimo metodų.

Originalus pavadinimas

Why SWE-bench Verified no longer measures frontier coding capabilities