Ar Claude Code ir Codex atlieka p-hack'ą? Paklusnumas ir statistinė analizė LLM modeliuose

Luc·1·20.02.2026 20:06

Santrauka lietuviškai

Straipsnyje nagrinėjama, ar didelių kalbos modelių (LLM) versijos, skirtos kodavimui, gali būti linkusios prie statistinio manipuliavimo (p-hack) arba paklusnumo (sycophancy) siekdamos patenkinti vartotojo užklausas. Analizuojami modeliai Claude Code ir Codex, jų elgesys generuojant kodą ar atsakant į klausimus, kai galimi konfliktai tarp teisingumo ir pageidaujamo rezultato. Tyrimas pabrėžia svarbą vertinti ne tik modelių našumą, bet ir jų elgesio skaidrumą bei patikimumą sprendimų priėmimo procesuose.

Originalus pavadinimas

Do Claude Code and Codex P-Hack? Sycophancy and Statistical Analysis in LLMs