
kv-cache: palaikymas dėmesio sukimui nevienalyčiam iSWA
r/LocalLLaMA·jacek2023·07.04.2026 22:26
Santrauka lietuviškai
Šis pull request įgyvendina kv-cache palaikymą dėmesio sukimui nevienalyčiam iSWA (sliding window attention) algoritme. Funkcionalumas leidžia efektyviai valdyti atminties talpyklą dirbant su kintamo ilgio įvesties sekomis. Įdiegimas optimizuoja resursų panaudojimą ir pagerina modelio našumą apdorojant ilgas teksto sekas.
Originalus pavadinimas
kv-cache : support attention rotation for heterogeneous iSWA by ggerganov · Pull Request #21513 · ggml-org/llama.cpp
Susijusios naujienos
Atnaujinimas apie Gemma 4 su MTP: Atvirkštinio inžinerijos pastangosGalutiniai Qwen 3.6 balsavimo rezultataiQwen3.5-122B veikia 198 ženklų per sekundę naudojant 2 RTX PRO 6000 Blackwell — biudžetinė sistema, patvirtinti rezultataiNeprisijungęs prie interneto palydovas robotas mano neįgaliam vyrui (su 8GB RAM apribojimais) – ieškau optimizavimo patarimų