Irpapers – vizualinių įterpimų ir OCR kompromisai mokslinėse PDF bylose
pvpv·▲ 4·23.02.2026 19:10
Santrauka lietuviškai
IRPAPERS tyrimas analizuoja, ar RAG sistemose efektyviau naudoti OCR tekstinį apdorojimą ar tiesiogiai įterpti PDF puslapių vaizdus. Tyrimas parodė, kad tekstiniai metodai veiksmingai aptinka leksinius atitikmenis, o vaizdų įterpimai pranašesni architektūros diagramų ir grafikų atpažinimui. Hibridinis metodas, sujungiantis abu būdus, pasiekė 49% atkūrimo tikslumą, nors vaizdų įterpimai sukuria didelius atminties apribojimus, kuriuos galima sumažinti naudojant MUVERA kodavimą.
Originalus pavadinimas
Show HN: Irpapers – Visual embeddings vs. OCR trade-offs in scientific PDFs
Susijusios naujienos