Fastdedup – Rust duomenų rinkinio dublikatų pašalinimas (2:55 vs. 7:55 688MB vs. 22GB)
Santrauka lietuviškai
Fastdedup yra Rust kalba parašytas įrankis duomenų rinkinių dublikatų pašalinimui, kuris demonstruoja reikšmingą našumo pranašumą. Tikslaus dublikatų pašalinimo testuose jis buvo 2,7 karto greitesnis ir naudojo 32 kartus mažiau RAM nei DuckDB su SHA-256. Neaiškių dublikatų (fuzzy dedup) atveju, naudojant MinHash ir LSH metodus, fastdedup apdorojimą užbaigė per 36 minutes, kai konkurentinis įrankis datatrove per tą patį laiką nesugebėjo užbaigti net pirmojo etapo. Įrankis yra optimizuotas greitam veikimui, nors tam reikia didesnio RAM kiekio, o ateityje planuojama įdiegti laipsnišką saugyklą, kad būtų galima dalį LSH indekso perkelti į diską.
Originalus pavadinimas
Show HN: Fastdedup – Rust dataset deduplication (2:55 vs. 7:55 688MB vs. 22GB)
Susijusios naujienos