Deduplikace je termín pro nalezení duplikátních dat, v případě souborů v počítači prostě nalezení všech souborů, které se někde vyskytují ve více kopiích. Po nalezení se můžete rozhodnout, že nadbytečné kopie smažete. Je dost jasné k čemu vám to pomůže, může to uvolnit množství místa na disku.
Duplikáty v počítačích vznikají velmi často v podobě fotografií, MP3 souborů či filmů. Ale může to být prakticky cokoliv, omylem zkopírované dokumenty, kopie na které se zapomnělo, protože už nejsou potřeba. Opakovaně stažené soubory, atd.
Na deduplikaci potřebujete software, které prohledá disky a najde vše co se vyskytuje opakovaně. V tom nejprimitivnějším případě bude srovnávat jména a délky souborů. V tom pokročilejším by mělo srovnávat obsah souborů – což už není až tak legrace, protože to může být velmi časově náročné. Může ale jít o něco mezi, nějaký algoritmus, který vše urychlí.
dupeGuru – dupeguru.voltaicideas.net – (MAC OS, Linux, Windows) patří mezi deduplikační pomůcky s oním „fuzzy“ algoritmem, kde se například nenechá poplést jiným jménem souboru. A nespornou výhodou je i to, že je dostupný i pro více operačních systémů a navíc zadarmo. Užitečné může být, že má i specifickou verzi pro hudbu a obrázky, kde najde duplikáty i v souborech s rozdílným formátem.
Duplicate File Finder – doubles.sourceforge.net – (Windows, Linux) umí nejenom najít duplicity, ale umí tak to, co budete od podobných software chtít, tedy vedl odstranění duplikátu také možnost vytvořit link, který v původním místě ponechá jen odkaz na jeden originál. V tomto případě nejde pouze přesné shody. Výhodou může být i rychlost, protože porovnávání souborů se děje pomoci hashe (kontrolního součtu).
SimilarImages – tn123.org/simimages – (Windows) je, jak název napovídá, vhodný pro hledání podobných obrázků. Vizuálně podobných.
Vydáte-li se zkoušet deduplikační software, tak nespěchejte. Prohledávání dnešních disků majících běžně terabajty může být poměrně déle trvající proces. A ano, může to znamenat i několik hodin. Deduplikovat ale můžete třeba zkusit jenom, například, sbírku vašich MP3.
Další možnosti
- AlDup – www.alldup.de/alldup_help/alldup.htm
- Duplicate Cleaner – www.duplicatecleaner.com
Pokud používáte jako NAS něco od Synology (rozhodně musím doporučit, viz například NAS nadoma: Vybral jsem si Synology DS214se. Třeba se budou hodit zkušenosti), tak byste měli vědět, že hledání duplicit je i jedna z funkcí, kterou umí přímo toto zařízení.
Pokud hledáte ještě něco dalšího pro Linux (výše uvedený dupeGURU má verzi pro Linux), tak můžete zkusit FSlint ale neočekávejte nějaké pokročilejší schopnosti analýzy.
PS: Deduplikace má, jak jinak, řadu dalších významů. Třeba v databázovém světě, kde je to v zásadě kompresní technologie, umožňující ukládat data tak, aby se zamezilo jejich opakování či uložení duplicitních data. Uplatňuje se v zálohování, v cloudových úložištích i v databázových systémech.