TIP#309: Znáte Internet Archive: Wayback Machine? A víte, co je to Google Cache?

Internet Archive je takový trochu velký projekt, který archivuje Internet a řadu dalších věcí. Jednou jeho částí je ale služba jménem Wayback Machine, ta má jednu jedinou zásadní funkčnost – můžete se podívat, jak vypadaly weby na Internetu v čase směrem zpět. A když je řeč o „čase zpět“, tak opravdu i roky, dlouhé roky zpátky.

Wayback Machine se hodí hlavně když chcete psát o redesignu nějakého webu, nebo o tom jak vypadaly weby v minulosti. Není to dokonale, neumí to „sejmout“ kompletní kopii webu ani to nedokáže cestovat v čase plynule. Weby to zaznamenává jednou za čas, tak jak to prostě vyjde. Můžete tomu i předložit nějaký ten web pro archivaci, napojit na to nějaký vlastní software (má API) a  používat to i pro některé další užitečnosti.

2015-11-01 18_38_59-Seznam českého Internetu

Můžete se tak třeba podívat na to, jak vypadal Seznam v roce 1996 – první záznam je tam z 14. listopadu. Nebo třeba na Facebook, kde první záznam je z 12. prosince 1998, ale pozor, tehdy se to ještě jmenovalo Aboutface.com. Ten Facebook, tedy ten od Marka Zuckerberga, můžete vidět až daleko později, třeba 31. prosince 2005.

2015-11-01 18_42_48-Facebook _ Welcome to Facebook!

Pokud si z Wayback Machine něco zobrazíte a chybí tam obrázky, tak vězte, že to není nic zvláštního. Stejně jak tam nemusí být vidět věci, které na daném webu řešil Flash, Java nebo nějaký skriptovací jazyk.

TIP: Jak mohu požádat The Internet Archive aby uložil můj web? se vám bude hodit, vždy si chcete uchovat stav nějaké stránky

Google Cache

Tuhle další službu by bylo škoda nezmínit, protože slouží k podobnému účelu. Každá Stránka, kterou si Google zapracoval do indexu se zároveň ukládá do tzv. „Google Cache“. Výsledek nalezený v Google si můžete nechat zobrazit v původní podobě, v takovém v jaké ho viděl Google.

Jde to udělat snadno, u každého nalezeného výsledku je adresa (nebo drobečková navigace) a na jejím konci je malá šipka dolů. Na tu kliknete a máte možnost si vybrat z Cached (Archiv) a (někde) Similar (Podobné). Kliknete na Archiv (Cached) a uvidíte co si Google pamatuje.

2015-11-05 07_27_03-Start

Google Cache si některé stránky může pamatovat poměrně dlouho. Dokonce si je občas pamatuje i poté, co přestaly existovat (stačí hledat v Google podle adresy). Pokud ale dojde k nové indexaci, původní uložená kopie se ztratí.

TIP: Pokud chcete ihned zobrazit obsah z cache, tak do vyhledávání zadejte před kýženou URL operátor cache: – v praxi můžete třeba zkusit “ cache:https://365tipu.wordpress.com “ – uvidíte tak nějaký ten den „starou“ verzi.

Více podobných služeb pohromadě

Wayback Machine a Google Cache nejsou jediná cesta, jak se dostat k starším verzím stránek nebo i smazaným stránkám. Můžete zkusit využít www.cachedview.com – ušetří vám práci, protože prohledá i další dostupné služby tohoto druhu. Aktuálně prohledává Wayback Machine (říkají tomu Archive.org cache), Google Cache Coral Web Cache.

Podobně můžete zkusit www.cachedpages.com ale i tam se setkáte s výše uvedenou trojicí míst, odkud vyzvedne potřebné.

Nechcete aby něco bylo uloženo v Google Cache?

Nejsnazší cesta jak odstranit z Google něco co je uloženo v Google Cache je, že na dané adrese poskytnete nový obsah. Pokud nechcete aby se nějaký obsah dostával do Google, tak to můžete udělat blokováním indexace (noindex meta značkou). Poslední varianta je, že pomocí Search Console a tamní URL Removal pomůcky řeknete Google, aby něco odstranil.

Další varianta jménem Remove outdated content slouží požadavku na odstranění obsahu, který už neplatí. Viz ostatně nápověda Remove or update outdated information from Google

Reklamy