TIP#1226: Jak z webové stránky dostat tabulková data do Excelu (Google Sheets)

Krátký ale užitečný tip je tu – trochu souvisí s tím, že už chvíli ve Flowee.cz řešíme štítky a hodí se je trochu uklidit i pro @365tipu. Zejména zlikvidovat štítky co jsou nepoužité (počet užití je nula) nebo mají málo použití (řekněme počet užití je od jednoho do tří článků). Samozřejmě také najít překlepy, duplicity (malá/velká písmena) a další věci. No a nakonec také použít pro import (například) do Collabim a další práci s hledáním věcí pro PPC i SEO.

V každém CMS (@floweecz je Joomla, @365tipu je WordPress) je možnost vypsat štítky, ale málokdy je tam možnost je kompletně exportovat (pokud máte přístup k SQL, tak ta možnost tam samozřejmě je, ale dost často tohle prostě nemáte). Výpis bývá tabulkový a dá se nastavit i kolik řádek tabulky bude mít. A pak už vám jen stačí nastavit rozumnou délku tabulky a stáhnout si nějaké rozšíření, které umí převést tabulku na webové stránka na tabulku ve Schránce (nebo přímo ukládat jako XML/CSV).

Jednoduché a praktické řešení pro Chrome je Table Capture – na stránce kde je tabulka (či více tabulek) kliknete na ikonku Table Capture, objeví se vám seznam tabulek, vy si vyberete tu správnou a obsah si (například) zkopírujete do Schránky. Vedle můžete mít otevřený Excel či Google Sheets a pomocí Paste/Vložit tam přidáte postupně všechny řádky. Nakonec už v hotové tabulce odstraníte nepotřebné sloupce a můžete s tím začít pracovat.

2018-11-16 14_07_53-Window.png
Table Capture. Zmáčknete, podívá se, pozná tabulková data a vy už jenom kopírujete nebo ukládáte

Přímé copy/paste

To že můžete dělat copy paste z webové stránky přímo od Excelu/Google Sheets asi víte – stačí si tabulku označit do bloku a pak udělat Ctrl+C/Ctrl V. Má to ale vadu, zůstane vám tam všechno formátování, obrázky a další věci. Přes Table Capture se vytahují čistá data z buněk.

Ono copy/paste přímo z webu má občas i trochu komplikace v tom, že tabulky jdou špatně označit.  Takže pokud často kopírujete nějaká data z webu, tak vůbec neváhejte a naučte se to dělat pomocí nějakého šikovného rozšíření.

Další pomůcky

Zmíněné Table Capture samozřejmě není jediné rozšíření, které něco takového umí. Zkusit můžete ještě

Co navíc, není to jediná možnost jak to dělat – hodně se může hodit i programové řešení – tedy jak získávat tabulková data z webových stránek nikoliv rně.

  • Pokud umíte a používáte Python, tak mrkněte na knihovnu Pandas a tam přístupné read_html()
  • Pokud používáte R, tak se mrkněte na rvest a httr.
  • Používáte-li Excel, tak můžete přímo stahovat data z webových stránek, podívejte se do Data -> From Web -> Get & Transform Data
  • V Google Sheets hledejte funkci ImportXML

Užitečný zdroj a pomůcku najdete například i na scraperwiki.com

PS: K štítkům viz Jak udržovat štítky na obsahovém webu? Co vás pravidelně čeká? Kompletní návod jak na štítky u obsahového webu (2)

Reklamy