Obsah:
Sběr dat
Octoparse – je komplexní softwarové řešení pro hromadný a automatizovaný sběr (web scraping), strukturování a analýzu dat, pro jehož použití nejsou potřeba programátorské dovednosti. S jeho pomocí lze převést jakákoliv nestrukturovaná webová data na hotovou informační základnu pro marketing, výzkum, prodej, propagaci a řešení mnoha dalších obchodních úkolů.

V závislosti na tom, na jakých stránkách bude software používán, lze získat data a/nebo obsah následujícího typu: ceny a informace o produktech (pro obchodní platformy); příspěvky, publikace, komentáře (sociální sítě); ceny, hodnocení, recenze (rezervace, nemovitosti); pracovní nabídky a platy (zaměstnání) atd.

Zvažovaný software funguje na základě unikátního algoritmu, jehož základem je umělá inteligence, což umožňuje automaticky vyhledávat a extrahovat data z webových stránek podle předem stanovených nebo šablonových parametrů.

Šablony
Služba poskytuje více než 200 hotových šablon pro sběr dat z webových stránek následujících kategorií:
- Populární webové služby;
- Internetové obchody a tržiště (Amazon, eBay, Walmart atd.);
- Hotely a cestování (Airbnb, Booking, Tripadvisor atd.);
- Sociální sítě a média (Facebook, Instagram, Twitter, YouTube atd.);
- Vyhledávače (Google, Yahoo);
- Inzerce (Crunchbase, Žluté stránky, Yelp atd.);
- Mapové služby (Google);
- Recenze;
- Hledání práce;
- Nemovitosti;
- Školní vzdělání;
- Finance;
- Sázky.













Vytváření úloh
Kromě šablon lze v Octoparse vytvořit i vlastní úlohy pro extrakci dat z webu. Tento proces se provádí ve třech jednoduchých krocích: určení URL adresy stránky, ze které je třeba shromáždit data, výběr cíle a poté spuštění a samotná extrakce.
Procedura je maximálně jednoduchá a automatizovaná – systém rozpoznává klíčové prvky na webových stránkách a zvýrazňuje je, což nejen zajišťuje další pohodlí při interakci, ale také šetří čas. Ještě důležitější je, že takový přístup vylučuje potřebu znalosti a používání jazyka XPath pro samostatné vytváření XML dotazů.

Ukládání a změna nastavení úloh
Během automatického extrakce informací a na základě obsahu nalezeného na webu Octoparse vytváří vlastní nastavení, která lze buď uložit jako šablony připravené k dalšímu použití, nebo změnit podle vlastního uvážení, například vyloučením některých kategorií a přidáním jiných, nebo jednoduše změnou jejich pořadí.

Je zřejmé, že potřeba změny základních nastavení, která určují konečné zobrazení shromážděných dat, vzniká poměrně často. Původně jsou zobrazena ve formě přehledné tabulky s automaticky určenými kategoriemi a pořadím, sloupce v ní lze měnit, a nepotřebné jednoduše odstranit.

Kromě toho je často nutné samostatně uvádět takové parametry, jako je počet stránek na webu a interval jejich načítání.

Po automatickém nebo ručním nastavení parametrů, spuštění a ukončení samotného procesu extrakce se vytvoří pracovní šablona (workflow), skládající se z několika bloků – editovatelných prvků, jejichž konečný vzhled určuje, jak bude úkol vypadat na výstupu.

Prezentace úkolů a správa
Hotové úkoly se přidávají na panel monitorování (dostupný z horního a bočního menu), odkud lze provádět akce, jako je spuštění a zastavení procesu extrakce, sdílení s kolegy, export, prohlížení místních dat a dat uložených v cloudu.

Pro pohodlnější vyhledávání a správu se doporučuje vytvářet skupiny, přičemž je možné přesouvat úkoly z jedné kategorie do druhé podle potřeby.

Další nástroje
V aktuální (beta) verzi Octoparse jsou k dispozici dva další nástroje, které rozšiřují funkční možnosti tohoto programu a umožňují efektivnější interakci s daty. Nástroj RegEx Tool poskytuje možnost čištění shromážděných informací, zatímco Nástroj pro automatický export databáze umožňuje nastavit vlastní plán pro export do místní databáze.

Export dat
Data shromážděná pomocí Octoparse mohou být podle potřeby uložena ve formátech XLSX, CSV, JSON atd. pro následné zpracování v externím softwaru, například Excelu nebo Ajaxu. Také je možné exportovat do databází.

Proxy servery
Zvažovaný program umožňuje použití vlastního proxy serveru během sběru dat. Tímto způsobem lze skrýt nebo automaticky měnit svou IP adresu, aby se zabránilo zařazení na černou listinu zpracovávaných webových zdrojů.
Blokování reklamy
Octoparse obsahuje prostředky pro blokování reklamy, což zkracuje dobu načítání stránek a jejich přístupů, a tím optimalizuje a urychluje řešení hlavních pracovních úkolů.
Cloudové služby
Pro zajištění bezpečnosti a spolehlivosti procesu webového skreapingu Octoparse využívá pokročilé technologie cloudových výpočtů vlastní výroby a také poskytuje přístup k svým službám a serverům, jejichž rychlost práce je až 20krát vyšší než u lokálních analogů.

Lekce o používání
Na oficiálních stránkách Octoparse je k dispozici vyčerpávající knihovna vzdělávacích materiálů, díky nimž lze v co nejkratším čase zvládnout všechny funkční možnosti tohoto softwaru, aby bylo možné jej maximálně efektivně využít pro organizaci pracovních procesů a řešení obchodních úkolů. K nim lze přejít i z rozhraní programu, jeho hlavního okna.

Technická podpora
V případě jakýchkoli potíží při používání a/nebo problémů s fungováním Octoparse se vždy můžete obrátit na službu technické podpory webového skreapingu dat. Jsou k dispozici následující komunikační kanály: e-mail, fórum a komunita, sociální sítě a živý chat (ten je k dispozici pouze v placeném tarifu). Je však třeba poznamenat, že pro získání odpovědí na různé otázky často stačí obrátit se na znalostní bázi uvedenou na webu nebo na již zmíněné vzdělávací materiály.

Výhody
- Možnost 14denní bezplatné zkušební verze;
- Jednoduché a pohodlné, intuitivní rozhraní;
- Není potřeba mít znalosti programování;
- Možnost využití cloudových služeb od vývojáře;
- Dostupnost vzdělávacích materiálů k používání softwaru;
- Technická podpora s několika komunikačními kanály;
- Velká knihovna hotových šablon, které lze podle potřeby upravit pro své úkoly;
- Podpora nejpopulárnějších webových stránek a služeb z různých oblastí a témat.
Nevýhody
- Nedostatek lokalizace do ruštiny;
- Nedostatek šablon pro domácí webové stránky;
- V době psaní recenze jsou aktuální verze Octoparse pro Windows a macOS dostupné pouze ve verzi beta. Předchozí (stabilní) se liší rozhraním a funkcionalitou.