Sběr dat

Octoparse – je komplexní softwarové řešení pro hromadný a automatizovaný sběr (web scraping), strukturování a analýzu dat, pro jehož použití nejsou potřeba programátorské dovednosti. S jeho pomocí lze převést jakákoliv nestrukturovaná webová data na hotovou informační základnu pro marketing, výzkum, prodej, propagaci a řešení mnoha dalších obchodních úkolů.

Hlavní okno programu pro web scraping dat Octoparse

V závislosti na tom, na jakých stránkách bude software používán, lze získat data a/nebo obsah následujícího typu: ceny a informace o produktech (pro obchodní platformy); příspěvky, publikace, komentáře (sociální sítě); ceny, hodnocení, recenze (rezervace, nemovitosti); pracovní nabídky a platy (zaměstnání) atd.

Sada šablon jednoho webu v programu pro web scraping dat Octoparse

Zvažovaný software funguje na základě unikátního algoritmu, jehož základem je umělá inteligence, což umožňuje automaticky vyhledávat a extrahovat data z webových stránek podle předem stanovených nebo šablonových parametrů.

Příklad šablony pro web Amazon v programu pro web scraping dat Octoparse

Šablony

Služba poskytuje více než 200 hotových šablon pro sběr dat z webových stránek následujících kategorií:

  • Populární webové služby;
  • Šablony pro práci s populárními webovými stránkami v programu pro web scraping dat Octoparse
  • Internetové obchody a tržiště (Amazon, eBay, Walmart atd.);
  • Šablony pro práci s internetovými obchody a tržišti v programu pro web scraping dat Octoparse
  • Hotely a cestování (Airbnb, Booking, Tripadvisor atd.);
  • Šablony kategorie hotely a cestování v programu pro web scraping dat Octoparse
  • Sociální sítě a média (Facebook, Instagram, Twitter, YouTube atd.);
  • Šablony kategorie sociální sítě a média v programu pro web scraping dat Octoparse
  • Vyhledávače (Google, Yahoo);
  • Šablony kategorií vyhledávacích systémů v programu pro web scraping dat Octoparse
  • Inzerce (Crunchbase, Žluté stránky, Yelp atd.);
  • Šablony kategorie inzerátů v programu pro web scraping dat Octoparse
  • Mapové služby (Google);
  • Šablony kategorie mapovacích služeb v programu pro web scraping dat Octoparse
  • Recenze;
  • Šablony kategorie recenzí v programu pro web scraping dat Octoparse
  • Hledání práce;
  • Šablony kategorie práce v programu pro web scraping dat Octoparse
  • Nemovitosti;
  • Šablony kategorie nemovitosti v programu pro web scraping dat Octoparse
  • Školní vzdělání;
  • Šablony kategorie školní vzdělávání v programu pro web scraping dat Octoparse
  • Finance;
  • Šablony kategorie finance v programu pro web scraping dat Octoparse
  • Sázky.
  • Šablony kategorií sázek v programu pro web scraping dat Octoparse

Vytváření úloh

Kromě šablon lze v Octoparse vytvořit i vlastní úlohy pro extrakci dat z webu. Tento proces se provádí ve třech jednoduchých krocích: určení URL adresy stránky, ze které je třeba shromáždit data, výběr cíle a poté spuštění a samotná extrakce.

Vytvoření vlastního úkolu v programu pro web scraping dat Octoparse

Procedura je maximálně jednoduchá a automatizovaná – systém rozpoznává klíčové prvky na webových stránkách a zvýrazňuje je, což nejen zajišťuje další pohodlí při interakci, ale také šetří čas. Ještě důležitější je, že takový přístup vylučuje potřebu znalosti a používání jazyka XPath pro samostatné vytváření XML dotazů.

Pokrok úkolu v programu pro web scraping dat Octoparse

Ukládání a změna nastavení úloh

Během automatického extrakce informací a na základě obsahu nalezeného na webu Octoparse vytváří vlastní nastavení, která lze buď uložit jako šablony připravené k dalšímu použití, nebo změnit podle vlastního uvážení, například vyloučením některých kategorií a přidáním jiných, nebo jednoduše změnou jejich pořadí.

Počáteční představení úkolu v programu pro web scraping dat Octoparse

Je zřejmé, že potřeba změny základních nastavení, která určují konečné zobrazení shromážděných dat, vzniká poměrně často. Původně jsou zobrazena ve formě přehledné tabulky s automaticky určenými kategoriemi a pořadím, sloupce v ní lze měnit, a nepotřebné jednoduše odstranit.

Pracovní proces v programu pro web scraping dat Octoparse

Kromě toho je často nutné samostatně uvádět takové parametry, jako je počet stránek na webu a interval jejich načítání.

Nastavení akcí pro extrakci dat v programu pro web scraping dat Octoparse

Po automatickém nebo ručním nastavení parametrů, spuštění a ukončení samotného procesu extrakce se vytvoří pracovní šablona (workflow), skládající se z několika bloků – editovatelných prvků, jejichž konečný vzhled určuje, jak bude úkol vypadat na výstupu.

Proces provádění vytvořeného úkolu v programu pro web scraping dat Octoparse

Prezentace úkolů a správa

Hotové úkoly se přidávají na panel monitorování (dostupný z horního a bočního menu), odkud lze provádět akce, jako je spuštění a zastavení procesu extrakce, sdílení s kolegy, export, prohlížení místních dat a dat uložených v cloudu.

Panel pro sledování úkolů v programu pro web scraping dat Octoparse

Pro pohodlnější vyhledávání a správu se doporučuje vytvářet skupiny, přičemž je možné přesouvat úkoly z jedné kategorie do druhé podle potřeby.

skupinování úloh na panelu nástrojů v programu pro web scraping dat Octoparse

Další nástroje

V aktuální (beta) verzi Octoparse jsou k dispozici dva další nástroje, které rozšiřují funkční možnosti tohoto programu a umožňují efektivnější interakci s daty. Nástroj RegEx Tool poskytuje možnost čištění shromážděných informací, zatímco Nástroj pro automatický export databáze umožňuje nastavit vlastní plán pro export do místní databáze.

Sada dalších nástrojů v programu pro web scraping dat Octoparse

Export dat

Data shromážděná pomocí Octoparse mohou být podle potřeby uložena ve formátech XLSX, CSV, JSON atd. pro následné zpracování v externím softwaru, například Excelu nebo Ajaxu. Také je možné exportovat do databází.

Export shromážděných dat během plnění úkolu v programu pro web scraping dat Octoparse

Proxy servery

Zvažovaný program umožňuje použití vlastního proxy serveru během sběru dat. Tímto způsobem lze skrýt nebo automaticky měnit svou IP adresu, aby se zabránilo zařazení na černou listinu zpracovávaných webových zdrojů.

Blokování reklamy

Octoparse obsahuje prostředky pro blokování reklamy, což zkracuje dobu načítání stránek a jejich přístupů, a tím optimalizuje a urychluje řešení hlavních pracovních úkolů.

Cloudové služby

Pro zajištění bezpečnosti a spolehlivosti procesu webového skreapingu Octoparse využívá pokročilé technologie cloudových výpočtů vlastní výroby a také poskytuje přístup k svým službám a serverům, jejichž rychlost práce je až 20krát vyšší než u lokálních analogů.

Princip fungování programu pro web scraping dat Octoparse

Lekce o používání

Na oficiálních stránkách Octoparse je k dispozici vyčerpávající knihovna vzdělávacích materiálů, díky nimž lze v co nejkratším čase zvládnout všechny funkční možnosti tohoto softwaru, aby bylo možné jej maximálně efektivně využít pro organizaci pracovních procesů a řešení obchodních úkolů. K nim lze přejít i z rozhraní programu, jeho hlavního okna.

Stránka podpory na webu programu pro web scraping dat Octoparse

Technická podpora

V případě jakýchkoli potíží při používání a/nebo problémů s fungováním Octoparse se vždy můžete obrátit na službu technické podpory webového skreapingu dat. Jsou k dispozici následující komunikační kanály: e-mail, fórum a komunita, sociální sítě a živý chat (ten je k dispozici pouze v placeném tarifu). Je však třeba poznamenat, že pro získání odpovědí na různé otázky často stačí obrátit se na znalostní bázi uvedenou na webu nebo na již zmíněné vzdělávací materiály.

Stránka nápovědy a technické podpory na webu programu pro web scraping dat Octoparse

Výhody

  • Možnost 14denní bezplatné zkušební verze;
  • Jednoduché a pohodlné, intuitivní rozhraní;
  • Není potřeba mít znalosti programování;
  • Možnost využití cloudových služeb od vývojáře;
  • Dostupnost vzdělávacích materiálů k používání softwaru;
  • Technická podpora s několika komunikačními kanály;
  • Velká knihovna hotových šablon, které lze podle potřeby upravit pro své úkoly;
  • Podpora nejpopulárnějších webových stránek a služeb z různých oblastí a témat.

Nevýhody

  • Nedostatek lokalizace do ruštiny;
  • Nedostatek šablon pro domácí webové stránky;
  • V době psaní recenze jsou aktuální verze Octoparse pro Windows a macOS dostupné pouze ve verzi beta. Předchozí (stabilní) se liší rozhraním a funkcionalitou.

Stáhnout zkušební verzi Octoparse

Stáhnout poslední verzi programu z oficiálních stránek