Semalt poskytuje výsledky testů nástrojů Web Scraping

Každý uživatel se potýká se dvěma možnostmi, když chce používat nástroje pro stírání webu. Používají buď běžnou škrabku na webu nebo škrabku na míru. Zatímco vlastní škrabka je lepší volbou, mnoho lidí se jí vyhýbá kvůli vysokým nákladům. Tento nástroj musí být vyvinut tak, aby vyhovoval vašemu podnikání a preferencím, takže vyžaduje hodně práce.

Na druhé straně jsou webové škrabky na skladě příliš obecné, protože jsou určeny pro obecné úkoly při škrabání na webu. Obvykle jsou lepší v některých projektech webového škrabání a dělají jiné práce. Abychom vám pomohli správně se rozhodnout, některé webové škrabky byly podrobeny důkladným testům seškrabávání na webu a výsledky jsou zobrazeny níže.

Kritéria testu

Webové škrabky byly testovány na následujících běžných úkolech extrakce dat. Byli testováni na jejich schopnost stírat tabelární zprávy, textové seznamy a přihlašovací formuláře. Kromě toho byly webové škrabky testovány také na schopnost extrahovat data z dynamických webových stránek postavených na AJAX. To je obvykle jeden z nejtěžších úkolů pro mnoho webových škrabek. Jejich schopnost zvládnout Captchu byla také podrobena zkoušce. Nakonec byli testováni na schopnost zpracovat rozvržení bloků.

Výsledky testů

Webové nástroje pro škrabání, které byly testovány, jsou Content Grabber, Visual Web Ripper, Helium Scraper, Screen Scraper, OutWit Hub, Mozenda, WebSundew Extractor, Web Content Extractor a Easy Web Extractor.

Výsledky ukázaly, že Content Grabber je nejlepší, protože výborně fungoval ve všech testovaných oblastech. Proto získal nejvyšší průměrné hodnocení. Bylo také zjištěno, že všechny nástroje pro stírání webu byly schopny stírat přihlašovací formuláře a také stírat data z webových stránek vytvořených pomocí AJAX. Takže pokud jsou to dva důvody, proč potřebujete webovou škrabku, můžete si vybrat kteroukoli z nich. Všichni si vedli velmi dobře v obou oblastech.

Vedle výkonu ve hře Grabber obsahu je Visual Web Ripper. Fungovalo dobře ve všech oblastech, ale ne tak dobře, jako Content Grabber, takže dosáhlo průměrného hodnocení 4,5. Dalším webovým nástrojem je Helium Scraper. Jeho výkon je téměř stejně dobrý jako u Visual Web Ripper. Jediným problémem s Helium Scraper je jeho špatný výkon při manipulaci s rozvržením bloků.

Podle výsledků testů byly nástroje pro webový škrabání prováděny v tomto pořadí: Grabber obsahu, Visual Web Ripper, Helium Scraper, Screen Scraper, OutWit Hub, Mozenda, WebSundew Extractor, Web Content Extractor a Easy Web Extractor, které zvyšují nejhorší výkon. .

Závěr

S ohledem na výše analyzované výsledky testů získal Content Grabber hodnocení 5 ve všech testovacích kategoriích. Takže to je samozřejmě nejlepší. Možná to budete muset vyzkoušet také. Bohužel, dva webové škrabky se z testu vytáhly z různých důvodů. Vývojáři produktu Web Data Extractor a WebHarvy vytáhli své produkty z testu.

Přestože se testu nezúčastnili, o obou se dozvědělo několik věcí. WebHarvy je navržen pro stírání dat z dobře naformátovaných stránkovaných seznamů, zatímco Web Data Extractor slouží výhradně k shromažďování e-mailů, adres URL atd.