如今采集数据的方法发展的已经比较成熟了,对于常用的网站和结构化的网站,可以使用数据采集软件进行数据采集。优点是不用写代码,基本不需要HTML知识,可视化操作,方便直观。缺点是不够灵活,但对于基本的需求已经够用了。

这里主要介绍中国公司开发的数据采集软件,其实都大同小异,我主要用过:后羿采集器 和 webscraper浏览器插件

这些软件大部分包含免费和付费功能。一般免费就够用。

有一个思路我认为是比较正确的,就是对于常用网站,前人已经写好了很多爬虫框架,拿来用就可以。比如 gooseeker集搜客 和
webscraper浏览器插件 的网站上,就有很多现成的写好的。

对于一些比较特殊的数据,比如高德地图上商家的数据,我还遇到过不同地图坐标系不一样还要转换的问题。还有很多反爬策略等等。这些相对困难一些
,有专门的公司和专门的软件在做,不在这些“傻瓜”软件的使用范围之内。

名称        网址        简介
八爪鱼采集器        https://www.bazhuayu.com/       
火车头采集器        http://www.locoy.com/       
神采        http://www.sensite.cn/       
探码Web大数据采集系统        http://www.tanmer.com/web-bigdata       
后裔采集器        http://www.houyicaiji.com/       
爬山虎采集器        http://www.51pashanhu.com/       
ForeSpider前嗅        http://forenose.com/download.html       
gooseeker集搜客        http://www.gooseeker.com/       
发源地        http://www.finndy.com/       
神箭手云爬虫        https://www.shenjian.io/       
小草莓-全网采集助手        http://www.caomeixiao.com/       
WebMagic        http://webmagic.io/        一个简单灵活的Java爬虫框架
DenseSpider        https://studygolang.com/p/DenseSpider        Go语言实现的高性能爬虫
scrapinghub        https://www.scrapinghub.com/       
prasehub        https://www.parsehub.com/       
Octoparse        https://www.octoparse.com/        国外软件
webscraper浏览器插件        http://www.iwebscraper.com/
胖鼠采集 WP
蓝天采集器
   

转自:https://www.chongbuluo.com/forum.php?mod=viewthread&tid=8194