不用写代码的采集软件
如今采集数据的方法发展的已经比较成熟了,对于常用的网站和结构化的网站,可以使用数据采集软件进行数据采集。优点是不用写代码,基本不需要HTML知识,可视化操作,方便直观。缺点是不够灵活,但对于基本的需求已经够用了。
这里主要介绍中国公司开发的数据采集软件,其实都大同小异,我主要用过:后羿采集器 和 webscraper浏览器插件
这些软件大部分包含免费和付费功能。一般免费就够用。
有一个思路我认为是比较正确的,就是对于常用网站,前人已经写好了很多爬虫框架,拿来用就可以。比如 gooseeker集搜客 和
webscraper浏览器插件 的网站上,就有很多现成的写好的。对于一些比较特殊的数据,比如高德地图上商家的数据,我还遇到过不同地图坐标系不一样还要转换的问题。还有很多反爬策略等等。这些相对困难一些
,有专门的公司和专门的软件在做,不在这些“傻瓜”软件的使用范围之内。
名称 网址 简介
八爪鱼采集器 https://www.bazhuayu.com/
火车头采集器 http://www.locoy.com/
神采 http://www.sensite.cn/
探码Web大数据采集系统 http://www.tanmer.com/web-bigdata
后裔采集器 http://www.houyicaiji.com/
爬山虎采集器 http://www.51pashanhu.com/
ForeSpider前嗅 http://forenose.com/download.html
gooseeker集搜客 http://www.gooseeker.com/
发源地 http://www.finndy.com/
神箭手云爬虫 https://www.shenjian.io/
小草莓-全网采集助手 http://www.caomeixiao.com/
WebMagic http://webmagic.io/ 一个简单灵活的Java爬虫框架
DenseSpider https://studygolang.com/p/DenseSpider Go语言实现的高性能爬虫
scrapinghub https://www.scrapinghub.com/
prasehub https://www.parsehub.com/
Octoparse https://www.octoparse.com/ 国外软件
webscraper浏览器插件 http://www.iwebscraper.com/
胖鼠采集 WP
蓝天采集器
转自:https://www.chongbuluo.com/forum.php?mod=viewthread&tid=8194
本作品采用 知识共享署名-相同方式共享 4.0 国际许可协议 进行许可。