免费爬虫软件(神器!小白也能用的免费网络爬虫软件)

免费爬虫软件(神器!小白也能用的免费网络爬虫软件)

第190篇原创 文 | 老Y

说起爬虫,对于不熟悉编程的同学来说总有一丝神秘感,觉得离我们很远,其实爬虫的应用非常广泛,从搜索引擎,到抢票软件,这背后是网络爬虫的功劳。

今天老Y给大家推荐一款功能非常强大的网络爬虫软件,它的操作非常简单,适合小白,而且良心的是,免费功能足够使用!

它可以抓取涉及电商行业、新闻媒体、企业信息、生活服务、房源、休闲旅游等各类信息。

比如你可以抓取淘宝上某类商品的全部信息(图片、价格、店铺名称、月销量、累计评价……)

比如你可以抓取马蜂窝上所有泰国自由行的信息(攻略标题、阅读数、收藏量、攻略内容……)

……

是不是非常有趣?

更厉害的是!官网提供了大量的实战教程(文字版 视频版),也可以进行教程的搜索,对于小白选手来说,真是太棒了!

后羿采集器(http://www.houyicaiji.com)

下面,我们就以抓取马蜂窝上所有泰国自由行的信息为例,实际操作一下:

1、下载软件安装注册登录后,复制马蜂窝泰国自由行旅行攻略的网页。

2、新建智能模式采集任务

也可以在软件上直接新建采集任务,也可以通过导入规则来创建任务。

3、设置提取数据字段

智能模式下,输入网址后软件即可自动识别出页面上的数据并生成采集结果,每一类数据对应一个采集字段,可以右击修改字段名称、增减字段、处理数据等。

比如需要采集攻略的攻略标题、攻略链接、阅读量、体验人数以及封面图等信息,设置效果如下

4、提取详情页数据

列表页上有泰国自由行攻略的部分信息,我们需要攻略的具体内容,右击攻略链接使用“深入采集”功能,跳转到详情页进行采集。

在详情页面可以看到攻略的详细内容、评论数等信息,还可以看到非常多的图片,如果一 一设置字段,会非常多,而且每篇的图片位置不同,所以可以添加一个特殊字段,“页面PDF”。

5、设置采集任务

6、开始采集

7、提取数据

任务启动之后开始自动采集数据,可以直观的看到程序运行过程和采集结果,采集结束之后有提醒。

8、导出数据

好了,上面是一个简单的例子。看完之后,是不是发现,原来爬虫爬取数据也可以这么简单!有兴趣的小伙伴快去试试吧。

– End –

往期精选:

年终总结系列一,33大神器软件(建议收藏)

年终总结系列二,60大神器网站(建议收藏)

年终总结系列三,标题式文章汇总(建议收藏)

发表评论

登录后才能评论