蓝天采集器配合巨量HTTP设置代理IP详细教程

发布日期:2023-04-28

       蓝天采集器(SkyCaiji)一款网页爬虫系统,采用PHP+Mysql开发,可部署在云端服务器和虚拟主机中,使用浏览器即可采集数据。软件免费无限制使用,规则和插件可自定义开发。软件支持多级、多页、分页采集,自定义采集规则(支持正则、XPATH、JSON等)精准匹配任意信息流,几乎能采集所有类型的网页,绝大多数文章类型页面内容可实现智能识别。

 

       哪么,此系统在采集数据的过程是如果配合代理ip使用,提高采集效率?今天巨量http小编就给大家详细的介绍下:

 

准备工作:

1,下载并安装蓝天采集器运行环境(点击官网直达

2,HTTP代理IP(推荐巨量HTTP,每日赠送1000IP,长期免费),生产API链接,备用

 

蓝天采集器设置代理IP详细教程:

第一步:通过蓝天采集器官网的教程,搭建并运行系统,找到后台“设置”栏,点击“采集设置”,在点击“代理”进入到设置页面,第一部分详细设置如下(如下图):

全局开启:

使用分组IP:全部(默认)

失败多少次屏蔽该IP:推荐“5”(可根据自己业务对采集数据的需求设定)

IP使用策略:推荐“按时长使用”(可根据购买的代理ip类型选择)

 

蓝天采集器配合巨量HTTP设置代理IP详细教程

 

蓝天采集器配合巨量HTTP设置代理IP详细教程

 

第二步:设置代理ip的相关配置,详细如下(如下图):

使用:

IP入库时机:数据库中无可用IP时(默认)

API接口:接口

接口地址:输入巨量HTTP平台生成的API链接,填写其中

抓取间隔(分钟):根据开通的代理ip套餐ip时长决定(巨量http免费套餐默认1~5分钟,所以设置在3分钟左右即可)

匹配格式:默认信息

代理类型:http(切记,别选错)

默认设置:默认用户名,默认密码(此项只限设置socks5代理时会用到)

代理分组:

 

蓝天采集器配合巨量HTTP设置代理IP详细教程

 

第三步:以上设置完成,点击底部“测试抓取IP”,当返回“成功”时,则设置正常,证明代理ip的配置就是没问题。

 

完成以上,在返回到其它设置栏,做好相关采集设置选项,就可以开启数据采集了,整体设置不难,希望能有效的帮助到大家。

 

巨量HTTP已向众多互联网知名企业提供服务,专注提供长效静态ip,短效动态ip,隧道代理ip,当前节点覆盖全国200+城市,日产千万高品质ip池,ip连通率高达99%,对提高爬虫的抓取效率提供有效帮助,支持API批量使用,支持多线程高并发使用。

3D城市图标

巨量IP VIP测试免费开通

覆盖全国200+城市地区线路,日活跃IP超200万个,注册每日送1000IP

立即领取
巨量IP公众号二维码

关注巨量HTTP公众号

巨量IP代理logo

Copyright © 版权所有 湖北巨量云科技有限公司

本模板版权局已登记·盗版必究,登记号:黔作登字-2021-F-00331209

GitHub图标 QQ图标 微信图标
免责声明 巨量IP倡导绿色合规经营,保障服务绿色、便捷、合法一直是我们的初衷,为积极响应落实《中华人民共和国网络安全法》,巨量IP要求所有用户必须实名认证,用户行为日志保存完整,并严格依据《巨量IP服务协议》对用户行为进行规范管理;用户使用巨量IP从事的任何行为均不代表巨量IP的意志和观点,与巨量IP的立场无关。严禁用户使用巨量IP从事任何违法犯罪行为, 产生的相关责任用户自负,对此巨量IP不承担任何法律责任。