3808 0 0

发表于：06月19日 12:53 [ 只看楼主]

大数据时代，数据就是金钱，很多企业都为自己的网站运用了反爬虫机制，防止网页上的数据被爬虫爬走。简单低级的爬虫速度快，伪装度低，如果没有反爬机制，它们可以很快的抓取大量数据，甚至因为请求过多，造成服务器不能正常工作。而伪装度高的爬虫爬取速度慢，对服务器造成的负担也相对较小。所以反爬的重点先是把那种简单粗暴危害大的爬虫先阻击在门外，然后再来对付那些伪装度高的爬虫。

大数据时代如何保护数据，反爬虫窃取的实用思路和方法

大型网站，门户网站都会有自己的反爬虫制约机制。爬虫不是以浏览器方式来访问页面的，爬虫只下载网页的源代码这是区分爬虫与否的一个关键。

大数据时代如何保护数据，反爬虫窃取的实用思路和方法

反爬虫思路要考虑以下几点：

1、能被google、百度等正规搜索引擎爬虫抓取，不限流量和并发数；

2、阻止山寨爬虫的抓取；

3、反爬虫策略应该是实时检测的，而不是通过一段时间后的访问统计分析得出；

4、误判后的人性化处理；

大数据时代如何保护数据，反爬虫窃取的实用思路和方法

反爬虫的实用方法：

1、验证检查User-Agent；

2、增加图形验证、拖动、拼图等人机验证；

3、前端js script 实时计算 parameter 加给请求在后端进行验证；

4、检测 Cookie 中 session_id 的使用次数，如果超过限制，就阻止访问；

5、IP计数器，在 redis下给每个IP做计数，利用redis key的过期机制，每次计数累加时将key设定在一定的时间内过期。

6、动态生成url的key；

7、增加异地手机设备更换登录时需要动态验证手机短信；

8、异步加载嵌套在iframe里面的，并且 src="about:blank" ；

9、修改字体库让爬虫得到的数据不准确或者无用的数据（电商较多）；

10、ajax加载数据。

总结

大数据时代如何保护数据，反爬虫窃取的实用思路和方法

如果反爬机制过于严格，可能会误伤到真正的用户。如果既要和爬虫死磕，又要保证很低的误伤率，那么又会增加研发的成本。爬虫与反爬虫的斗争从未停止，反爬虫程序员一直在与爬虫程序员做斗争。

点赞 0
收藏
扫一扫分享朋友圈

二维码
分享

大数据时代如何保护数据，反爬虫窃取的实用

总结

所属社团

社团热门帖

大数据时代如何保护数据，反爬虫窃取的实用

总结

所属社团

课程推荐

社团热门帖