［转］网页抓取和防抓取

正常访问状态！

http://www.guosp.com
碧海澜涛居
海纳百川，有容乃大。壁立千刃，无欲则刚！

关键词：

技术资料 >> 网络安全

搜索标签：网页抓取抓取
［转］网页抓取和防抓取
[阅读次数：3543次] [发布时间：2009年8月11日]
我有一个资料站，资料收集的比较全，引来的抓我页面的人自然也特别多，最孜孜不倦的就是“阿里巴巴”，下面我说说我分析出来的抓取的特性，以及防抓取的思路。抓取特点分析日志中固定时间段内大量相同IP访问不同页面通常如果没有伪造agent，那么这些抓取的IP的agent是比较稀奇古怪的,要么就是没有通常没有referer，而且有的话referer也可能是错误的，也就是无法到达的访问，比如所有referer都相同通常只下载页面文件而不下载图片，JS，css等最简单的防抓取的办法这个办法其实就是使用刚才分析的第一条和最后一条，对日志就行分析。第一步：在你的页面内隐藏一个css或js这类的文件，这个文件rewrite到程序，用程序生成并指定不需要缓存。这样你的日志里面每正常访问一次页面，也必定会正常访问一次那个js或css文件。（这一步可以省略，我自己就省略了）第二步：按时分析日志，找出pv超过设定的阀值的IP，且页面访问量和css文件访问量差距过大的IP（这一步我省略了，效果几乎没打折，因为超过阀值的正常访问者几乎没有）（我网站pv1：10左右，所以我设定的阀值是100）。第三步：对第二步找出来的IP进行过滤，分析，处理。我建议的处理步骤如下：忽略搜索引擎BOT的ip 建立黑名单，恶意IP直接用iptables drop掉对于IP极多的公司（比如阿里巴巴），可以对整个IP段，用程序软处理，比如每个内容页要求输入验证码。这样既达到防抓效果，有不太损害正常访问者的利益在我这样设定之后，要抓取我网站，唯一的办法就是每隔90条换一次IP，过几天我把，我写的分析日志的PHP代码放上来，本页地址： [复制地址] 该页内容非本站原创收藏自：http://jiny.me/archives/tag/%E9%98%B2%E6%8A%93%E5%8F%96
返回顶部

评论统计（0条）| 我要评论

暂无评论内容！

我要评论

我要评论：

带*部分需要填写

姓名称呼：

* 请填写您的姓名或呢称

联系方式：

QQ,MSN,Email都可以，方便交流 (仅管理员可见)

评论内容：

* 不超过100字符，50汉字

验证码：

推荐链接

最近更新

·Host 'XXX' is not allowed...
·Win2008或IIS7的文件上传大...
·IIS7.0上传文件限制的解决方...
·测试信息2015-03-11
·asp.net中处理图片
·ASP.NET之Web打印－终极解决...
·Asp.net下C#调用Word模版实...
·asp.net下将页面内容导入到...
·asp.net导出为pdf文件
·asp.net生成pdf文件
·FCKeditor 文本编辑器的使用...
·ASP.NET 将数据生成PDF
·asp.net2.0导出pdf文件完美...
·AspJpeg的安装与测试
·JS验证浏览器版本对IE11的支...

碧海澜涛居

网站首页｜关于本站｜站长简介｜开发案例｜技术资料｜美文日志｜摄影相册｜读书收藏｜影视收藏｜留言板

免责声明：本站为个人网站，站内所有文字、图片等各类资料均为个人兴趣爱好所收集，不用作任何商业用途，亦不保证资料的真实性，若有因浏览本站内容而导致的各类纠纷，本站也不承担任何责任。本站部分内容来自互联网，如有涉及到您的权益或隐私请联系站长解决。