正常访问状态! 设为首页 | 加入收藏夹 | 浏览历史  
  http://www.guosp.com
 碧海澜涛居
  海纳百川,有容乃大。壁立千刃,无欲则刚!
 
 
关键词:
  网站首页 | 关于本站 | 技术资料 | 美文日志 | 读书收藏 | 影视收藏 | 软件收藏 | 摄影相册| 留言板 
  技术资料 >> 网络安全 关闭(快捷键alt+C)
搜索标签: 网页抓取 抓取
[转]网页抓取和防抓取
[阅读次数:3313次]  [发布时间:2009年8月11日]

我有一个资料站,资料收集的比较全,引来的抓我页面的人自然也特别多,最孜孜不倦的就是“阿里巴巴”,下面我说说我分析出来的抓取的特性,以及防抓取的思路。
抓取特点分析

日志中固定时间段内大量相同IP访问不同页面
通常如果没有伪造agent,那么这些抓取的IP的agent是比较稀奇古怪的,要么就是没有
通常没有referer,而且有的话referer也可能是错误的,也就是无法到达的访问,比如所有referer都相同
通常只下载页面文件而不下载图片,JS,css等

最简单的防抓取的办法
      这个办法其实就是使用刚才分析的第一条和最后一条,对日志就行分析。

      第一步:在你的页面内隐藏一个css或js这类的文件,这个文件rewrite到程序,用程序生成并指定不需要缓存。这样你的日志里面每正常访问一次页面,也必定会正常访问一次那个js或css文件。(这一步可以省略,我自己就省略了)
      第二步:按时分析日志,找出pv超过设定的阀值的IP,且页面访问量和css文件访问量差距过大的IP(这一步我省略了,效果几乎没打折,因为超过阀值的正常访问者几乎没有)(我网站pv1:10左右,所以我设定的阀值是100)。
      第三步:对第二步找出来的IP进行过滤,分析,处理。我建议的处理步骤如下:

忽略搜索引擎BOT的ip
建立黑名单,恶意IP直接用iptables drop掉
对于IP极多的公司(比如阿里巴巴),可以对整个IP段,用程序软处理,比如每个内容页要求输入验证码。这样既达到防抓效果,有不太损害正常访问者的利益

      在我这样设定之后,要抓取我网站,唯一的办法就是每隔90条换一次IP,过几天我把,我写的分析日志的PHP代码放上来,





本页地址: [复制地址]
该页内容非本站原创 收藏自:http://jiny.me/archives/tag/%E9%98%B2%E6%8A%93%E5%8F%96
返回顶部 关闭(快捷键alt+C)
评论统计(0条)| 我要评论
暂无评论内容!
我要评论 
我要评论: 带*部分需要填写
 姓名称呼: * 请填写您的姓名或呢称
联系方式: QQ,MSN,Email都可以,方便交流 (仅管理员可见)
 评论内容: * 不超过100字符,50汉字
验证码:
    
  推荐链接
  最近更新  
·Host 'XXX' is not allowed...
·Win2008或IIS7的文件上传大...
·IIS7.0上传文件限制的解决方...
·测试信息2015-03-11
·asp.net中处理图片
·ASP.NET之Web打印-终极解决...
·Asp.net下C#调用Word模版实...
·asp.net下将页面内容导入到...
·asp.net导出为pdf文件
·asp.net生成pdf文件
·FCKeditor 文本编辑器的使用...
·ASP.NET 将数据生成PDF
·asp.net2.0导出pdf文件完美...
·AspJpeg的安装与测试
·JS验证浏览器版本对IE11的支...
  热门浏览  
·IE8和IE9出现“此网页上的问...
·无线路由器密码破解,教你断...
·js替换所有回车换行符
·QQ/MSN在线交流代码
·IE弹出“中国工商银行防钓鱼...
·如何取消键盘上的一些快捷键...
·win7声音小的解决方法
·webdav漏洞的利用
·强制两端对齐的函数或者CSS...
·win7下成功安装sql server ...
·显示器分辨率调的过高导致电...
·天诺时空技术技术论坛
·js验证手机号码格式
·JS展开和收缩效果(二)
·本地计算机上的 MSSQLSERVE...
  碧海澜涛居
网站首页关于本站站长简介开发案例技术资料美文日志摄影相册读书收藏影视收藏留言板
版权所有:碧海澜涛 QQ:410436434 Email:shaopo_guo@163.com 苏ICP备15000526号
免责声明:本站为个人网站,站内所有文字、图片等各类资料均为个人兴趣爱好所收集,不用作任何商业用途,亦不保证资料的真实性,若有因浏览本站内容而导致的各类纠纷,本站也不承担任何责任。本站部分内容来自互联网,如有涉及到您的权益或隐私请联系站长解决。