记一次分析访问日志

php的日志太繁杂了,就自己写了个,看看爬虫都倒了什么鬼


php代码

<?php
$ua_file = "ua.txt";

$ua_data = date("Y/m/d H:i:s")."----".$_SERVER['REMOTE_ADDR']."\n";
$ua_data = $ua_data."http://".$_SERVER['HTTP_HOST'].$_SERVER['REQUEST_URI']."\n";
$ua_data = $ua_data.$_SERVER['HTTP_USER_AGENT']."\n";
$ua_data = $ua_data.$_SERVER['HTTP_REFERER']."\n";
$ua_data = $ua_data."\n";

$ffff = fopen($ua_file, 'a');  
fwrite($ffff, $ua_data);  
fclose($ffff);
?>

把上面的代码require 到index.php即可。


睡了一觉起来分析ua.txt,发现了个奇怪的东西


2014/11/30 04:49:18----110.85.5.77
http://hackblog.cn/
Mozilla/5.0 (compatible; MSIE 9.0; Windows NT 6.1; WOW64; Trident/5.0)


2014/11/30 04:51:10----110.85.5.77
http://hackblog.cn/
Mozilla/5.0 (compatible; Baiduspider/2.0; +http://www.baidu.com/search/spider.html)


2014/11/30 12:47:44----110.85.5.77
http://hackblog.cn/
Mozilla/5.0 (compatible; MSIE 9.0; Windows NT 6.1; WOW64; Trident/5.0)


上网查了下IP,基本上是日志里记录的百度爬虫。为什么User-Agent会变呢。之难道就是传说中的反作弊爬虫?还是说同一个外网出口下的人工审核(猫神提醒)?四点多就人工的话百度加班也是醉了。总之这个IP的确是做了“坏事”。

不管怎样,先把这个IP记录在案。


本文由Hack Blog原创,如需转载注明原文链接

作者:test 分类:SEO 浏览:1111 评论:0
留言列表
发表评论
来宾的头像