我们已经准备好了,你呢?

2020我们与您携手共赢,为您的企业形象保驾护航!

  让我们先谈谈它。在多年(20。.。.。.00年)之前,我已经完成了网站流量统计系统。主流网站流量统计系统不超过两个策略:策略嵌入在网页中,此JS将向特定统计服务器发送请求以记录访问权限, 另一个策略是直接分析服务器日志。来到统计网站访问。

  在理想的情况下,嵌入式JS的网站流量应高于分析服务器日志。这是因为用户浏览器将具有缓存。不一定是每个真实用户访问都会触发服务器的过程。但实际情况是分析服务器日志获得的网站访问量远高于嵌入式JS模式。在极端情况下,甚至超过10倍。

  现在许多网站,如awstats要分析服务器日志,计算网站的数量,但是一旦他们使用Google Analytics计算网站的流量,但我发现GA的流量远远低于Awstats。因此,开始怀疑GA的准确性。实际上, GA的统计数据确实略低于真实的用户访问。但数据的真实性相对可靠。不会偏离特别大。原因略低,因为GA服务器有时不可用,还有一个访问javaeye使用白色列表的用户,他可以访问javaeye但无法访问GA服务器。此外, 在GA负载跳转到下一页之前,也可以等待用户尚不等。所以, 统计数据不是由GA计算的。

  那么为什么GA和AWSTATS统计数据有这么大的差异? 罪魁祸首是将自己放入浏览器的网络爬行动物中。封锁某些网络爬行动物以避免网站使用以识别用户代理商。我已修改自己的用户代理信息。IE6浏览器通常伪装成WindowsXP,还伪装成Firefox浏览器。在这种情况下, 无法有效识别awstats。所以Awstats的统计数据将很高。但说公平的话,这也不能怪你。它太令人尴尬,不仅无法有效识别AWStats,即使我们看起来,它通常无法识别。

  所以作为一个网站,如果您想知道您的网站的真实访问,我希望准确地了解网站和访问用户的每个频道的访问次数。开发自己的网站流量统计是非常必要的。Javaeye网站已开发出自己的网站流量统计系统。站点流量统计数据以JS嵌入页面中的方式实现。因此,我们可以准确掌握登录用户和非登录用户的比例,不同的访问偏好,Javaeye准确的流量和每个通道的比例,无法提供真实用户和分布的天然气的宝贵信息。

  Javaeye自己的交通统计系统, 虽然不被写于爬行动物,但但他可以帮助区分在线爬行动物。我们知道只有在用户使用浏览器访问该页面时才执行JS。爬网程序不会在页面内执行js。所以Rails的生产。日志中出现的IP地址,没有相应的流量统计系统来记录此IP地址。我们可以确定这个IP为99%是爬虫。如果爬虫作者专注于伪装实际IP,请向流量统计服务器启动请求,交通统计系统也有自己的防止作弊机制,和数据分析机制,以确定卓越的访问请求,这不会讨论这一点。

  简而言之, Javaeye流量统计系统提供了真正的IP作为参考标准。我们可以比较日志中出现的IP地址。如果日志中的日志推出了大量请求,在交通统计系统中, 它找不到它。甚至找到它,可访问金额只有少数,那么这无疑是一个网络爬行动物,我们可以直接通过iptably阻止C段地址。

  根据这一战略,我们可以重新调整障碍物。个统计数据。日志,统计访问200 C段地址,这仅需要shell命令:

  Grep处理。日志| awk'{打印$ 4}'| awk -f'。''{打印1美元。“2美元”。“3美元”。0“}'|排序| uniq -c | sort -r-n | head-n 200”stat_ip。日志

  这个200 C段地址是我们需要专注的对象。网络爬行动物在200 C段地址范围内。它的格式大致如下,显示访问请求的C段IP地址和请求:[页面]

  99650 203。208。60。0

  55813 123。125。66。0

  21131 221。235。58。0

  18360 72。14。1999年。0

  14632 121。0.29。0

  11789 202。165。185。0

  10539 61。135。216。0

  10153 65。55。106。0

  7001 65。55。211。0

  4240 65。55。207。0

  3789 219。133。0.0

  3721 194。8。74。0

  然后我们还需要流量统计系统的真实IP地址作为参考,这已经由交通统计系统提供。

  然后我们还需要准备一个白色列表列表,例如, 谷歌和百度的履带IP地址段,对于这些爬行动物,我们发布,抓取爬行了什么?有必要根据您网站的情况完全设置。例如, Javaeye当前的白名单(仍然合并):

  60。28。204。0掌握虾

建设公司网站

  61。135。163。0百度

  61。135。216。0

  65。55。106。0微软

  65。55。207。0微软

  65。55。211。0微软

  66。249。66。0谷歌

  72。14。1999年。0谷歌

  121。0.29。0阿里巴巴

  123。125。66。0百度

  124。115。10。0腾讯搜索

  124。115。11.0腾讯搜索

  124。115。12.0腾讯搜索

  203。208。60。0谷歌

  209。85。238。0谷歌

  219。239。34。0新鲜水果

  220。181。50。0百度

  220。181。61。0 Sogou.

  最后, 我们还需要准备一个IP地址库。对于那些被砸出的人,我们还需要识别他的身份。这是一个恶意爬行动物,是一个没有被置于美白清单的合法爬行动物吗?IP地址库很容易从Internet下载副本,所以不要讨论它。简而言之, 有这些材料,我们必须识别在线爬行动物非常简单。只需10行Ruby代码即可完成:

  白名单=[]

  IO。foreach(“#{rails_root}/ lib / whitelist。txt”) { |line| 白名单“”线。拆分[0]。条带if line}

  Realiplist =[]

  IO。foreach(“#{rails_root}网站建设广告/ log / viept_ip。log”) { |line| 实际主义“”线。条带if line}

  iplist =[]

  IO。foreach(“#{rails_root}/ log / stat_ip。日志“)做|线|

  IP =行。拆分[1]。条

  IPLIST“”IP IF线。拆分[0]。to_i“3000 &&!白名单。包括?(IP)&&!真正主义者。包括?(IP)

  结尾

  报告。overt_crawler(IPLAST)

  代码的实现非常简单。它是读取访问请求超过3的C段地址的数量,000次。根据经验,超过3个,000访问请求非常可疑。然后转到白名单中的C段地址,删除出现在真实访问列表中的IP地址段,最后一件事是一个高度可疑的C型地址。对于这些地址查询IP地址数据库信息,格式化报告以向我发送电子邮件。

  最后, 有必要简单地识别人类肉体。例如, 地址的源信息显示为“Google总部”,然后我知道此地址需要添加到白色列表中。删除肉眼识别的这些地址,剩下的将要完成。

  此外,对于这个简单的程序, 它需要进一步改善。例如, 根据Realiplist比较和排除并不简单。反而, 我还创建了一个IP段的统计数据, 和iplist。即使地址有真正的访问,仍然需要进一步筛选,使用此地址的请求数量除以Realiplist中的访问数,如果多个大于一个阈值, 1000,可以得出结论,它仍然是一个网络爬行动物。

  第四, 使用浏览器内核驱动网络爬行动物

  有人提到了在文章背后的评论中攀登的新方式。只是不要去爬山,反而, 以编程方式控制真正的浏览器核心来爬网站,由于浏览器内核实际上可以实现JS,因此它将被识别为真实的用户访问,从而避免了网站的检查机制。这种爬行动物是最难以识别爬行动物的。如果你仔细写作,我甚至可以欺骗谷歌的服务器。由于Safari的WebKit浏览器内核和Firefox的壁虎浏览器核心是开源,所以一个相对高的程序员自己写一个程序来驱动一个真正的浏览器核心,因为爬虫不是很困难。

  实际上, 这类履带我们也遇到了几次。但识别并不难,只需要一定的手动筛选机制,难以检测所有自动化屏幕。我们知道网站的真实用户访问不是短期营销活动。然后你将保持相对稳定的水平。如果网站的访问跳跃相对较大,或网站频道之间访问之间的突变,你可以得出结论,这样的爬虫出现了99%。[页]

  所以识别它很简单。统计并排序真正的访问IP,拿起超过3的前200个C段IP地址,000 IP段地址,然后删除白名单,最后, 使用IP地址数据库进行比较。根据经验,C段地址超过3,每天000访问。 这是访问Javaeye的大公司。但如果源C段不是阿里巴巴,IBM中国,搜狐,腾讯的地址,确定网络爬行动物可以是99%,直接使用iptables下载C段地址。

  简而言之,这样, 现在可以有效地识别伪装网络爬行动物。通过n多外商代理服务器分布式网络爬行动物,然而, 网站与爬行动物之间的战争永远不会结束,我们可以通过每日日志报告检测网站的健康状况。一旦发现数据报告,我知道有一个新的履带。然后,您可以通过日志分析找到新的方法来阻止它。


手机网站建设哪家便宜 网站建立公司报价 网站建设方案报价
我们凭借多年的网站建设经验,坚持以“帮助中小企业实现网络营销化”为宗旨,累计为4000多家客户提供品质建站服务,得到了客户的一致好评。如果您有网站建设、网站改版、域名注册、主机空间、手机网站建设、网站备案等方面的需求...
请立即点击咨询我们或拨打咨询热线: 13968746378,我们会详细为你一一解答你心中的疑难。项目经理在线
相关阅读

我们已经准备好了,你呢?

2020我们与您携手共赢,为您的企业形象保驾护航!

在线客服
联系方式

热线电话

13968746378

上班时间

周一到周六

公司电话

400-600-6240

二维码
线
在线留言