如何使用robots.txt和详细
还
在中国,WebPort经理似乎引起了罗布斯.txt的重视,并且应该有一些朋友只是谈论今天的robots.txt的写作。
还
robots.txt基本介绍
还
robots.txt是一个纯文本文件,其中网站管理器可以声明机器人不想访问该站点,或者仅指定搜索引擎以包含指定的内容。
还
当搜索机器人(某些调用蜘蛛)访问一个站点时,它将首先检查是否存在robots.txt如果站点的根目录中有robots.txt。如果有的话,搜索机器人将根据本文件中的内容确定访问的范围;如果文件不存在,则搜索机器人沿链路抓取。
还
此外,robots.txt必须放在站点的根下,文件名必须小写。
还
robots.txt写作语法
还
首先,让我们带一个robots.txt例子:http://www.seovip.cn/robots.txt
还
访问上面的具体地址,我们可以看到robots.txt的特定内容如下:
还
#robots.txt文件来自http://www.seovip.cn
#所有机器人都将蜘蛛域名
还
用户代理: 高端网页设计定制*
不允许:
还
上面的文本表达式是允许所有搜索机器人访问www.seov.cn站点下的所有文件。
还
具体的语法分析:解释#后文的其中;用户代理:在机器人的名称后面,然后如果是*,您将参考所有搜索机器人;禁止:不允许访问的文件目录。
还
下面,我将列出robots.txt的一些特定用法:
还
允许所有机器人访问
还
用户代理: *
不允许:
还
或者您也可以构建一个空文件“/ robots.txt”文件
还
禁止所有搜索引擎的任何部分访问该网站
还
用户代理: *
不允许: /
还
禁止所有搜索引擎的所有部分访问以下示例中的网站(01,02,03目录)
还
用户代理: *
禁止:/ 01 /
脱离:/ 02 /
禁止:/ 03 /
还
禁止访问搜索引擎(以下示例中的Badbot)
还
用户代理:BADBOT
不允许: /
还
只允许搜索引擎(以下示例中的爬虫)
还
用户代理商:爬虫
不允许:
还
用户代理: *
不允许: /
还
此外,我认为有必要扩展,有些介绍机器人元:
还
机器人元标签主要用于一个具体页面。与其他元标签一样(例如语言,页面的描述,关键字等),机器人元标记也被放置在页面的<head> </ head>中,该页面专门用于告诉搜索引擎机器人如何捕获页面。内容。
还
机器人元标签:
还
在机器人元标签中没有任何情况,名称=“机器人”代表所有搜索引擎,可以写入特定搜索引擎的名称=“baiduspider”。内容部分有四个指令选项:索引,noindex,遵循,nofollow,“,”,“分隔。
还
索引指令告诉搜索机器人抓住页面;
还
以下指示搜索机器人可以继续沿着页面上的链接捕获;
还
机器人元标记的默认值是索引,除了InkTomi之外,对于IT,默认为索引,Nofollow。
还
通过这种方式,有四种组合:
还
<meta name =“机器人”content =“index,请按照”>
<meta name =“机器人”content =“noindex,按照”>
<meta name =“机器人”content =“index,nofollow”>
<元名称=“机器人”内容=“noindex,nofollow”>
还
在
还
<meta name =“机器人”content =“index,按照”>可以写入<元名称=“机器人”内容=“全部”>;
还
<meta name =“机器人”content =“noindex,nofollow“>您可以写入<meta name =”机器人“content =”none“>
还
目前,绝大多数搜索引擎机器人符合robots.txt的规则,以及机器人元标签,没有许多支持,但它们逐渐增加,如着名的搜索引擎谷歌完全支持,谷歌也增加了指令“档案”可以限制Google是否保留Web快照。例如:
还
<meta name =“googlebot”content =“索引,关注,漏斗”>
还
表示网站中页面的页面和沿页面追逐,但不保留Goolge上页面的页面快照。
还
如何使用robots.txt
还
robots.txt文件仅限于Web的搜索引擎roamor。这些漫游是自动的,如果他们访问网页,他们会看到是否有robots.txt文件,它会限制它对特定网页的访问权限。如果您想保护网站上的一些内容不受搜索引擎收入,Robots.txt是一个简单有效的工具。这是如何使用它。
还
如何将robots.txt文件放置
还
robots.txt本身是一个文本文件。它必须位于域的根目录中,名为“robots.txt”。子目录中的robots.txt文件是无效的,因为漫游者仅在域名的根目录中查找此文件。例如,http://www.example.com/robots.txt是一个有效的位置,http://www.example.com/mysite/robots.txt不是。
还
这是robots.txt的一个例子:
还
用户代理: *
还
禁止:/ cgi-bin /
还
禁止:/ tmp /
还
禁止:/?姓名/
使用robots.txt文件拦截或删除整个网站?
还
要从搜索引擎中删除您的网站,请稍后阻止所有漫游者抓取您的网站,将以下robots.txt文件放入服务器的根目录中:
还
用户代理: *
还
不允许: /
还
要从Google删除您的网站并只需防止GoogleBot爬行您的网站,请将以下robots.txt文件放入服务器的根目录中:
用户代理:GoogleBot
还
不允许: /
还
每个端口都应该有自己的robots.txt文件。特别是当您通过HTTP和HTTPS管理内容时,这些协议需要自己的robots.txt文件。例如,让GoogleBot仅适用于所有HTTP Web页面,而不是Https页面,并且应该使用以下robots.txt文件。
对于HTTP协议(http://yoursver.com/robots.txt):
还
用户代理: *
还
允许: /
还
对于HTTPS协议(https://yourserver.com/robots.txt):
还
用户代理: *
还
不允许: /
还
允许所有漫游访问您的网页
用户代理: *
还
不允许:
还
(另一种方法:建立一个空的“/robots.txt”文件,或者不使用robot.txt。)
还
块或使用robots.txt文件删除网页
还
您可以使用robots.txt文件来阻止GoogleBot在您的网站上爬行。例如,如果您手动创建robots.txt文件以阻止googleboot抓取某个目录的所有网页(例如,private),则可以使用以下robots.txt条目:?
还用户代理:GoogleBot
还
不喜欢:/私人
为防止GoogleBot获取特定文件类型的所有文件(例如,.gif),您可以使用以下robots.txt条目:
用户代理:GoogleBot
还
不喜欢:/*.gif $
为防止GoogleBot爬行包含的所有URL? (特别是,此URL从域名开始,然后拍摄任何字符串,然后询问问题,然后询问任何字符串),您可以使用以下条目:
用户代理:GoogleBot
还
不允许: / *?
还
虽然我们不抓住由robots.txt阻止的Web内容或为其准备索引,但如果我们在网络上的其他页面发现这一点,我们仍然可以抓取其URL并准备索引。因此,网址和其他公开的信息, 例如,在网站链接中的定位文本,可能会出现在Google搜索结果中。但是,您的网页上的内容将不会被捕获,准备索引和显示。
还
作为网站管理员工具的一部分,Google提供robots.txt分析工具。它可以以与GoogleBot读取robots.txt文件相同的方式读取该文件,并且可以为Google用户代理提供结果(例如GoogleBoT)。我们强烈建议您使用它。在创建robots.txt文件之前,必须考虑用户可以搜索哪些内容,并且不应搜索到哪些内容。通过这种方式,通过合理使用robots.txt,搜索引擎保证了将用户带到您的网站时不包含隐私信息。
还
还
???误解:我网站上的所有文件都需要蜘蛛捕获,然后我不必添加robots.txt文件。无论如何,如果文件不存在,所有搜索蜘蛛都将默认访问在网站上不受密码保护的所有页面。
还
每当用户尝试访问不存在的URL时,服务器记录日志中的404错误(无法查找文件)。每当您搜索蜘蛛寻找不存在的robots.txt文件时,服务器还将在日志中记录404错误,因此您应该将robots.txt添加到您的网站。
误解2:蜘蛛可以搜索robots.txt文件中的所有文件,可以增加网站的发生率。
程序脚本,样式表等,即使它们由蜘蛛包含,它们也不会增加网站的发生率,只浪费服务器资源。因此,您必须在robots.txt文件中设置文件。
需要排除哪些文件,并在robots.txt技能中详细介绍。
误解3:搜索蜘蛛捕获网页过于废物服务器资源,将所有搜索蜘蛛设置在robots.txt文件中。所有搜索蜘蛛都无法抓住所有搜索蜘蛛。
如果这是, 它将导致整个网站不能包含在搜索引擎中。
robots.txt使用技能
1.每当用户尝试访问不存在的URL时,服务器会在日志中记录404错误(无法查找文件)。每当搜索蜘蛛找到不存在的robots.txt文件时,服务器还将在日志中记录404错误,因此您应该将robots.txt添加到网站上。
还
2.网站管理员必须在某些服务器上脱离目录的蜘蛛计划 - 保证服务器性能。例如,大多数Web服务器都有“CGI-Bin”目录中的程序,因此在robots.txt文件中加入“禁止:网站建设一般要多少钱/ cgi-bin”是一个好主意,它可以通过蜘蛛避免所有程序文件,可以保存服务器资源。不需要常规网站中蜘蛛的文件是:背景管理文件,程序脚本,配件,数据库文件,编码文件,样式表文件,模板文件,导航图片和背景图像等。
以下是westcms中的robots.txt文件:
用户代理: *
不喜欢:/ admin / background management文件
禁止:/再生/程序文件
脱离:/附件/配件
不喜欢:/图像/图片
禁止:/数据/数据库文件
不喜欢:/模板/模板文件
不喜欢:/ CSS / STYLE表单
禁止:/ lang / code文件
禁止:/脚本/脚本文件
3.如果您的网站是动态Web,则为搜索蜘蛛创建这些动态网页的静态副本。然后,您需要设置以避免robots.txt文件中的动态网页以确保这些页面不被视为重复。
4. robots.txt文件也可以直接包含在站点地图文件链接中。像这样:
网站地图:sitemap.xml.
搜索在这里支持的引擎公司有谷歌,雅虎, 问和msn。中国搜索引擎公司显然不是在这个圈子里。这样做的优点是网站管理员不必转到每个搜索引擎的网站管理员工具或类似的网站管理员部分,要提交自己的站点地图文件,搜索引擎spider将grabbots.txt文件,读取它的站点地图路径后跟页面后跟页面链接。
5.合理使用robots.txt文件以避免访问。例如,您不能让搜索者直接输入购物车页面。因为没有理由使得购物车包含,所以您可以将其设置为robots.txt文件,以防止直接搜索进入购物车页面。
企业网站建设服务
网站建设的多少钱 营销型网站的公司 营销网站建设公司
请立即点击咨询我们或拨打咨询热线: 13968746378,我们会详细为你一一解答你心中的疑难。项目经理在线