大家都知道,网站采用robots.txt文件可以使搜索引擎的“蜘蛛”按照文件中确定的范围来访问,不会访问到对网站排名不利的内容 。那么robots.txt文件是怎么工作的呢?我们又该如何使用robots.txt文件呢?
【robots文件中Disallow是什么意思】

文章插图
robots.txt文件
一、robots.txt文件工作原理
1.robots.txt 是一个纯文本文件,通过在这个文件中声明该网站中不想被 robots 访问的部分,这样,该网站的部分或全部内容就可以不被搜索引擎收录了,或者指定搜索引擎只收录指定的内容 。
2.当一个搜索引擎“蜘蛛”访问一个站点时,它会首先检查该站点根目录下是否存在 robots.txt,如果找到,搜索引擎“蜘蛛”就会按照该文件中的内容来确定访问的范围 。如果该文件不存在,那么搜索引擎“蜘蛛”就沿着链接抓取 。
3.robots.txt 必须放置在一个站点的根目录下,而且文件名必须全部小写 。
二、robots.txt文件的设置
1.User-agent的设置
在”robots.txt”文件中,如果有多条 User-agent 记录说明有多个 robot 会受到”robots.txt”的限制,对该文件来说,至少要有一条 User-agent 记录 。如果该项的值设为*,则对任何 robot均有效,在”robots.txt”文件中,”User-agent:*”这样的记录只能有一条 。
2.Disallow的设置
这个值可以是一条完整的路径,也可以是路径的非空前缀,以 Disallow 项的值开头的URL不会被 robot 访问 。
3.Allow的设置
与 Disallow 项相似,这个值可以是一条完整的路径,也可以是路径的前缀,以 Allow项的值开头的 URL是允许robot访问的 。
三、robots.txt文件使用技巧
1. 每当用户试图访问某个不存在的 URL 时,服务器都会在日志中记录 404 错误(无法找到文件) 。每当搜索引擎“蜘蛛”来寻找并不存在的 robots.txt 文件时,服务器也将在日志中记录一条 404 错误,所以你应该在网站中添加一个 robots.txt 。
2. 网站管理员必须使蜘蛛程序远离某些服务器上的目录——保证服务器性能 。
3. 如果网站是动态网页,动态网页创建了静态副本,以供搜索蜘蛛更容易抓取 。那么需要在 robots.txt 文件里设置避免动态网页被蜘蛛索引,以保证这些网页不会被视为含重复内容 。
4. robots.txt 文件里还可以直接包括在 sitemap 文件的链接 。
5. 合理使用 robots.txt 文件还能避免访问时出错 。比如,不能让搜索者直接进入购物车页面 。因为没有理由使购物车被收录,所以你可以在 robots.txt文件里设置来阻止搜索者直接进入购物车页面 。
- 乳清蛋白和全脂奶粉哪种好 最好的中老年蛋白质粉排名
- 有没有什么养生的小茶方中草药 平时喝什么养生饮品最好
- 为什么用食指指着一个人的额头中心 按印堂的作用及好处
- 中医如何做到两者兼顾养生调理 阴虚和阳虚同时存在吃什么药
- 吃中药会推迟吗 延时中药配方
- 中医是如何治疗传染病的 八个偏方治好尿毒症
- 血氧仪|?家中有必要自备血氧仪制氧机吗 制氧机怎么选择
- 中医心理学与西方心理学差别在哪里 华夏心理咨询培训机构怎么样
- 中秋节的来历17个字 中秋节的来历
- 中医也无法根治糖尿病吗 糖尿病如何治疗哪种好用
特别声明:本站内容均来自网友提供或互联网,仅供参考,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。
