robots文件中Disallow是什么意思

大家都知道，网站采用robots.txt文件可以使搜索引擎的“蜘蛛”按照文件中确定的范围来访问，不会访问到对网站排名不利的内容。那么robots.txt文件是怎么工作的呢?我们又该如何使用robots.txt文件呢？
【robots文件中Disallow是什么意思】

文章插图
robots.txt文件
一、robots.txt文件工作原理
1.robots.txt 是一个纯文本文件，通过在这个文件中声明该网站中不想被 robots 访问的部分，这样，该网站的部分或全部内容就可以不被搜索引擎收录了，或者指定搜索引擎只收录指定的内容。
2.当一个搜索引擎“蜘蛛”访问一个站点时，它会首先检查该站点根目录下是否存在 robots.txt，如果找到，搜索引擎“蜘蛛”就会按照该文件中的内容来确定访问的范围。如果该文件不存在，那么搜索引擎“蜘蛛”就沿着链接抓取。
3.robots.txt 必须放置在一个站点的根目录下，而且文件名必须全部小写。
二、robots.txt文件的设置
1.User-agent的设置
在”robots.txt”文件中，如果有多条 User-agent 记录说明有多个 robot 会受到”robots.txt”的限制，对该文件来说，至少要有一条 User-agent 记录。如果该项的值设为*，则对任何 robot均有效，在”robots.txt”文件中，”User-agent:*”这样的记录只能有一条。
2.Disallow的设置
这个值可以是一条完整的路径，也可以是路径的非空前缀，以 Disallow 项的值开头的URL不会被 robot 访问。
3.Allow的设置
与 Disallow 项相似，这个值可以是一条完整的路径，也可以是路径的前缀，以 Allow项的值开头的 URL是允许robot访问的。
三、robots.txt文件使用技巧
1. 每当用户试图访问某个不存在的 URL 时，服务器都会在日志中记录 404 错误（无法找到文件）。每当搜索引擎“蜘蛛”来寻找并不存在的 robots.txt 文件时，服务器也将在日志中记录一条 404 错误，所以你应该在网站中添加一个 robots.txt 。
2. 网站管理员必须使蜘蛛程序远离某些服务器上的目录——保证服务器性能。
3. 如果网站是动态网页，动态网页创建了静态副本，以供搜索蜘蛛更容易抓取。那么需要在 robots.txt 文件里设置避免动态网页被蜘蛛索引，以保证这些网页不会被视为含重复内容。
4. robots.txt 文件里还可以直接包括在 sitemap 文件的链接。
5. 合理使用 robots.txt 文件还能避免访问时出错。比如，不能让搜索者直接进入购物车页面。因为没有理由使购物车被收录，所以你可以在 robots.txt文件里设置来阻止搜索者直接进入购物车页面。

特别声明：本站内容均来自网友提供或互联网，仅供参考，请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系，我们将在24小时内删除。