robots和noindex使用和区别有哪些?

深圳SEO培训 2018-06-05 阅读:82

  深圳SEO培训:robots和noindex使用和区别有哪些?很多人对这个的认知比较模糊、今天深圳SEO培训就来为大家分析下,一起来看看吧:

  robots和noindex使用和区别

  robots介绍

  robots协议(也称为爬虫协议、爬虫规则、机器人协议等)也就是robots.txt,网站通过robots协议告诉搜索引擎哪些页面可以抓取,哪些页面不能抓取。Robots协议是网站国际互联网界通行的道德规范,其目的是保护网站数据和敏感信息、确保用户个人信息和隐私不被侵犯。因其不是命令,故需要搜索引擎自觉遵守。一些病毒如malware(马威尔病毒)经常通过忽略robots协议的方式,获取网站后台数据和个人信息。

robots和noindex使用和区别有哪些? SEO知识

  robots.txt文件的写法

  User-agent: * 这里的*代表的所有的搜索引擎种类,*是一个通配符

  Disallow: /admin/ 这里定义是禁止爬寻admin目录下面的目录

  Disallow: /require/ 这里定义是禁止爬寻require目录下面的目录

  Disallow: /ABC/ 这里定义是禁止爬寻ABC目录下面的目录

  Disallow: /cgi-bin/*.htm 禁止访问/cgi-bin/目录下的所有以".htm"为后缀的URL(包含子目录)。

  Disallow: /*?* 禁止访问网站中所有包含问号 (?) 的网址

  Disallow: /.jpg$ 禁止抓取网页所有的.jpg格式的图片

  Disallow:/ab/adc.html 禁止爬取ab文件夹下面的adc.html文件。

  Allow: /cgi-bin/这里定义是允许爬寻cgi-bin目录下面的目录

  Allow: /tmp 这里定义是允许爬寻tmp的整个目录

  Allow: .htm$ 仅允许访问以".htm"为后缀的URL。

  Allow: .gif$ 允许抓取网页和gif格式图片

  Sitemap: 网站地图 告诉爬虫这个页面是网站地图

  noindex介绍

  noindex是谷歌发明的一个HTML标签,其作用是向搜索引擎声明该网页禁止被索引收录。

  在做网站内部优化的时候可能会用到这个标签,有利于url的标准化。在实际的网站建设中,某些网站尤其是资讯类网站或者博客等,为了方便用户体验而把文章进行归类,用户可以直接通过分类的目录下的url进行访问,在这个时候为了集中权重,也为了防止避免高度重复内容,可以在这种页面加上noindex这个标签,这个时候noindex对于搜索引擎来说就起着一个内部301转向的作用,但是对于用户不会被转向,依然停留在不变的网址上,而搜索引擎会把页面的链接权重指定到代码所规范的url上。

  noindex的写法

  要防止所有漫游器将网站中的网页编入索引,请将以下元标记添加到网页的 部分:

  要允许其他漫游器将该网页编入索引而只阻止 Google 的漫游器,请将以下元标记置入其 部分:

  如果 Google 看到某一页上有 noindex 元标记,就[1] 会将此页从我们的搜索结果中完全丢弃,而不管是否还有其他页链接到此页。但是,其他搜索引擎可能会以不同的方式解译此指令。因此,指向相关网页的链接可能仍会显示在搜索结果中。

  请注意,由于我们必须抓取您的网页才能看到 noindex 元标记,因此在极少数情况下 Googlebot 可能会看不到和不遵循 noindex 元标记。如果您的网页仍显示在搜索结果中,可能是因为在您添加标记后我们尚未抓取过您的网站。(此外,如果您使用了robots.txt 文件拦截此网页,我们也无法看到此标记。)

  robots和noindex的区别

  1.noindex文件的作用是页面头信息中放上meta noindex标签是告诉搜索引擎不要索引这个URL,也就是用户搜索时找不到这个URL的信息,这个URL不会返回在搜索结果列表中

  2.robots文件是告诉搜索引擎,某些URL不要抓取。注意,这里说的是不要抓取,没说不要索引。和noindex是正相反的。


顶: 0踩: 0

评论(0)

二维码