您的位置: 首页 新闻 技术支持

大多数情况下,我们都会使用robots.txt文件对搜索引擎蜘蛛的抓取行为进行限制,这是一种非常规范的做法。除此之外,我们还可以通过网页头部的META标签禁止搜索引擎抓取,这种方法的优点是只针对当前网页,操作起来比较灵活。


具体的代码非常简单,只需要在你的网页和之间插入一句:


<meta name="robots" content="属性值" />


其中的属性值可以按照要求从下面四选一:


1. CONTENT="INDEX,FOLLOW:可以抓取本页,而且可以顺着本页继续索引别的链接


2. CONTENT="NOINDEX,FOLLOW:不许抓取本页,但是可以顺着本页抓取索引别的链接


3. CONTENT="INDEX,NOFOLLOW:可以抓取本页,但是不许顺着本页抓取索引别的链接


4. CONTENT="NOINDEX,NOFOLLOW:不许抓取本页,也不许顺着本页抓取索引别的链接。


此外,还可以使用此句代码禁止搜索引擎为你的网页建立快照,方法是在属性值里面增加一个noarchive即可,因此,完整的代码示例演示如下:


<meta name="robots" content="NOINDEX,FOLLOW,noarchive" />


意思即禁止所有搜索引擎抓取本页面,但是可以通过本页面的链接去抓取别的页面,同时还禁止为本页面建立网页快照。


如果你只是想禁止某一个搜索引擎,那写非常简单,只需要将代码中的 robots 替换成对应搜索引擎的代号即可,如下:

20140527143052_81070.png

google蜘蛛: googlebot

百度蜘蛛:baiduspider

yahoo蜘蛛:slurp

alexa蜘蛛:ia_archiver

msn蜘蛛:msnbot

有道蜘蛛:YodaoBot和OutfoxBot

搜狗蜘蛛:sogou spider

SOSO蜘蛛:sosospider