如何有效禁止搜狗蜘蛛爬取你的网站内容?
方法一:使用robots.txt文件
要禁止搜狗蜘蛛爬取你的网站内容,可以通过建立robots.txt文件来实现。在文件中添加以下内容:
User-agent: Sogou web spider
Disallow: /
User-agent: sogou spider
Disallow: /
User-agent: *
Disallow:
因为不确定到底是sogou spider还是Sogou web spider,所以写了两条。其他搜索引擎在相关文章中通常会说明自己的蜘蛛名称,但搜狗没有,这也显示了它的一面。将文件上传到网站的根目录后生效。然而,需要注意的是,搜狗蜘蛛有时并不遵守robots.txt文件的协议,因此禁止它依然有可能爬取。
方法二:使用.htaccess文件
在配合robots.txt文件的情况下,可以再新建一个.htaccess文件。文件名为.htaccess,文件内添加以下内容:
#block spider
<Limit GET HEAD POST>
order allow,deny
#Sogou block
deny from 220.181.125.71
deny from 220.181.125.68
deny from 220.181.125.69
deny from 220.181.94.235
deny from 220.181.94.233
deny from 220.181.94.236
deny from 220.181.19.84
allow from all
</LIMIT>
将该文件上传到网站的根目录。其中列出的IP地址都是搜狗蜘蛛的,因其经常更换,如果有新的IP地址,可以随时补充进去。