如何有效禁止搜狗蜘蛛爬取你的网站内容?

方法一:使用robots.txt文件

要禁止搜狗蜘蛛爬取你的网站内容,可以通过建立robots.txt文件来实现。在文件中添加以下内容:

User-agent: Sogou web spider

Disallow: /

User-agent: sogou spider

Disallow: /

User-agent: *

Disallow:

因为不确定到底是sogou spider还是Sogou web spider,所以写了两条。其他搜索引擎在相关文章中通常会说明自己的蜘蛛名称,但搜狗没有,这也显示了它的一面。将文件上传到网站的根目录后生效。然而,需要注意的是,搜狗蜘蛛有时并不遵守robots.txt文件的协议,因此禁止它依然有可能爬取。

方法二:使用.htaccess文件

在配合robots.txt文件的情况下,可以再新建一个.htaccess文件。文件名为.htaccess,文件内添加以下内容:

#block spider

<Limit GET HEAD POST>

order allow,deny

#Sogou block

deny from 220.181.125.71

deny from 220.181.125.68

deny from 220.181.125.69

deny from 220.181.94.235

deny from 220.181.94.233

deny from 220.181.94.236

deny from 220.181.19.84

allow from all

</LIMIT>

将该文件上传到网站的根目录。其中列出的IP地址都是搜狗蜘蛛的,因其经常更换,如果有新的IP地址,可以随时补充进去。