Como bloquear efetivamente a aranha do Sogou de rastrear o conteúdo do seu site?

方法一:使用robots.txt文件

要禁止搜狗蜘蛛爬取你的网站内容,可以通过建立robots.txt文件来实现。在文件中添加以下内容:

User-agent: Sogou web spider

Disallow: /

User-agent: sogou spider

Disallow: /

User-agent: *

Disallow:

因为不确定到底是sogou spider还是Sogou web spider,所以写了两条。其他搜索引擎在相关文章中通常会说明自己的蜘蛛名称,但搜狗没有,这也显示了它的一面。将文件上传到网站的根目录后生效。然而,需要注意的是,搜狗蜘蛛有时并不遵守robots.txt文件的协议,因此禁止它依然有可能爬取。

方法二:使用.htaccess文件

在配合robots.txt文件的情况下,可以再新建一个.htaccess文件。文件名为.htaccess,文件内添加以下内容:

#block spider

order allow,deny

#Sogou block

deny from 220.181.125.71

deny from 220.181.125.68

deny from 220.181.125.69

deny from 220.181.94.235

deny from 220.181.94.233

deny from 220.181.94.236

negar de 220.181.19.84

permitir de todos

</LIMIT>

Faça o upload deste arquivo para o diretório raiz do site. Os endereços IP listados são todos do Spider do Sogou, que são frequentemente alterados. Caso haja novos endereços IP, eles podem ser adicionados a qualquer momento.