Como bloquear efetivamente a aranha do Sogou de rastrear o conteúdo do seu site?
方法一:使用robots.txt文件
要禁止搜狗蜘蛛爬取你的网站内容,可以通过建立robots.txt文件来实现。在文件中添加以下内容:
User-agent: Sogou web spider
Disallow: /
User-agent: sogou spider
Disallow: /
User-agent: *
Disallow:
因为不确定到底是sogou spider还是Sogou web spider,所以写了两条。其他搜索引擎在相关文章中通常会说明自己的蜘蛛名称,但搜狗没有,这也显示了它的一面。将文件上传到网站的根目录后生效。然而,需要注意的是,搜狗蜘蛛有时并不遵守robots.txt文件的协议,因此禁止它依然有可能爬取。
方法二:使用.htaccess文件
在配合robots.txt文件的情况下,可以再新建一个.htaccess文件。文件名为.htaccess,文件内添加以下内容:
#block spider
order allow,deny
#Sogou block
deny from 220.181.125.71
deny from 220.181.125.68
deny from 220.181.125.69
deny from 220.181.94.235
deny from 220.181.94.233
deny from 220.181.94.236
negar de 220.181.19.84
permitir de todos
</LIMIT>
Faça o upload deste arquivo para o diretório raiz do site. Os endereços IP listados são todos do Spider do Sogou, que são frequentemente alterados. Caso haja novos endereços IP, eles podem ser adicionados a qualquer momento.