Come impedire efficacemente al ragno di Sogou di accedere ai contenuti del tuo sito web?
Metodo uno: utilizzo del file robots.txt
Per impedire al ragno Sogou di indicizzare il contenuto del tuo sito web, puoi farlo creando un file robots.txt. Aggiungi il seguente contenuto al file:
User-agent: Sogou web spider
Disallow: /
User-agent: sogou spider
Disallow: /
User-agent: *
Disallow:
Poiché non si è certi se si tratta del ragno sogou spider o di Sogou web spider, sono state scritte entrambe le linee. Altri motori di ricerca di solito specificano il nome del loro ragno nei documenti correlati, ma Sogou non lo fa, il che mostra da quale parte sta. Carica il file nella directory radice del sito web per renderlo effettivo. Tuttavia, è importante notare che il ragno Sogou a volte non rispetta il protocollo del file robots.txt, quindi è comunque possibile che continui ad indicizzare il sito.
Metodo due: utilizzo del file .htaccess
In concomitanza con il file robots.txt, puoi creare un nuovo file .htaccess. Il nome del file è .htaccess e aggiungi il seguente contenuto al suo interno:
#blocca ragno
<Limit GET HEAD POST>
order allow,deny
#Blocco Sogou
deny from 220.181.125.71
deny from 220.181.125.68
deny from 220.181.125.69
deny from 220.181.94.235
deny from 220.181.94.233
deny from 220.181.94.236
negare da 220.181.19.84
consentire da tutti
\\/LIMIT\\/
Carica questo file nella directory radice del sito web. Gli indirizzi IP elencati sono tutti il ragno di Sogou, poiché cambiano spesso. Se ci sono nuovi indirizzi IP, possono essere aggiunti in qualsiasi momento.