Come impedire efficacemente al ragno di Sogou di accedere ai contenuti del tuo sito web?

Metodo uno: utilizzo del file robots.txt

Per impedire al ragno Sogou di indicizzare il contenuto del tuo sito web, puoi farlo creando un file robots.txt. Aggiungi il seguente contenuto al file:

User-agent: Sogou web spider

Disallow: /

User-agent: sogou spider

Disallow: /

User-agent: *

Disallow:

Poiché non si è certi se si tratta del ragno sogou spider o di Sogou web spider, sono state scritte entrambe le linee. Altri motori di ricerca di solito specificano il nome del loro ragno nei documenti correlati, ma Sogou non lo fa, il che mostra da quale parte sta. Carica il file nella directory radice del sito web per renderlo effettivo. Tuttavia, è importante notare che il ragno Sogou a volte non rispetta il protocollo del file robots.txt, quindi è comunque possibile che continui ad indicizzare il sito.

Metodo due: utilizzo del file .htaccess

In concomitanza con il file robots.txt, puoi creare un nuovo file .htaccess. Il nome del file è .htaccess e aggiungi il seguente contenuto al suo interno:

#blocca ragno

<Limit GET HEAD POST>

order allow,deny

#Blocco Sogou

deny from 220.181.125.71

deny from 220.181.125.68

deny from 220.181.125.69

deny from 220.181.94.235

deny from 220.181.94.233

deny from 220.181.94.236

negare da 220.181.19.84

consentire da tutti

\\/LIMIT\\/

Carica questo file nella directory radice del sito web. Gli indirizzi IP elencati sono tutti il ragno di Sogou, poiché cambiano spesso. Se ci sono nuovi indirizzi IP, possono essere aggiunti in qualsiasi momento.