¿Cómo puedo controlar bots, arañas y rastreadores?

Generalidades

Los bots, las arañas y otros rastreadores que lleguen a tus páginas dinámicas pueden causar un uso extenso de recursos (memoria y CPU). Esto puede generar una gran carga en el servidor y ralentizar tu(s) sitio(s).

Una opción para reducir la carga del servidor de bots, arañas y otros rastreadores es crear un archivo "robots.txt" en la raíz de su sitio web. Esto le dice a los motores de búsqueda qué contenido en tu sitio deben y no deben indexar. Esto puede ser útil, por ejemplo, si deseas mantener una parte de tu sitio fuera del índice del motor de búsqueda de Google.

Si prefieres no crear este archivo tú mismo, puedes hacer que DreamHost cree uno automáticamente (por dominio) en la página Block Spiders.

Si bien la mayoría de los principales motores de búsqueda respetan las directivas de robots.txt, este archivo solo actúa como una sugerencia para los motores de búsqueda compatibles y no impide que los motores de búsqueda (u otras herramientas similares, como los raspadores de correo electrónico/contenido) accedan al contenido o lo hagan disponible.

Bloquear robots

El problema puede ser que Google, Yahoo u otro robot de motor de búsqueda está navegando demasiado en tu sitio. (Este es el tipo de problema que se alimenta a sí mismo; si el bot no puede completar su búsqueda debido a la falta de recursos, puede iniciar la misma búsqueda una y otra vez).

Bloquear Googlebots

En el siguiente ejemplo, la IP de 66.249.66.167 se encontró en tu access.log. Puedes verificar a qué compañía pertenece esta IP ejecutando el comando "host" a través de SSH:

[server]$ host 66.249.66.167
167.66.249.66.in-addr.arpa domain name pointer crawl-66-249-66-167.googlebot.com.

Para bloquear este robot de Google, usa lo siguiente en tu archivo robots.txt:

# go away Googlebot
User-agent: Googlebot
Disallow: /

Explicación de los campos anteriores:

# go away
Este es un comentario que solo se usa para que sepas por qué creó esta regla.
User-agent
El nombre del bot al que se aplicará la siguiente regla.
Disallow
La ruta de la URL que desea bloquear. Esta barra diagonal significa que se bloqueará todo el sitio.

Ve más información sobre los robots de Google haciendo clic en lo siguiente:

Bloquear Yahoo

Los robots rastreadores de Yahoo cumplen con la regla crawl-delay en robots.txt que limita su actividad de recuperación. Por ejemplo, para decirle a Yahoo que no busque una página más de una vez cada 10 segundos, debes agregar lo siguiente:

# slow down Yahoo
User-agent: Slurp
Crawl-delay: 10

Explicación de los campos anteriores:

# slow down Yahoo
Este es un comentario que solo se usa para que sepas por qué creó esta regla.
User-agent: Slurp
Slurp es el nombre del agente de usuario de Yahoo. Debes usar esto para bloquear Yahoo.
Crawl-delay
Le dice al agente de usuario que espere 10 segundos entre cada solicitud al servidor.

Ve más información sobre los robots de Yahoo haciendo clic en lo siguiente:

Retardar buenos bots

Usa lo siguiente para ralentizar algunos, pero no todos, los buenos bots:

User-agent: * 
Crawl-Delay: 10

Explicación de los campos anteriores:

User-agent: *
Se aplica a todos los Agentes de usuario.
Crawl-delay
Le dice al agente de usuario que espere 10 segundos entre cada solicitud al servidor.

Google Bots

Bloquear todos los bots

Para desabilitar todos los robots:

User-agent: *
Disallow: /

Para rechazarlos en una carpeta específica:

User-agent: *
Disallow: /yourfolder/

Los bots defectuosos pueden usar este contenido como una lista de objetivos.

Explicación de los campos anteriores:

User-agent: *
Se aplica a todos los Agentes de usuario.
Disallow: /
No permite la indexación de todo.
Disallow: /yourfolder/
No permite la indexación de esta carpeta única.

Con precaución

Si bloqueas todos los bots (User-agent: *) de todo tu sitio (Disallow: /), tu sitio será indexado de los motores de búsqueda legítimos. Además, ten en cuenta que los bots incorrectos probablemente ignorarán tu archivo robots.txt, por lo que es posible que desee bloquear tu agente de usuario con un archivo .htaccess.

Los robots malos pueden usar tu archivo robots.txt como una lista de destino, por lo que es posible que desee omitir los directorios de la lista en el archivo robots.txt. Los bots malos también pueden usar agentes de usuario falsos o engañosos, por lo que bloquear agentes de usuario con .htaccess puede no funcionar tan bien como se esperaba.

Si no deseas bloquear a nadie, este es un buen archivo robots.txt predeterminado:

User-agent: *
Disallow:

Es posible que debas eliminar el archivo robots.txt en este caso, si no te molestan las solicitudes 404 en tus registros.

DreamHost recomienda que solo bloquees agentes de usuario específicos y archivos /directorios, en lugar de *, a menos que estés 100% seguro de que eso es lo que deseas.

Bloqueo de referencias malas

Para obtener instrucciones detalladas, visite el artículo sobre cómo bloquear referencias.

Ver también

¿Este artículo ha respondido sus preguntas?

Última actualización el PST.

¿Aún no encuentra lo que busca?