Generalidades
Este artículo explica cómo utilizar un archivo robots.txt para evitar que los robots de los motores de búsqueda rastreen tu sitio.
Antecedentes
Los robots, spiders, y otros rastreadores que atacan tu sitio web pueden aumentar el uso de recursos. Esto puede generar una gran carga en el servidor y ralentizar tu(s) sitio(s).
Una opción para gestionar estos bots es crear un archivo robots.txt en la carpeta raíz de tu sitio web. Esto indica a los motores de búsqueda qué contenido de tu sitio deben indexar y cuál no. Si prefieres no crear este archivo tí mismo, puedes hacer que DreamHost cree uno automáticamente (por dominio) en la página Bloquear Spiders.
Si bien la mayoría de los motores de búsqueda respetan las directivas robots.txt, este archivo solo actúa como una sugerencia para los motores de búsqueda que cumplen con las normas y no impide que los motores de búsqueda u otras herramientas similares accedan al contenido o lo pongan a disposición.
Se precavido cuando estés bloquendo
Por favor ten en cuenta lo siguiente antes de crear reglas para bloquear motores de búsqueda.
Bloquear todos los bots
Si bloqueas todos los bots (User-agent: *) de todo tu sitio (Disallow: /), tu sitio será desindexado de los motores de búsqueda legítimos. DreamHost recomienda que solo bloquees agentes de usuario y archivos/directorios específicos, en lugar de todos, a menos que estés absolutamente seguro de que eso es lo que deseas hacer.
Bots Maliciosos
También hay que tener en cuenta el modo en que operan los 'Bots Maliciosos':
- Es probable que los bots maliciosos ignoren tu archivo robots.txt, por lo que puede que desees bloquear tu agente de usuario con un archivo .htaccess en su lugar.
- Los bots maliciosos también pueden usar agentes de usuario falsos o engañosos, por lo que bloquear agentes de usuario con .htaccess puede no funcionar tan bien como se esperaba.
- Los robots maliciosos pueden usar tu archivo robots.txt como una lista de destino, por lo que es posible que desees omitir la inclusión de directorios en el archivo robots.txt.
Cómo bloquearo varios bots
Las siguientes secciones explican cómo bloquear bots específicos para que no rastreen tu sitio web.
Determinar la compañía a bloquear
-
Puedes revisar a qué empresa pertenece una IP ejecutando el comando host a través de SSH. Por ejemplo, si se encontró la IP 66.249.66.167 en tu access.log, ejecute lo siguiente.
[server]$ host 66.249.66.167 167.66.249.66.in-addr.arpa domain name pointer crawl-66-249-66-167.googlebot.com.
Esto confirma que proviene de Google, por lo que puedes usar las instrucciones de la siguiente sección para bloquearlo.
Bloquear Googlebots
-
Para bloquear este Googlebot, agrega lo siguiente en tu archivo robots.txt:
# go away Googlebot User-agent: Googlebot Disallow: /
Explicación de los campos anteriores:
- # go away — Este es un comentario para que recuerdes por qué creaste esta regla.
- User-agent — El nombre del bot al que se aplicará la siguiente regla.
- Disallow — La ruta de la URL que deseas bloquear. Esta barra diagonal significa que se bloqueará todo el sitio.
Revisa esta página para obtener más información sobre los robots de Google.
Bloquear a Yahoo
-
Los robots de rastreo de Yahoo cumplen con la regla crawl-delay en robots.txt, que limita su actividad de búsqueda. Por ejemplo, para indicarle a Yahoo que no busque una página más de una vez cada 10 segundos, debes agregar lo siguiente:
# slow down Yahoo User-agent: Slurp Crawl-delay: 10
Explicación de los campos anteriores:
- # slow down Yahoo — Este es un comentario, así que recuerda por qué creaste esta regla.
- User-agent: Slurp — Slurp es el nombre del agente de usuario de Yahoo. Debes usarlo para bloquear Yahoo.
- Crawl-delay — Le dice al agente de usuario que espere 10 segundos entre cada solicitud al servidor.
Revisa esta página para obtener más información sobre los robots de Yahoo.
Bloquear todos los bots
-
Agrega este código para deshabilitar todos los bots:
User-agent: * Disallow: /
También puedes especificar un directorio.
User-agent: * Disallow: /your-directory/
Explicación de los campos anteriores:
- User-agent: * — Se aplica a todos los agentes de usuario.
- Disallow: / — Deshabilita la indexación de todo.
- Disallow: /your-directory/ — Deshabilita la indexación de este único directorio.
Relentizar a los bots buenos
Utiliza lo siguiente para ralentizar algunos bots buenos, pero no todos:
User-agent: *
Crawl-Delay: 10
Explicación de los campos anteriores:
- User-agent: * — Se aplica a todos los agentes de usuario.
- Crawl-delay — Le dice al agente de usuario que espere 10 segundos entre cada solicitud al servidor.
Googlebot
Revisa las siguientes páginas para obtener más ayuda con Googlebot: