Robots.txt: Cómo limitar el acceso de los robots a nuestro portal



Hosting barato
VN:F [1.9.20_1166]
Rating: 0.0/10 (0 votes cast)
Los buscadores de internet utilizan unos “robots” o “crawlers” que acceden a las páginas web para buscar información sobre ella y añadirla a los buscadores.

Existe la posibilidad que estos robots encuentren contenido duplicado o que accedan a partes de la web que no nos interesa que aparezcan en los buscadores de internet, para lo que limitaremos su acceso a través de la creación e instalción del fichero robots.txt.


Los nombres de algunos de estos robots son los siguientes:

  • Googlebot: Es el robot del buscador Google.
  • Mediapartners-Google: Robot que se encarga de revisar los anuncios de Google Adsense.
  • Googlebot-Image: Robot indexador de imágenes
  • Slurp: Robot del buscador Yahoo.
  • Scooter: Robot del buscador Altavista.

Definir archivo robots.txt

Según se defina el archivo robots.txt obtendremos unos beneficios u otros. Estos pueden ser:

  • Impedir acceso a determinados robots: Puede parecer contradictorio, pero algunos robots sólo nos proporcionarán problemas. Algunos robots no son de buscadores, e incluso algunos robots no son ni amigos.
  • Reducir la sobrecarga del servidor: Podrás controlar el flujo de algunos robots. Algunos de ellos realizan un elevado número de peticiones que pueden llegar a saturar tu servidor.
  • Prohibir el acceso a determinadas zonas: Nos puede interesar tener una zona en nuestra web que sea accesible para nosotros, pero que no para los robots, y por tanto, que no sea tenida en cuenta para indexar su contenido en los buscadores.
  • Eliminar contenido duplicado: Uno de los casos más importantes de penalización por parte de los bucadores es la duplicidad de contenido. Si la eliminamos, los buscadores nos puntuaran muy alto, aumentando el flujo de visitas.
  • Fijar mapas del sitio: También es posible añadir un sitemap para indicar el camino correcto a los robots.

Una vez tenemos ya claro las operaciones que se pueden hacer con el archivo robots.txt, veamos unos ejemplos:

User-agent: *
Disallow:

En “User-agent” debemos poner el nombre del robot, y en Disallow el nombre de las rutas que queremos impedir que accedan. Algunos ejemplos podrían ser:

  • Disallow: Permite el acceso a cualquier parte del portal.
  • Disallow:/ Prohibe el acceso a cualquier parte del portal.
  • Disallow:/foro/ Permite el acceso a cualquier página que cuelgue del directorio /foro

Se pueden acumular varios Disallow para un mismo robot (User-agent), pero no al revés. Aquí tenemos un ejemplo:

User-agent: *
Disallow:/enlace.html
Disallow:/contacto
Disallow:/foro

Este código impide el acceso a cualquier buscador a la página “enlace.html” y a las páginas que cuelgan desde “/contacto/” y “/foro”.

Es posible indicar varias reglas a los robots en nuestro archivo, por lo que cada vez que escribamos User-agent deberemos dejar una línea en blanco de separación. Adem&/aacutes;s es posible indicar comodines como “$” y “*” solamente aplicable a los robots “Googlebot” y “Slurp”.

Como se ha comentado anteriormente, en algunos casos, hay robots que acceden con demasiada frecuencia a nuestro servidor para indexar información, por lo que podremos decirle que espacie sus visitas a través de “Craw-delay”. Por ejemplo:

User-agent: Googlebot
Craw-delay: 30

Con esto, le estamos diciendo al robot que espere 30 segundos entre cada acceso. “Craw-delay” es soportado por Slurp, MSNBot y por Googlebot desde el panel de webmasters.

Para finalizar, podemos indicar donde se encuentra el mapa de nuestro portal a “robots.txt” de la siguiente forma:

Sitemap: http://domino/sitemap.xml

Comparte y disfruta:

Si te ha gustado este artículo, te puede interesar ...



Hosting barato

2 comments

  1. Nacho
    VA:F [1.9.20_1166]
    Rating: 0 (from 0 votes)
    VA:F [1.9.20_1166]
    Rating: 0.0/5 (0 votes cast)

    Esto me sirve… algunas veces tengo hasta 18 bots de google indexando al mismo tiempo es una locura, porque de tantas conexiones concurrentes al MySQL me lo bajan!

  2. Jokin
    VA:F [1.9.20_1166]
    Rating: 0 (from 0 votes)
    VA:F [1.9.20_1166]
    Rating: 0.0/5 (0 votes cast)

    Has puesto Craw-delay. Te falta una L: Crawl-delay

Escribe un comentario


6 × = seis

Puede usar HTML:
<a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <strike> <strong>