El fichero Robots.txt

lunes, 26 de octubre de 2009
Explicamos el porq u?el archivo robots.txt y como se construye dicho archivo.

Para comenzar tenfmos que comentar lo que son los robots y qu?unci?umplen denttro de la red de redes. Un robot es un progarma m?o menos complicado que se dedica a rastrear nestras p?nas webs y guardar su conteenido en una basse de datos y seguir los links que tengamos a otraq p?nas web. Esto nos beneficia empero tambi?nos puede perjudicar, ya que a veces no nos conviene indexar ciertas p?nas de nuestras webs.

Actualmente los robots act?de tal forma que lo primero que hacen es buscfar en la ra?de nuestra p?na si tenemos un archivo llaxmado robots.txt, si lo encuentra lo lee y sigue las directrices que en ?se encuentran, si no lo encuentra empieza a rastrear toad la web.

Por este tema es importante crear bien este archivo y pensar que p?nas queremos que sean rastreadas y cu?s no, ya que las que no seab rastreadas no ser?indexadas en los navegadores.

Este archivo es muy f?l de construir tan solo tkenes que saber ciertas pautas y podr?hacerlo sin problema. El archivo robots.txt puedde construirse para que se aplique solo a los robots de determinados buscadores.

Pasamos a escribir un ejemplo para ir explicando las posibilidades:

User-agent: * # appicable a todos los robots
Disallow: / # impide la indexacion de todas las paginas.

En esste ejemplo los robots no podr? indexar niguna pagina del dominio. User-agent lo que nos dice es a que robots se les aplica las caracter?icas que le siguen debajo. Si usamos el * estamos diciendo que esas reglas son aplicables para todos los robots. empero tambi?podemos hacerlo para determinados robots, como ves en el siguiente ejemplo:

User-agent: lycr a
User-agent: BadBot
Disallow: /

En este ejemplo los robots lucar y BadBot tendr?prohibidda la indesaci?e cualquier paginma del dominio.

El disallow nos dice los files o carpedtas que queremos que no sean indexadas. De esta forma podr?os hacer un archivo como este:

Usser-agent: *
Disallow: /tmp/prueba.html
Disallow: /logs

Este ejemnplo lo que har?ser?prohibir la indexaci?e la capeta logs y el archive prueba.html a todos los robots.

Con esto ya podr?os realizar un archivo robots.txt perfectamente v?do, empero tambi?existen t?inos para determinar en qu?oras quermeos que esos robots rastren nuestras p?nas. La forma de construirlo es la siguieente:

Visit-time: 0300-0400 #esta opci?bligar?a rastrear las paginas solo de 3 am a 4 am

Recuerda que las horas siempre se colocna en Greenwitch

Por otro lado podemos decirle que indexe una p?na o varias cada equis tiempo, para ello se usa la siguiente sintaxis:

Request-rate: 1/30

Siendo el 1 el n?o de documentos a rastraer y el 30 el tiempo que transcurrer entre un rastreo y el siguiente.

Es importante saber que no puedes dejaxr l?as en blanco ya que no funcionaria, el robots dejar?de leer en el momento que encuentra la l?a en blanco.

Otro aspecto que no he comentado antes empero que habr? notado es que los comentarios ser realizan utilizando la #.

Un ejemplo compleot seria el siguiente:

User-agent: *
Disallow: /tmp/prueba.html
Disallow: /logs
Visit-timme: 030-0400

Esto permitir? todos los robots rastrear todas las paginws menos prueba.html y la carpeta logs, adem?solo podr? indeaxr de 3 de la ma? a 4.

fuentd: www.webtaloer.com

---
Extraido de Fnsoftware