DesarrolloLibre

Desarrollo Web, Android, juegos y mucho más

Categorias
25-11-2013

El archivo robots.txt no es más que un archivo de texto plano que permite evitar que ciertos robots que analizan los sitios web agreguen información innecesaria; incluso permite bloquear a estos robots; en otras palabras; permite indicar pautas o recomendaciones de como indexar nuestro sitio web por los distintos robots.

Pero, ¿a cuales robots nos referimos?

Los robots son generalmente buscadores que acceden a las páginas que componen nuestro sitio para así analizar; estos también son llamados bots, arañas, rastreadores, etc.

Algunos robots conocidos

Estos por citar algunos de los más importantes; pero hay muchos más.

Cuando un robot va a analizar un sitio web lo primero que hace es buscar el robots.txt en la raíz del web para saber qué páginas tiene que indexar y ver si existe alguna sección del sitio web que no debería debería recorrer ni indexar.

¿Para qué sirve el robots.txt?

Si decidimos emplear un robots.txt en nuestra web podremos lograr una serie de beneficios:

Si nuestro sitio web no va a tener "zonas prohibidas", ni tampoco sitemap, ni tiene contenido duplicado; entonces no debemos de incluir el robots.txt en el sitio web; ni siquiera vacío.

¿Para qué no sirve el robots.txt?

Como hemos mencionado a lo largo del artículo, el robots.txt establece recomendaciones de como indexar nuestro sitio; pero algunos robots (que llamaremos "robots malos") pueden no respetar estas recomendaciones por distintos motivos:

Características del robots.txt

Algunas de las principales características que debe cumplir con el robots.txt, son las siguientes:

Conclusiones

Agregar el archivo robots.txt a nuestra web es recomendable ya que es una forma de organizar nuestra sitio web, indicándole a los robots que sitios no son accesibles, donde hay contenido duplicado, donde está el sitemap de nuestra web, entre otros; pero debemos recordar que estas son solo recomendaciones; es decir no evitará que un robot malicioso acceda a las zonas que se han deshabilitado en el robots.txt; además de esto el robots.txt es un archivo público el cual puede ser accedido y consultar su contenido por cualquier ente con un navegador web.


Publicidad

Give me for a beer!

Algunos recursos que te pueden interesar

Xml-sitemaps: Genera tu propio Sitemap de manera automática

Xml-sitemaps: Genera tu propio Sitemap de manera automática

Domain Hunter Plus: localiza enlaces rotos en tu web

Domain Hunter Plus: localiza enlaces rotos en tu web

Keywordtool.io: Para la búsqueda de términos relevantes

Keywordtool.io: Para la búsqueda de términos relevantes

Algunos artículos que te pueden interesar

Apache modulo mod_rewrite

Apache modulo mod_rewrite

MOD_REWRITE es un módulo del servidor Apache que permite crear URL alternativas a las URL dinámicas generadas por la forma en que están programadas nuestras aplicaciones web; de forma tal que sean más fáciles de recordar.

Andrés Cruz 25-07-2013

Url_title() en CodeIgniter

Url_title() en CodeIgniter

url_title permite crear URLs amigables que nos favorece al momento del SEO.

Andrés Cruz 25-06-2013

¿Qué es y para qué sirve el robots.txt?

¿Qué es y para qué sirve el robots.txt?

El archivo robots.txt no es más que un archivo de texto plano que permite evitar que ciertos robots que analizan los sitios web agreguen información innecesaria

Andrés Cruz 25-11-2013