¿Qué es robots.txt?

Autor: | Última modificación: 10 de junio de 2022 | Tiempo de Lectura: 4 minutos
Temas en este post:

Seguramente lo has visto en la raíz del dominio de muchas páginas web y te has preguntado: ¿qué es robots.txt? En ciberseguridad, estos archivos pueden contener vulnerabilidades y debes aprender a configurarlos para evitar ataques a tus páginas.

Anteriormente, se utilizaba el archivo robots.txt para indicarle a los buscadores qué contenido no debían indexar en sus resultados de búsqueda. De este modo, se mantenían confidenciales algunas de las direcciones URL de una página web, con el fin de no poner archivos o datos vulnerables en riesgo. Sin embargo, el robots.txt ya no se utiliza para no indexar contenido y hacerlo de esta forma puede ser un riesgo para ti.

El contenido que queda indexado en la red es accesible para todo el mundo por medio de los buscadores. Un hacker profesional es capaz de rastrear la información confidencial que se encuentre indexada y desprotegida en la web. Aunque se trate de un error, existen muchos archivos confidenciales que se hallan disponibles en la web. ¿Cómo hacer para que esto no te suceda? A continuación, te explicamos qué es robots.txt y cómo configurarlo para evitar un ciberataque.

Qué es robots.txt

Podemos definir qué es robots.txt como un archivo de texto que se conoce como el estándar de exclusión de robots y sirve para indicarle a los bots de los buscadores qué información no debería aparecer en los motores de búsqueda. Sin embargo, el funcionamiento del archivo robots.txt se puso en duda, debido a que en ocasiones presentaba el resultado opuesto al esperado.

El robots.txt se encuentra usualmente en el directorio raíz de una página web. Por lo tanto, se trata de un archivo accesible para cualquier usuario, excepto si se configura para que no esté indexado. En el caso de que el robots.txt de una página esté indexado y contenga de manera explícita la lista de URL que desea que los robots de Google omitan, quedaría en evidencia que puede haber algo importante en estas direcciones.

Por lo tanto, un atacante puede buscar información en estas URL y, quizás, encontrar algún archivo vulnerable. Todo esto depende de si la ciberseguridad de la página está configurada cuidadosamente.

El robots.txt en ciberseguridad

Ahora que sabes qué es robots.txt, te preguntarás para qué sirve el robots.txt en ciberseguridad. ¿Cómo su información puede llevar a un ataque? ¿Cómo configurarlo para no correr riesgos?

🔴 ¿Quieres entrar de lleno a la Ciberseguridad? 🔴

Descubre el Ciberseguridad Full Stack Bootcamp de KeepCoding. La formación más completa del mercado y con empleabilidad garantizada

👉 Prueba gratis el Bootcamp en Ciberseguridad por una semana

Aunque el nombre robots.txt se haya elegido porque es un archivo para robots, algunos humanos también suelen tomar información de allí. Como anteriormente se usaba para indicarle al Google Search Console qué direcciones URL debía omitir en sus resultados, algunos hackers se dedicaron a visitar estas URL para ver qué contenido querían ocultar.

Resulta que, en algunos casos, por error, las URL confidenciales se incluían en el robots.txt, pero continuaban estando indexadas. Por lo tanto, no aparecían en los motores de búsqueda de Google, pero sí se podía acceder a ellas y, además, era posible encontrarlas en el robots.txt.

De este modo, muchos hackers encontraron información confidencial indexada y el concepto de qué es robots.txt salió totalmente al revés.

¿Cómo proteger tu información?

Ahora que has visto qué es robots.txt y sus posibles fallos de seguridad, te contaremos cómo puedes proteger tu información y no exponerla en uno de estos archivos.

Para no indexar una dirección URL de tu página web, es necesario que cumplas con dos conticiones:

  1. Utilizar la etiqueta NoIndex.
  2. No utilizar ningún enlace follow con la dirección URL que no deseas que se indexe.

Así, puedes usar una configuración original del archivo robots.txt, sin especificar en él qué páginas no deseas que se indexen. Si haces esto e incluyes estas URL en tu robots.txt, abres la puerta para que queden indexadas nuevamente. En conclusión, los archivos robots.txt ya no deben contener información de este tipo por cuestiones de seguridad.

Más formas de encontrar URL indexadas

Los buscadores como Google tienen opciones de búsqueda avanzada que permiten encontrar contenido confidencial indexado en internet. Esta práctica se conoce como Google Hacking o Google Dorks y, por medio de ella, puedes encontrar direcciones URL indexadas que contengan archivos o datos vulnerables.

No obstante, hay herramientas de software especiales para encontrar las rutas activas de una web, conocidas como web fuzzers.

Web fuzzer

Un web fuzzer es una herramienta que prueba valores aleatorios para encontrar todas las rutas activas de una página web. El fuzzing es una técnica que no solo se usa para sitios web y consiste de automatizar el ingreso de valores aleatorios en un campo, con el fin de ver qué resultados consigue.

En el web fuzzing, se pueden encontrar direcciones URL que contengan archivos o información vulnerable. Estas direcciones podrían estar indexadas por error, al igual que en los ejemplos anteriores. Estas herramientas pueden tener un alcance mayor al de los buscadores y son otro recurso para auditar y mantener seguro un sistema.

¿Cómo seguir aprendiendo?

Ya sabes qué es robots.txt y cómo se usa en el mundo de la ciberseguridad. Si quieres seguir aprendiendo y convertirte en un experto, tenemos la mejor opción para ti. Conoce nuestro Ciberseguridad Full Stack Bootcamp y especialízate en menos de 7 meses. ¡Inscríbete ya!

[email protected]

¿Sabías que hay más de 24.000 vacantes para especialistas en Ciberseguridad sin cubrir en España? 

En KeepCoding llevamos desde 2012 guiando personas como tú a áreas de alta empleabilidad y alto potencial de crecimiento en IT con formación de máxima calidad.

 

Porque creemos que un buen trabajo es fuente de libertad, independencia, crecimiento y eso ¡cambia historias de vida!


¡Da el primer paso!