Quiero compartir contigo un artículo que me pareció muy interesante, y que estás viendo ahora en pantalla. En él se explica cómo Cloudflare hace historia bloqueando consultas de inteligencia artificial (IA) hacia sitios web, es decir, como los nuestros.
Si no tienes el contexto completo, no te preocupes: primero te explico un par de cosas clave antes de entrar de lleno en la publicación. Por cierto, el artículo original:
https://share.google/6RSdg28Fn7T4bP8on
¿Qué es Cloudflare?
Cloudflare (que a veces pronunciamos Clofer) es un proxy que también puede funcionar como una VPN. Es utilizado por el 79.9% de todos los sitios web que entregan contenido en internet, lo que lo convierte en un servicio ampliamente extendido y esencial.
Tal vez recuerdes que, hace algunos años, una caída de Cloudflare dejó fuera de línea a media internet. Esto demuestra la importancia que tiene este servicio en la infraestructura actual de la web.
¿Y qué tiene que ver la IA con todo esto?
Para que la inteligencia artificial funcione —como es el caso de ChatGPT, Gemini y otros modelos— necesita ser entrenada con grandes cantidades de información. ¿Y de dónde sale esa información? Pues, en muchos casos, de artículos como los nuestros, publicados en blogs y páginas web.
Miles de personas, incluyéndome, llevamos años escribiendo contenido original con esfuerzo, con el fin de ayudar a otros a resolver dudas. El problema es que estas IAs consumen nuestro contenido sin pedir permiso, sin compensación y sin reconocer nuestro trabajo. La IA termina apropiándose de algo que fue creado para una audiencia humana, no para alimentar modelos comerciales.
¿Qué bloquea exactamente Cloudflare?
Lo importante del artículo es que Cloudflare ha comenzado a bloquear los rastreadores de IA. ¿Qué es un rastreador? Básicamente, es un "robot" que recorre la web buscando contenido. Google, por ejemplo, usa estos robots (también llamados arañas) para indexar contenido y posicionarlo en los resultados de búsqueda.
Las IAs, por su parte, también usan estos rastreadores para recopilar contenido y entrenar sus modelos. Y lo hacen muchas veces sin respetar las normas básicas que nosotros los creadores podemos establecer.
¿Pero no se puede evitar con robots.txt?
Sí y no. Podemos limitar el acceso a nuestro sitio mediante el archivo robots.txt, en el cual indicamos qué partes de nuestra web deberían o no ser rastreadas. También podemos indicar qué tipo de bots están permitidos. Sin embargo, este archivo es solo una sugerencia. Cualquier rastreador malicioso puede ignorarlo y hacer lo que quiera.
Por eso es tan relevante que Cloudflare ahora bloquee activamente estos bots, aunque la decisión final de activar esa protección la tiene cada cliente (es decir, cada dueño de sitio web).
Reflexión final: ¿y los creadores de contenido?
Una de las frases más importantes del artículo dice:
“Creemos firmemente que todos los creadores de contenido y editores deben ser compensados cuando su contenido se utilice en el entrenamiento de modelos de IA.”
Y tiene todo el sentido del mundo. Nosotros creamos contenido con mucho esfuerzo, y no es justo que terceros lo usen para entrenar sus modelos sin ofrecer ninguna recompensa.