Guía completa del archivo llms.txt

En los últimos años, la Inteligencia Artificial ha cambiado la manera en la que descubrimos y consumimos información online. Los modelos de lenguaje (LLMs) como, por ejemplo: ChatGPT, Claude o Gemini no solo leen las páginas web, también interpretan, reorganizan y generan nuevo contenido basándose en lo que encuentran.

La forma en la que estos modelos acceden a los sitios web no siempre coincide con la de un buscador web tradicional. Por eso aparece el llamado llms.txt, un archivo diseñado para que los propietarios de páginas web puedan indicar de manera clara cómo desean que la IA interactúe con sus contenidos.

A lo largo de este artículo veremos qué es este archivo, qué lo diferencia de otros como robots.txt o sitemap.xml, y por qué puede convertirse en un elemento clave para proteger tu información y, al mismo tiempo, hacer tu web más atractiva para la inteligencia artificial.

El fichero llms.txt es una propuesta pensada para dar a los administradores de una página web un mayor control frente a la IA generativa. Mientras que robots.txt orienta a los motores de búsqueda sobre qué páginas rastrear e indexar, el llms.txt va un paso más allá: este define qué usos pueden hacer los modelos de IA de la información publicada en tu sitio.

Este archivo se convierte así en una especie de “manual de instrucciones” para los LLMs: les dice qué pueden utilizar, en qué contextos, y qué queda fuera de sus posibilidades.

Aunque pueden parecer similares, todo ellos cumplen funciones distintas:

  • robots.txt: establece qué partes de tu web pueden rastrear los buscadores.
  • sitemap.xml: ofrece un listado jerárquico de las URLs disponibles.
  • llms.txt: aporta contexto y reglas específicas para los modelos de lenguaje, con el objetivo de guiar cómo interpretan y reproducen tu contenido.

La principal novedad está en que el llms.txt no solo lista URLs, sino que también puede incluir títulos, descripciones y jerarquías en formato legible para IA (por ejemplo, Markdown).

El archivo sigue un formato sencillo, inspirado en robots.txt, pero añade parámetros pensados para la interacción con IA. Un ejemplo básico sería:

Guía completa del archivo llms.txt

Las directivas más destacadas son:

  • $trainingAllowed → Permite o bloquea el uso de tu contenido en el entrenamiento de modelos.
  • $chatAllowed → Define si tu web puede usarse como fuente en respuestas conversacionales.
  • $embedded → Autoriza o no que fragmentos de tu contenido se incluyan en respuestas.
  • $responseLength → Limita la extensión máxima de lo que se genera basándose en tu sitio.
  • $embargo → Impide que el contenido reciente se utilice durante un tiempo determinado.

Además, puedes aplicar las reglas específicas para un modelo concreto (ej. ChatGPT o Claude) o restringir secciones enteras de tu web, como un área premium.

Tener este archivo puede marcar la diferencia por varias razones:

  • Define políticas diferenciadas según el modelo o proveedor de IA.
  • Control al detalle sobre el uso de tu contenido.
  • Protección de información exclusiva o de pago.
  • Refuerzo de la propiedad intelectual.
  • Posibilidad de mantener información obsoleta fuera del alcance de la IA.

Cómo crear tu propio llms.txt

Para configurarlo basta con:

  1. Definir qué contenido quieres proteger o exponer.
  2. Escribir el archivo siguiendo la sintaxis básica.
  3. Guardarlo en la raíz de tu web (tusitio.com/llms.txt).

Adicionalmente, puedes generar un llms-full.txt con versiones ampliadas de tu contenido clave, pensado para webs más técnicas o documentadas.

Herramientas que pueden ayudarte

Existen algunos generadores automáticos que simplifican y hacen que sea más fácil todo el proceso. Nosotros te proponemos estos dos: Firecrawl o WordLift, que analizan tu sitio web y te crean un borrador optimizado. Solo necesitarás subirlo a tu servidor y empezar a ajustar algunas reglas según tus objetivos.

¿Buscas a alguien que te configure tu archivo llms.txt?

En Choquestudio estamos preparados para configurar y darle un seguimiento a tu archivo llms.txt, asegurándonos de que tu web esté bien configurada.