¿Qué es el fichero llms.txt? | Guía Completa

El 9 de septiembre de 2024, Jeremy Howard (fundador, entre otros, de Kaggle y la más reciente Answer.AI) publicó en su cuenta de X un post acerca de la utilización de un fichero llamado ‘/llms.txt’ con el que poder comunicar a los LLMs (Large-Language-Models) información sobre nuestro sitio web o la organización del mismo.

Desde entonces, su uso ha ido extendiéndose, consolidándose como firme candidato a convertirse en un estándar de la industria y una pieza clave en la comunicación entre cualquier sitio web y la IA.

¿Qué es un fichero LLMs.txt?

La idea de Jeremy Howard y su equipo es la de crear un fichero en formato Markdown que simplifique a los bots de modelos de lenguaje como ChatGPT o Claude recopilar la información más relevante de un sitio web.

En el ejemplo que incluyen en el artículo fundacional se centran en el ejemplo que han utilizado ellos para su sitio web FastHTML, enfocado en el desarrollo de software, pero enfatizan en lo libre y adaptable del modelo, que tiene la versatilidad de poder aplicarse a todo tipo de empresas o industrias. Todo lo que nos permita proporcionar información clara y concisa a los LLMs es bienvenido.

que es llmstxt
Logotipo oficial de ‘llms.txt’

 

¿Qué información hay que incluir en un LLMs.txt?

Los LLMs consumen muchos recursos al realizar consultas y, cuanto más sencilla sea la forma de acceder a un sitio web, más eficiente será la lectura e indexación del mismo.

Por tanto, un fichero LLMs.txt debe contener la información más relevante de cada negocio o sitio web.

Aunque el origen del fichero llms.txt está muy ligado a entornos de desarrollo de software, puede ser una guía muy eficiente para un LLM que rastree webs de todo tipo. En un sitio web corporativo típico, podemos utilizarlo para hacer un breve resumen de la actividad de la empresa e indicar los links a las distintas verticales de negocio.

Un LLMs.txt en un e-commerce nos serviría, por ejemplo, para explicar las diferentes categorías de productos y poner el foco en algunos de los más destacados, así como explicar o linkar algunas de nuestras políticas de compra.

Las posibilidades son, en definitiva, muy amplias y para cada sitio web la prioridad será muy distinta, pero siempre habrá que responder a las mismas preguntas: ¿Cómo se resume la actividad de mi web? ¿Cuáles son las secciones más relevantes? ¿Cómo se usa?

 

El formato de los ficheros LLMs.txt: Markdown, un buen amigo de la IA

El formato del fichero LLMs.txt se basa en uno de los lenguajes que mejor y de forma más eficiente procesan los LLM: el Markdown. No necesita introducción si te dedicas al software, pero si no es el caso, una forma sencilla de definir Markdown sería que es lenguaje de marcado ligero muy utilizado para formatear texto de manera sencilla y rápida, principalmente en documentación, blogs, README de repositorios y otros contextos donde se necesite estructurar contenido sin complicaciones. Su uso es muy sencillo, pero si necesitas repasar o revisarlo más en detalle, puedes echar un ojo a markdownguide.

Con unos conocimientos básicos de Markdown ya a nuestras espaldas, podemos ponernos manos a la obra para crear nuestro fichero llms.txt (que debe estar alojado en el directorio raíz de nuestra página web). La estructura recomendada a seguir por el equipo de Answer.ai es la siguiente:

  • Un título H1 con el nombre de nuestro sitio web.
# SEDIGITAL, SEO AGENCY IN MADRID
  • Una sección entrecomillada donde hacer una pequeña introducción del sitio web: qué hacemos, qué vendemos, dónde y desde cuándo, por ejemplo. En el caso de un sitio web corporativo tradicional, incluir los datos de contacto no está de más:

SEO agency in Madrid with over 10 years of experience. We are experts in SEO and SEM positioning. We help businesses of all kinds improve their visibility on the Internet.
Contact details: info@sedigital.es, +34910146457.

Podemos añadir algo de información adicional a continuación con otro tipado markdown que no sea un encabezado, que nos sirva para dar más contexto a la IA acerca del propio funcionamiento o estructura de la web.

Otras secciones delimitadas por H2 donde poder incluir, como si de un sitemap se tratase, URLs relevantes del sitio web que sean relevantes desde el punto de vista del negocio, indicadas de este modo [nombre de la sección](URL). Dentro de cada sección, podemos incluir además texto que nos ayude a especificar de qué trata cada URL.

## Services
- [SEO Services](https://www.sedigital.es/seo/): SEO agency in Madrid, experts specialized in different areas to provide qualified traffic to our clients' websites.
We stand out for our experience and technical knowledge, but above all, for our close relationship with clients, who always have direct contact with a trusted SEO specialist.

Es posible añadir secciones con el H2 de ‘Optional’ que no serán priorizadas por los LLMs pero pueden servirnos para añadir URLs o información adicional.

Ejemplo de un fichero LLMs.txt

Para el caso de SeDigital podríamos estructurar nuestro LLMs.txt de la siguiente forma:

# SEDIGITAL, SEO AGENCY IN MADRID

> SEO agency in Madrid with over 10 years of experience. We are experts in SEO and SEM positioning. We help businesses of all kinds improve their visibility on the Internet.
Contact details: info@sedigital.es, +34910146457.

## Services

- [SEO Services](https://www.sedigital.es/seo/): SEO agency in Madrid, experts specialized in different areas to provide qualified traffic to our clients' websites.
We stand out for our experience and technical knowledge, but above all, for our close relationship with clients, who always have direct contact with a trusted SEO specialist.
- [SEM Services](https://www.sedigital.es/agencia-sem/): SEM services in Madrid with extensive experience in managing PPC campaigns on the market's leading platforms. Specialized in Google Ads and social media advertising: META, LinkedIn, TikTok.
- [Local SEO Services](https://www.sedigital.es/seo-local/): Local SEO agency. Experts in SEO for Google Maps. We optimize websites to appear on **Google Maps**. We optimize content and create business profiles in directories to help attract more local customers and increase visibility and sales.

## Quote Request

- [Request your quote](https://www.sedigital.es/contacto/)

## Blog

- [Tips for Buying High-Quality SEO Links](https://www.sedigital.es/blog/consejos-para-comprar-enlaces-seo-de-calidad/): Learn how to identify and acquire high-quality links to improve your website’s ranking in search engines.
- [WordPress Migration Guide](https://www.sedigital.es/blog/guia-de-migraciones-de-wordpress/): Discover the essential steps to safely and efficiently migrate your WordPress site, avoiding data loss and ensuring a smooth transition.
- [The Importance of Keeping PHP and WordPress Updated](https://www.sedigital.es/blog/importancia-de-tener-php-y-wordpress-actualizado/): Learn why it is crucial to keep your PHP and WordPress versions up to date to ensure security and optimal site performance.
- [The Importance of a Dedicated Hosting Company](https://www.sedigital.es/blog/importancia-de-una-empresa-de-hosting-dedicado/): Analyze the benefits of having dedicated hosting for your website, including increased speed, security, and exclusive resources.

## Optional

- [Privacy Policy](https://www.sedigital.es/politica-de-privacidad/)
- [Cookie Policy](https://www.sedigital.es/politica-de-cookies/)
- [Legal Notice](https://www.sedigital.es/aviso-legal/)

Introducimos también artículos del blog y links legales opcionales para que puedan acceder a toda la información, aunque lo primordial (la introducción y los servicios) lo incluimos al principio).

Si necesitas más ejemplos de ficheros llms.txt para inspirarte, existen ya a día de hoy directorios donde poder encontrar un listado con los sitios webs que lo han incluido, como llmstxt site.

Generador de ficheros de LLMs.txt de Firecrawl

Como todo avanza a gran velocidad en tiempos de la IA, ya hay a día de hoy herramientas que nos pueden facilitar enormemente el diseño y gestión del fichero LLMs.txt de nuestro sitio web.

Una de ellas y quizá la más relevante hasta ahora es Firecrawl. La herramienta permite de forma sencilla y automática scrapear un sitio web y devolver un fichero LLMs.txt en cuestión de segundos.

Tiene una versión gratuita suficiente para dar nuestros primeros pasos y recibir un empujón extra creando nuestro primer LLMs.tx y dispone también de API. Conviene, eso sí, revisar el output y tratar de adaptarlo exactamente a lo que necesitamos, pero como punto de partida es una buena opción.

Creando Alternativas o Complementos al fichero LLMs.txt

En los pocos meses que la iniciativa lleva en marcha se han ido desarrollando nuevas ideas o extensiones de la misma. Es, por ejemplo, un uso común ya incluir un segundo fichero llms-full.txt, que es una versión más completa en la que se incluye información más detallada sobre procesos concretos, ejemplos de uso (en el caso de software) etc.

De este modo llms.txt y full-llms.txt coexisten, el primero como un resumen del sitio web y de sus secciones más relevantes y el segundo como un documento mucho más completo de soporte y documentación para los llms. En el caso de sitios web corporativos pequeños o medios, este segundo fichero en cualquier caso pierde relevancia.

LLMs.txt vs robots.txt

Una de las grandes preguntas que inevitablemente surgen de la adopción del LLMs.txt como estándar es, ¿Qué pasa con robots.txt? ¿Tengo que seguir encargándome de él?

La respuesta es un ‘sí’ que no arroja dudas. Al fin y al cabo, la idea de todo esto es crear un fichero más legible por la IA moderna, pero para el caso de los crawlers que llevan ya años con nosotros el funcionamiento, al menos hasta el día de hoy, sigue siendo el mismo.

Se plantea entonces un escenario en que los ficheros LLMs.txt, robots.txt y sitemap.xml convivan, cada uno resolviendo necesidades distintas:

  • LLMs.txt enfocado a ofrecer a los llms una estructura clara y eficiente de toda la infraestructura del sitio web.
  • robots.txt para indicar a los crawlers y bots automáticos cómo deben acceder y leer la web. Un modelo de lenguaje puede leerlo (y, de hecho, lo hace) pero su propósito sigue siendo más para motores de búsqueda que para modelos de IA.
  • sitemap.xml centrado en estructurar la web de cara a los motores de búsqueda.

Cómo incluir LLMs.txt en WordPress

La forma más sencilla de incluir en nuestra web el fichero llms.txt si tenemos acceso y sabemos utilizarlo será siempre a través de FTP. En caso de que no se cumpla alguna de las dos condiciones, ya hay soluciones open-source que nos permiten integrarlo en plataformas.

Para crear un fichero LLMs.txt en WordPress, por ejemplo, hay ya varios plugins que cumplen con la funcionalidad básica y permiten crear el fichero de forma sencilla. Están aun en primeras fases del desarrollo y presentan varios aspectos a mejorar en términos de accesibilidad y funcionalidades, pero el uso básico es correcto. Algunos ejemplos son:

Iremos actualizando la lista conforme vayan ampliándose las opciones.

En definitiva, es aún pronto para valorar si estamos ante un nuevo estándar dentro del mundo del posicionamiento web, pero una cosa sí está clara: el sector está moviéndose a nuevos e inciertos escenarios a una velocidad creciente. En este contexto, iniciativas como la de Jeremy Howard y su equipo son necesarias para sentar las bases del desarrollo y posicionamiento web de un futuro que ya es presente.

Últimos artículos del Blog

Scroll al inicio