Volver al blog

Crawlers de IA para AEO: qué permitir, qué bloquear y cómo medir el impacto real

Una guía práctica de AEO para separar bots de entrenamiento, bots de búsqueda y accesos iniciados por usuario sin perder visibilidad en ChatGPT, Claude o Google.

  • AEO
  • Crawlers de IA
  • SEO técnico
  • ChatGPT
Diagrama que separa la política de crawlers de IA en bots de entrenamiento, bots de búsqueda y accesos iniciados por usuario para AEO

Para hacer AEO con criterio, la opción más segura no es bloquear todos los crawlers de IA: primero hay que separar bots de entrenamiento, bots de búsqueda y accesos iniciados por usuario, y después decidir cuáles necesitas para ganar visibilidad, cuáles puedes rechazar y cómo vas a medir el impacto real de cada decisión.

Esa distinción pesa más en 2026 que hace un año. Google documenta ya sus funciones de IA en Search como una extensión de las mismas reglas de rastreo y elegibilidad de snippets que sostienen el SEO clásico. OpenAI separa OAI-SearchBot de GPTBot y explica que ChatGPT-User sigue otra lógica, activada por la acción del usuario. Anthropic documenta ahora tres agentes distintos también: ClaudeBot para entrenamiento, Claude-SearchBot para calidad de búsqueda y Claude-User para recuperación dirigida por el usuario. Si tu política robots sigue metiendo todo eso en un único saco llamado "bots de IA", estás tomando una decisión estratégica a ciegas.

No metas todos los crawlers de IA en el mismo saco

La división útil es sencilla. Una familia existe para recopilar contenido público que puede acabar influyendo en el entrenamiento futuro de modelos. Otra existe para descubrir, indexar o recuperar páginas en experiencias de respuesta en vivo. Y una tercera solo aparece cuando un usuario acaba de hacer una pregunta y el producto visita una página en su nombre. Esas tres funciones generan consecuencias distintas para negocio, cumplimiento y visibilidad AEO.

  • Los bots de entrenamiento afectan a si el contenido público nuevo puede pasar a formar parte del desarrollo futuro del modelo. Bloquearlos es una decisión de derechos, riesgo o política editorial, no necesariamente una decisión de visibilidad.
  • Los bots de búsqueda y recuperación afectan a si tus páginas son rastreables, elegibles para resúmenes y con opciones reales de ser citadas o enlazadas en experiencias de búsqueda con IA.
  • Los agentes de fetch iniciados por usuario quedan a medio camino. A menudo no se usan para rastreo automático, pero sí pueden visitar páginas cuando alguien pide información fresca, específica o comparativa.

Por eso el reflejo antiguo de pegar una regla Disallow para cualquier user-agent desconocido es un AEO débil. Puede proteger una capa mientras sacrificas otra sin darte cuenta. Si quieres aparecer en ChatGPT search, en respuestas de Claude, en los AI Overviews de Google o en AI Mode, necesitas saber primero a qué familia pertenece cada agente antes de bloquearlo.

Bots de entrenamiento: bloquéalos solo si hay una razón deliberada

La documentación de OpenAI dice que GPTBot se usa para hacer sus modelos fundacionales más útiles y seguros, y que desautorizar GPTBot indica que el contenido del sitio no debe usarse para entrenamiento. Anthropic dice algo equivalente sobre ClaudeBot: cuando un sitio restringe ClaudeBot, está señalando que sus materiales futuros deben excluirse de los datasets de entrenamiento. Google lo formula de otra manera. Para las funciones de IA en Search, remite a Googlebot y a los controles de snippet, pero añade que Google-Extended sirve para limitar entrenamiento y grounding en algunos otros sistemas de Google.

El punto operativo importante es que controlar el entrenamiento no es lo mismo que controlar la elegibilidad en búsqueda. Un publisher puede bloquear GPTBot o ClaudeBot por razones de política interna y aun así permitir los agentes que importan para búsqueda, snippets y recuperación en vivo. Ese suele ser el término medio que de verdad interesa a muchas empresas: no regalar todo a entrenamiento por defecto, pero tampoco borrarse de los canales de descubrimiento que pueden traer tráfico cualificado y citaciones.

Bots de búsqueda: aquí es donde AEO suele ganar o perder

Si el objetivo es ser descubierto, citado y enlazado dentro de experiencias de IA, esta es la familia que merece más atención. Google dice que no hay requisitos técnicos adicionales para aparecer como enlace de apoyo en AI Overviews o AI Mode: la página tiene que estar indexada y ser elegible para mostrarse con snippet en Google Search. Eso significa que el SEO base sigue haciendo el trabajo pesado. Rastreabilidad, elegibilidad de snippet, enlazado interno, texto que se pueda extraer bien y una base técnica sana siguen siendo prerrequisitos.

OpenAI es igual de claro con su propio ecosistema. En su FAQ para publishers explica que, para que el contenido del sitio pueda entrar en resúmenes y snippets dentro de ChatGPT, conviene asegurarse de no bloquear OAI-SearchBot. Añade además un matiz importante: si OpenAI obtiene la URL de una página bloqueada desde un proveedor tercero o rastreando otras páginas, todavía puede mostrar solo el enlace y el título si considera que esa URL es relevante. Si no quieres ni eso, recomienda noindex. Es un modelo de control más preciso que limitarse a confiar ciegamente en robots.txt.

Anthropic documenta ahora Claude-SearchBot con la misma claridad. Dice que el bot navega la web para mejorar la calidad de sus resultados de búsqueda y que deshabilitarlo puede reducir la visibilidad y la precisión de tu sitio en resultados dirigidos al usuario. Para AEO, esa es una señal muy directa. Si quieres que Claude descubra y entienda tus páginas públicas en experiencias de búsqueda en vivo, bloquear Claude-SearchBot implica un coste real, no un gesto simbólico.

Accesos iniciados por usuario: la categoría que más se olvida

La tercera familia es la más fácil de malinterpretar. OpenAI dice que ChatGPT-User no se usa para rastrear la web de forma automática y que no determina si un contenido puede aparecer en Search. Anthropic dice que Claude-User sirve para solicitudes del usuario y que desactivarlo impide recuperar tu contenido en respuesta a una consulta. En otras palabras: no son bots de indexación automática, pero sí importan si quieres que un modelo vaya a buscar tu página cuando alguien pide información fresca, concreta o comparativa.

Aquí es donde muchas políticas globales de bloqueo dejan de tener sentido. Una empresa dice que quiere visibilidad en asistentes de IA y, al mismo tiempo, bloquea el bot de búsqueda, el bot de usuario o ambos. O bloquea solo el bot de entrenamiento, cree que ha cerrado todo, y más tarde descubre que la página puede seguir enlazándose o recuperándose en experiencias en vivo. La solución no es más paranoia. Es una tabla de política que nombre cada agente, su finalidad, el control exacto que quieres aplicar y la métrica que vas a vigilar después.

Una política razonable por defecto para la mayoría de sitios comerciales

  • Permite los bots ligados al descubrimiento y a la citación en vivo si aparecer en respuestas de IA importa al negocio. Eso suele significar Googlebot para las funciones de IA de Google Search, OAI-SearchBot para el descubrimiento en ChatGPT y Claude-SearchBot si la visibilidad en Claude importa en tu mercado.
  • Decide aparte sobre bots de entrenamiento como GPTBot y ClaudeBot. Esa es una decisión de marca, legal y de derechos sobre contenido, no la misma que darte de baja de la visibilidad en buscadores con IA.
  • Documenta expresamente si agentes iniciados por usuario como ChatGPT-User y Claude-User están permitidos. Si una página no debe mostrarse nunca, combina reglas robots con controles más fuertes como noindex cuando corresponda.
  • No uses robots.txt como único modelo mental. Google remite a controles de snippet y noindex para lo que se puede mostrar en sus funciones de IA, y OpenAI dice que noindex es el control más fuerte cuando no quieres ni siquiera una aparición como título y enlace.
  • Mantén el sitio técnicamente aburrido en el mejor sentido: 200 reales en páginas clave, 404 reales en URLs basura, HTML legible, canonicals coherentes y ninguna capa de gestión de bots metiendo reglas contradictorias.

Cómo medir si tu política de crawlers ayuda o perjudica

Un equipo serio de AEO no se queda en el fichero robots. Verifica consecuencias en logs, analítica y reporting de capas de respuesta. Cloudflare AI Crawl Control ya ofrece un panel para ver qué servicios de IA acceden a tu contenido, si los crawlers respetan las directivas robots y cómo aplicar reglas de allow o block por crawler. Eso es útil porque convierte la política de bots en un sistema observable, no en una apuesta que se hace una vez y se olvida.

También conviene medir la capa de respuesta. Bing Webmaster Tools expone ya AI Performance con métricas como total de citaciones, promedio de páginas citadas y grounding query phrases. Ese tipo de señal no sustituye el seguimiento por prompts, pero sí permite ver si las páginas que quieres que se reutilicen están siendo citadas de verdad y para qué patrones de búsqueda. OpenAI añade otra pista muy concreta: su FAQ para publishers explica que el tráfico procedente de ChatGPT search llega con el parámetro utm_source=chatgpt.com. Eso permite aislar el referral desde IA en analítica en lugar de tratarlo como folklore.

Como mínimo, el panel de control para esta decisión debería incluir evidencia de acceso en logs, indexabilidad de páginas prioritarias, cobertura de páginas citadas y comportamiento del tráfico referido desde superficies de IA. Si cambias el acceso de bots y solo miras tráfico bruto, te perderás el verdadero compromiso AEO. El resultado que importa no es la paz con los bots. Es si mejores páginas pasan a ser elegibles, descubribles y reutilizables como fuente.

Errores comunes que crean sabotaje invisible

  • Bloquear todos los user-agents de IA y seguir esperando aparecer en resultados de búsqueda con IA.
  • Suponer que un opt-out de entrenamiento y un opt-out de búsqueda son lo mismo.
  • Depender solo de robots.txt cuando el control fuerte que toca es noindex o el control de snippet.
  • Dejar que una CDN o una capa de bot management inyecte reglas contradictorias para el mismo crawler.
  • Descuidar los básicos técnicos que siguen mandando la elegibilidad: enlaces internos, señales canónicas, elegibilidad de snippet, texto renderizable y códigos de estado limpios.
La política de crawlers que ayuda al AEO rara vez es la más restrictiva. Es la que separa entrenamiento de búsqueda, aplica a cada caso el control correcto y mide qué cambió después.

Qué significa esto para agencias y equipos in-house

Para una agencia, la oportunidad comercial es evidente. Cada vez más clientes entienden que la visibilidad en IA depende tanto del acceso técnico como del contenido, pero muy pocos tienen una política de crawlers que puedan defender línea por línea. Eso convierte la gobernanza de bots en un primer diagnóstico muy potente dentro de cualquier trabajo de AEO o SEO técnico. Para un equipo interno, la lección principal es disciplina: escribir la política, mapearla a bots concretos, probarla en producción y medir el efecto sobre las citaciones, no solo sobre el volumen de rastreo.

Si necesitas el marco más amplio para encajar esta decisión, empieza por nuestros contenidos base sobre AEO, por las notas del laboratorio local sobre trampas de crawlers y por la pieza práctica sobre qué técnicas AEO siguen importando. Esos activos conectan la pregunta por los bots con el trabajo mayor: conseguir que buscadores y motores de respuesta puedan rastrear, entender, citar y confiar mejor en el sitio.

Recursos relacionados en Blobic

Referencias