OAI-SearchBot
| OAI-SearchBot | Bienvenido a Departamento de Sistemas e Informática |
Presentación

OAI-SearchBot es el bot de OpenAI que rastrea internet para encontrar productos, leer fichas, entender qué realizas y vendes y recomendarte en ChatGPT? Se llama OAI-SearchBot, y si tenés una tienda online o trabajás con copywriting para eCommerce, vas a querer hacerte amigo de ese bicho.
WikicharliE Patrimonio de Chile
¿Qué es OAI-SearchBot?
OAI-SearchBot es el rastreador web de OpenAI. Es el robot que recorre páginas de internet, analiza su contenido y lo incorpora al «cerebro» de modelos como ChatGPT.
Así como Google tiene su Googlebot, OpenAI tiene este crawler que se activa cuando una persona hace una búsqueda o le pide una recomendación de producto a ChatGPT (sobre todo en el nuevo módulo de búsqueda de productos).
¿Por qué importa?
Porque si tu web bloquea este bot, no existes para ChatGPT.
OpenAI está a la vanguardia de este cambio. Con tres bots independientes operando en su plataforma, la visibilidad actual implica comprender las distintas funciones que desempeña cada uno:
- GPTBot rastrea contenido para el entrenamiento del modelo.
- OAI-SearchBot indexa el contenido para los resultados de búsqueda dentro de ChatGPT.
- ChatGPT-User accede al contenido a pedido durante la navegación iniciada por el usuario o la actividad del complemento.
Cada bot tiene diferentes reglas, capacidades e implicaciones estratégicas. Para garantizar la visibilidad de su sitio en este nuevo entorno, debe considerar cómo su contenido se nutre, se configura y se presenta en un ecosistema de un billón de tokens.
¿Qué son los tokens?
Los tokens son los componentes básicos del texto que procesan los modelos de OpenAI. Pueden ser tan cortos como un solo carácter o tan largos como una palabra completa, según el idioma y el contexto. Los espacios, la puntuación y las palabras parciales también contribuyen al conteo de tokens. Así es como la API segmenta internamente tu texto antes de generar una respuesta.
Reglas prácticas útiles para el inglés:
- 1 token ≈ 4 caracteres
- 1 token ≈ ¾ de una palabra
- 100 tokens ≈ 75 palabras
- 1–2 oraciones ≈ 30 tokens
- 1 párrafo ≈ 100 tokens
- ~1,500 palabras ≈ 2,048 tokens
La tokenización puede variar según el idioma. Por ejemplo, “Cómo estás” (español para “How are you”) contiene 5 tokens para 10 caracteres. El texto que no está en inglés suele producir una proporción más alta de tokens por carácter, lo que puede afectar costos y límites.
Ejemplos
Aquí tienes algunas muestras de texto del mundo real con su conteo aproximado de tokens:
- La cita de Wayne Gretzky “You miss 100% of the shots you don’t take” = 11 tokens
- La Carta de OpenAI = 476 tokens
- La Declaración de Independencia de EE. UU. = 1,695 tokens
Cómo funciona OAI-SearchBot?
Este bot sigue enlaces, lee HTML, interpreta datos estructurados y extrae información relevante de productos, servicios o contenidos útiles.
¿Qué busca exactamente?
- Contenido bien escrito (sí, el copy importa)
- Datos estructurados con schema.org (como nombre, precio, stock, rating)
- URLs seguras y accesibles (HTTPS, sin bloqueos)
- Experiencia de usuario decente (no te va a indexar si tu web es una GiGo, Garbage in-Garbage out, como dice el MIT.
Además, OpenAI anunció que pronto permitirá a los e-commerce enviar feeds de producto directamente, como se hace con Google Merchant. Pero mientras tanto, el rastreo es todo.
Detalles Técnicos
OAI-SearchBot se utiliza para enlazar y mostrar sitios web en los resultados de búsqueda en el prototipo SearchGPT. No se utiliza para rastrear contenidos con el fin de entrenar los modelos generativos de IA de OpenAI.
Para ayudar a garantizar que tu sitio aparezca en los resultados de búsqueda, se recomienda permitir OAI-Searchbot en el archivo robots.txt de tu sitio y permitir solicitudes desde estos rangos de IP (actualizado a 27/julio/2024):
20.42.10.176/28 172.203.190.128/28
La cadena de agente de usuario completa es esta
- Mozilla/5.0 AppleWebKit/537.36 (KHTML, como Gecko); compatible; OAI-SearchBot/1.0; +https://openai.com/searchbot)
Cómo bloquear OAI-SearchBot
Si quieres bloquear el acceso de OAI-Searchbot a tu página web, solo tienes que incluir estas líneas en tu archivo robots.txt:
User-agent: OAI-Searchbot Disallow: /
bloquearlo también a nivel de IP
Por otro lado, si quieres bloquearlo también a nivel de IP tendrás que bloquear todas las llamadas que vienen desde los siguientes bloques de IPs:
20.42.10.176/28 y 172.203.190.128/28.
Rastreo e indexación 101 (Edición OpenAI)
Antes de que OpenAI pueda citar, resumir o recuperar su contenido en herramientas como ChatGPT, primero debe descubrirlo y procesarlo y es aquí donde entran en juego el rastreo y la indexación.
- Rastreo: Cómo GPTBot encuentra tu contenido
GPTBot (el rastreador de OpenAI) utiliza una combinación de:
- Retroenlaces desde otros sitios web
- URL de acceso público
- Enlaces compartidos en las consultas de los usuarios
- Posiblemente sitemap.xml y referencias estructuradas
A diferencia de Googlebot, GPTBot no utiliza un navegador completo ni procesa JavaScript, por lo que solo ve la respuesta HTML sin procesar. Esto hace que la renderización del lado del servidor (SSR) sea imprescindible para la visibilidad.
Indexación: qué se almacena y se utiliza
OpenAI mantiene su propio índice interno para la recuperación y síntesis. No se trata de un índice tradicional de motor de búsqueda, sino de un conjunto seleccionado de fragmentos de texto y metadatos utilizados por:
- Memoria de conexión a tierra interna del GPT-4
- Productos como ChatGPT Enterprise o pipelines API RAG
Nota: Si bien el índice interno de OpenAI potencia la recuperación empresarial y de API, los resultados de búsqueda en tiempo real en ChatGPT (incluido GPT-4o) dependen del índice de Microsoft Bing.
Si su contenido está bien estructurado y es rastreable, es más probable que se pueda recuperar y almacenar en un formato que se pueda recordar con precisión.
Nota: OpenAI no proporciona una herramienta similar a Search Console (aún), por lo que los registros del servidor y las herramientas de monitoreo de rastreo son su mejor opción para las verificaciones de visibilidad.
Si OpenAI no puede acceder a tu contenido directamente, podría citarte basándose en resúmenes de terceros (como Reddit, Wikipedia o agregadores de noticias). Pero para garantizar que extraiga tus palabras , debes hacerlas rastreables.
Detalles técnicos
1-Formación: Inclusión en los modelos fundacionales de OpenAI
GPTBot es el rastreador de OpenAI para el entrenamiento de modelos. Recopila datos públicos para ampliar la comprensión del modelo del mundo, mejorando su capacidad para generar respuestas precisas y completas en diversos temas.
Por defecto, GPTBot respeta el archivo robots.txt de tu sitio . Si tu objetivo es la inclusión, asegúrate de que tenga acceso:
Agente de usuario: GPTBot Permitir: /
Si prefiere excluir su sitio del entrenamiento, utilice:
Agente de usuario: GPTBot No permitir: /
También puedes permitir o prohibir directorios específicos. Por ejemplo:
Agente de usuario: GPTBot Permitir: /docs/ No permitir: /checkout/
Nota: Bloquear GPTBot solo afecta a futuras ejecuciones de entrenamiento. Si su contenido se ingirió previamente, permanece como parte del modelo.
Ser incluido en el rastreo de GPTBot no se trata solo de visibilidad. Define cómo se representa tu marca en los resultados. Hemos visto herramientas y frameworks que consiguen menciones predeterminadas en las respuestas generadas, sin siquiera posicionarse en Google, gracias a su buena representación en los datos de entrenamiento.
2. Indexación: Visibilidad en tiempo real en la búsqueda de ChatGPT
OAI-SearchBot es compatible con las funciones de búsqueda en vivo de ChatGPT, incluyendo citas en línea y respuestas en tiempo real. Este bot crea y mantiene un índice interno que complementa el conocimiento del modelo con datos web actualizados.
Aquí es donde se produce la atribución de la fuente. Por ejemplo, cuando ChatGPT devuelve un párrafo citado con un enlace clicable, se trata de OAI-SearchBot en acción.
Al igual que GPTBot, se puede permitir o no de forma independiente:
Agente de usuario: OAI-SearchBot Permitir: /
Las actualizaciones de robots.txt normalmente se ejecutan dentro de las 24 horas.
La optimización para OAI-SearchBot requiere prestar atención a lo siguiente:
*Estructura de contenido clara y escaneable *Backlinks y menciones de alta autoridad *Páginas de carga rápida con contenido generado por el servidor y mínima dependencia de JS para el contenido principal
ChatGPT-User se activa cuando un usuario solicita a un GPT personalizado que obtenga contenido, usa un complemento o interactúa con herramientas web externas dentro de ChatGPT. Si bien no es un rastreador en el sentido tradicional, funciona como un agente de navegador para usuarios de LLM.
Puedes controlar el acceso en robots.txt igual que en los demás:
Agente de usuario: ChatGPT-User Permitir: /
Este tipo de acceso potencia funciones como la herramienta de navegación web de ChatGPT o integraciones que extraen especificaciones de productos, documentación o contenido de soporte en tiempo real.
Permitir este bot garantiza que su sitio pueda responder a solicitudes directas de los usuarios dentro de la interfaz ChatGPT. Control de la indexación con etiquetas Meta Robots
Si bien robots.txt controla si los bots de OpenAI (como GPTBot y OAI-SearchBot) pueden rastrear una página, no controla si dicha página aparece en su índice interno ni en sus conjuntos de datos de entrenamiento si se puede encontrar mediante enlaces externos. Para controlar explícitamente el comportamiento de indexación , deberá usar la metaetiqueta robots .
Agregue lo siguiente a la sección <head> de su página HTML:
<meta nombre="robots" contenido="noindex">
Esta etiqueta indica a los bots que cumplen con los requisitos, incluidos los de OpenAI, que excluyan la página de la indexación o citación en los resultados generativos. Puede combinar varias directivas según sea necesario:
<meta name="robots" content="noindex, nofollow">
Esto es lo que hacen las directivas clave:
*noindex : evita que la página se incluya en índices de búsqueda o bases de datos de citas LLM. *nofollow : evita que los rastreadores sigan los enlaces salientes en la página. *nosnippet : evita la visualización de texto o fragmentos multimedia de la página en las respuestas. *noarchive : bloquea las versiones en caché. *unavailable_after : [fecha/hora]: expira automáticamente la visibilidad después de una fecha específica.
También puedes aplicarlos a activos que no sean HTML (como archivos PDF o videos) mediante encabezados HTTP:
Etiqueta de X-Robots: noindex
Advertencias importantes:
*No combine "noindex" con una regla "Disallow" en robots.txt . Si se bloquea el acceso de un rastreador a una página, no verá la metaetiqueta y podría indexar la página de todos modos si está enlazada externamente. *Los cambios en las metaetiquetas generalmente se respetan dentro de las 24 a 48 horas posteriores al nuevo rastreo.
En resumen, si desea evitar que OpenAI indexe o cite una página, pero no bloquear el rastreo por completo, meta robots es la herramienta ideal. Úselo para definir con precisión qué páginas aparecen en los resultados generativos y cuáles permanecen privadas o transitorias.
OpenAI no procesa JavaScript
Hay una restricción importante que a menudo se pasa por alto en las conversaciones sobre indexación de IA: los rastreadores de OpenAI no pueden renderizar JavaScript.
A diferencia de Googlebot, que obtiene, analiza y ejecuta scripts para renderizar contenido dinámico, el ecosistema de bots de OpenAI (GPTBot, OAI-SearchBot y ChatGPT-User) solo ve el contenido del HTML inicial. Esto significa que cualquier contenido renderizado por el cliente, como detalles del producto, pestañas de documentación o incluso el contenido principal del artículo, podría no ser visible para OpenAI.
Datos recientes de Vercel y MERJ lo dejan dolorosamente claro. Su análisis conjunto rastreó más de 500 millones de recuperaciones de GPTBot y no encontró ninguna evidencia de ejecución de JavaScript. Incluso cuando GPTBot descarga archivos JS (lo cual hace aproximadamente el 11,5 % del tiempo), no los ejecuta. Lo mismo ocurre con ClaudeBot de Anthropic, ExternalAgent de Meta, Bytespider de ByteDance y PerplexityBot. No hay ejecución. No hay hidratación. No hay contenido renderizado por el cliente.
Si su contenido principal depende de JavaScript para aparecer, es como si no existiera en lo que respecta a OpenAI. ¿Qué significa esto para la visibilidad?
Si su sitio está construido con marcos como React, Vue o Next.js, no tendrá problemas automáticamente, pero debe ser intencional.
OpenAI solo puede indexar lo incluido en el HTML sin procesar que recibe. Cualquier contenido renderizado posteriormente por JavaScript no se verá. Por eso es importante tu estrategia de renderizado:
✅ Renderizado del lado del servidor (SSR) : El HTML se genera en el servidor y se envía completo al navegador. Los rastreadores (y los usuarios) ven la página final de inmediato.
✅ Regeneración estática incremental (ISR) : Considérelo como un SSR con almacenamiento en caché. Las páginas se pre-renderizan y se sirven como archivos estáticos, pero se actualizan periódicamente en segundo plano.
✅ Generación de sitios estáticos (SSG) : La página se crea con antelación durante la implementación. Lo que se entrega es un archivo HTML simple, sin necesidad de renderizarlo en el servidor ni en el cliente.
⚠️ Renderizado del lado del cliente (CSR) : El navegador carga un shell HTML prácticamente vacío y luego usa JavaScript para obtener datos y crear la página. Los bots de OpenAI no ejecutan JavaScript, por lo que no detectarán nada generado de esta manera.
Esto no significa que deba renunciar a la interactividad. JavaScript aún permite usar modales, efectos al pasar el cursor, búsquedas en vivo y mejoras dinámicas. Tenga en cuenta que su contenido principal (artículos, especificaciones de producto y documentación) debe estar presente al cargar la página.
Si no lo es, los bots de OpenAI no lo verán. Y si no lo ven, no podrán citarlo.
Esto también afecta la forma en que su marca aparece en los resultados del LLM.
Si los bots de OpenAI no pueden acceder a sus páginas principales, entonces:
*GPTBot no incluirá su sitio en los datos de entrenamiento. *OAI-SearchBot no le mostrará respuestas en tiempo real. *ChatGPT-User no recuperará su contenido durante las sesiones de navegación.
Peor aún, si sus competidores ofrecen contenido equivalente a través de SSR o SSG, sus respuestas pueden ser las únicas a las que se haga referencia, independientemente de si son más precisas, más actuales o están mejor redactadas. La buena noticia: esto se puede solucionar.
No necesitas abandonar tu framework JavaScript. Solo necesitas ofrecer HTML relevante al cargar.
Esto es lo que se recomienda:
- Asegúrese de que todo el contenido crítico esté incluido en su respuesta HTML inicial.
- Utilice SSR o páginas pre-renderizadas siempre que su pila lo permita.
- Pruebe su sitio con curl o wget para confirmar qué es visible sin JS.
- Evite colocar contenido clave, como descripciones de productos, cuerpos de artículos o documentación, dentro de componentes que solo se procesan después de que se carga JavaScript (como componentes de solo hidratación o importados dinámicamente).
- Para Next.js: use getServerSideProps o getStaticProps para rutas con mucho contenido.
En resumen: si un bot no puede ver tu valor, el modelo tampoco. Y en la era LLM, la invisibilidad es peor que la irrelevancia. Estructuración de contenidos para LLM
Ya sea que el contenido se entrene, indexe o recupere en tiempo real, la visibilidad no se limita al acceso. Se trata de la interpretabilidad.
Los sistemas de OpenAI analizan renders de página completa, incluyendo HTML, JavaScript, imágenes (mediante OCR) y transcripciones. Sin embargo, los LLM son selectivos y priorizan el contenido estructurado.
La claridad en la estructura ayuda a los sistemas de IA a comprender rápidamente cuál es tu contenido y cómo debe interpretarse. Aquí es donde entra en juego el marcado de esquema.
Cómo utilizar el marcado de esquema para la visibilidad LLM
El marcado de esquema proporciona contexto legible por máquina sobre su contenido. Se puede implementar mediante:
Microdatos: pequeñas etiquetas de metadatos incrustadas directamente en sus elementos HTML (por ejemplo, Jane Doe ).
JSON-LD: un bloque <script type="application/ld+json"> que agrega todos sus metadatos en un solo lugar.
Google prefiere JSON-LD y, por lo general, es más fácil de administrar y validar.
El esquema ayuda con:
- Interpretabilidad: Los LLM se benefician de metadatos ricos en contexto que aclaran las relaciones entre los tipos de contenido (por ejemplo, BlogPosting > autor > fecha de publicación).
- Citación y capacitación: es más probable que el contenido estructurado se muestre con precisión en herramientas como ChatGPT y Perplexity.
Visibilidad de búsqueda: Google utiliza esquemas para mejorar los resultados enriquecidos, lo que a su vez influye en la probabilidad de ser visto, citado o recuperado en las interfaces de IA.
Ejemplo: Esquema de publicación de blog (JSON-LD)
<script type="application/ld+json">
{
"@context": "https://schema.org",
"@type": "BlogPosting",
"headline": "Cómo OpenAI rastrea e indexa contenido",
"author": {
"@type": "Person",
"name": "Jane Doe"
},
"datePublished": "2025-05-03",
"image": "https://example.com/images/openai-crawlers.jpg",
"publisher": {
"@type": "Organization",
"name": "Daydream",
"logo": {
"@type": "ImageObject",
"url": "https://example.com/logo.png"
}
},
"description": "Un análisis técnico profundo sobre cómo funcionan los rastreadores de OpenAI y cómo optimizar la visibilidad de su sitio web."
}
</script>
Ejemplo: Esquema de BlogPosting (Microdatos)
<article itemscope itemtype="https://schema.org/BlogPosting">
Cómo OpenAI rastrea e indexa contenido
Por Jane Doe
Publicado el
<img src="https://example.com/images/openai-crawlers.jpg" itemprop="image" />
Un análisis técnico profundo de cómo funcionan los rastreadores de OpenAI y cómo optimizar la visibilidad de su sitio web.
</article>
Puede validar su marcado utilizando la prueba de resultados enriquecidos de Google o el validador de Schema.org .
Como mínimo, considere marcar:
Artículos o publicaciones de blog Páginas de productos Secciones de preguntas frecuentes Guías prácticas
Estas estructuras ayudan tanto a los motores de búsqueda tradicionales como a los agentes de IA a mostrar correctamente su contenido más importante y mantenerlo alineado con la intención detrás de la página. Lo que debes saber sobre llms.txt
Un nuevo formato de archivo, llms.txt , ha estado circulando en debates sobre indexación de IA. Se propone como una forma de ayudar a los LLM a comprender el contenido del sitio web de forma más eficiente, proporcionando una tabla de contenido con formato Markdown para su dominio (p. ej., yourdomain.com/llms.txt).
En teoría, actúa como un mapa del sitio para modelos de IA, enumerando recursos relevantes como documentación, guías y especificaciones de productos.
¿En la práctica? La adopción es limitada. Ningún proveedor importante de LLM ha declarado oficialmente que utilice llms.txt para rastreo o inferencia.
Ni siquiera Anthropic, que publica un archivo llms.txt, ha confirmado que sus rastreadores lo utilicen. Lo mismo ocurre con Claude, Perplexity y OpenAI. Actualmente no existe evidencia técnica (por ejemplo, registros del servidor o comportamiento de bots) que demuestre que estos archivos sean analizados, priorizados o indexados por ningún LLM. Entonces ¿vale la pena hacerlo?
Quizás, pero con algunas salvedades. Si ya mantienes documentación estructurada, compilar un archivo llms.txt es fácil. Es una adición sencilla y sin riesgos. Sin embargo, no tiene ventajas demostradas. No garantiza mejores citas, mayor visibilidad ni resúmenes más precisos en ChatGPT o Claude.
A continuación se muestra un ejemplo recomendado del formato:
# Título Breve descripción del sitio.
## Nombre de la sección - [Título del enlace](https://link_url): Descripción opcional - [Título del enlace](https://link_url/sub_path): Descripción opcional
## Otra sección - [Título del enlace](https://link_url): Descripción opcional
En resumen:
*Si tienes curiosidad, es seguro experimentar.
*Si está buscando recursos para la visibilidad de la IA, concéntrese en los aspectos fundamentales : HTML limpio, esquema
estructurado, mapas de sitios funcionales y renderizado del lado del servidor.
*Si alguna vez llms.txt se convierte en un estándar real, estarás por delante, pero por ahora, no lo es.
Cerrando el círculo: prepárese para cada capa
La visibilidad en OpenAI no se trata de enlaces azules. Se trata de la presencia en la visión del mundo del modelo.
Su contenido ahora es una entrada de entrenamiento, una fuente de citas y una capa de respuesta interactiva. Informa las respuestas dadas a millones de usuarios en herramientas empresariales, entornos de desarrollo y búsquedas generales.
Considere esto: cuando los usuarios preguntan a ChatGPT por "las mejores plataformas de análisis web de código abierto", el modelo no solo recupera enlaces. También sintetiza. Si su marca ha sido vista, citada y estructurada lo suficientemente bien como para ser incluida, usted forma parte de la respuesta.
Enlaces de Interés
- Gestión de los rastreadores web de OpenAI [GPTBot]: una guía completa
- Cómo construir una IA que pueda responder preguntas sobre su sitio web.
- Cómo indexar su sitio web en ChatGPT, Gemini, Grok y Perplexity: una guía completa
- Descripción general de los rastreadores de OpenAI
- Cómo lograr que ChatGPT y otros motores de búsqueda con IA destaquen su sitio web
- Explicación de LLMs.txt
- Formato XML de mapas de sitio
- LLM - txt
- Generar LLMs.txt con una API
- Grand guide des bots/user-agent OpenAI : comprendre l’écosystème ChatGPT
- Introducción a llms.txt
- Todos los sitios web de LLM
- Descripción general de LLMs-txt
- ¿Afecta el SEO de Google a la optimización LLM? Analizamos más de 400 palabras clave para descubrirlo.
- The rise of the AI crawler- el-auge-del-rastreador-de-ai
- How OpenAi and Indexes your websites
