Conecta con nosotros

Noticias

OpenAI ya tiene su propio rastreador web

Publicado

el

OpenAI ya tiene su propio rastreador web

La tecnología de OpenAI se encuentra tras algunos de los servicios de inteligencia artificial más relevantes del momento. Ya sea en solitario con ChatGPT y con GPT-4, o en colaboración con Microsoft (que también es accionista mayoritaria de la empresa) con Bing, alcanzó una enorme relevancia con el lanzamiento de su chatbot el año pasado y, desde entonces, no ha dejado de cobrar más y más notoriedad, tanto por lo que ya han hecho como por sus planes de futuro.

El más destacable es, claro, GPT-5, marca que precisamente registró hace solo unos días, y con la que se identificará la futura generación de su modelo de inteligencia artificial generativa, que sirve como base para parte de sus servicios. Hace unos meses empezó a circular el rumor de que OpenAI lo lanzaría antes de que este año finalice, pero parece ser que la tecnológica se reservará su lanzamiento para más adelante, si bien no está claro si será para tomarse más tiempo para pulirlo, o en respuesta a la demanda creciente de que se ralentice la evolución de las IA hasta que se hayan establecido los marcos regulatorios adecuados.

Si hay una fase clave en el proceso de creación de un modelo de IA, sin duda ese es su entrenamiento, pues de la cantidad y calidad de los datos empleados dependerá directamente la capacidad de respuesta a posteriori. Así, OpenAI y otras empresas especializadas en IA, trabajan de manera constante en el proceso de búsqueda y preparación de los datos que posteriormente ingieren los modelos. Algo que, eso sí, ha hecho que estas empresas se pongan en el punto de mira por el uso no autorizado de contenidos con derechos de autor.

OpenAI ya tiene su propio rastreador web

Según podemos leer en su web, la compañía parece haber dado con la solución para matar dos pájaros de un tiro, y es que OpenAI ha puesto en marcha su propio rastreador web, es decir, una herramienta que analiza e indexa automáticamente el contenido de las páginas web. Como ya sabrás, esta es la misma tecnología empleada por los buscadores, solo que en este caso su función será la de alimentar de datos los modelos de inteligencia artificial de la compañía.

Al igual que ocurre con los robots de los buscadores, los administradores de los sitios web pueden bloquear el rastreador de OpenAI, así como especificar que solo quieren que se analice el contenido de determinadas páginas del mismo. Además, también indican que no se indexará contenido que se encuentre tras muros de pago, que contenga información personal o cuyo contenido vaya en contra de las políticas de la compañía.

Digo que este es un movimiento muy inteligente y que mata dos pájaros de un tiro porque, al tiempo, mejora la capacidad de búsqueda e indexado de información para el entrenamiento de sus modelos, y también, al permitir bloquear dichos análisis, ofrece una herramienta que OpenAI podrá esgrimir si es acusada de emplear contenidos sin autorización para ello. Una jugada muy, muy inteligente.

Si me dieran una cana por cada contenido que he escrito relacionado con la tecnología... pues sí, tendría las canas que tengo. Por lo demás, música, fotografía, café, un eReader a reventar y una isla desierta. ¿Te vienes?

Lo más leído