La competencia por desarrollar el bot más rápido es una realidad, y TikTok ha dado un paso adelante con su nueva apuesta para destronar a OpenAI, la actual líder del sector.
Este miércoles se conoció que ByteDance, la empresa matriz de la red social china, lleva meses extrayendo datos de internet con un bot llamado Bytespider.
¿OpenAI en peligro?
Según trascendidos, Bytespider realiza la extracción de datos a una velocidad superior a la de sus competidores, incluidos los de OpenAI, líder en grandes modelos de lenguaje (LLM, por sus siglas en inglés).
Estos modelos requieren enormes cantidades de datos para su entrenamiento, datos que solo se encuentran en internet, donde ya operan varios bots especializados en la recopilación de información.
Gigantes tecnológicos como Google, Meta, Amazon, OpenAI y Anthropic ya utilizan sus propios bots para extraer datos, pero ahora ByteDance se suma a la competencia con Bytespider.
Se cree que este bot apareció en abril, según confirmaron las firmas especializadas en automatización Kasada y Dark Visitors a Fortune. En muy poco tiempo, Bytespider se volvió especialmente agresivo en la recopilación de datos, según informes de Kasada.
El director ejecutivo de Kasada, Sam Crowther, reveló que Bytespider extrae datos 25 veces más rápido que GPTbot (OpenAI) y 300 veces más rápido que ClaudeBot (Anthropic).
El objetivo de ByteDance con este bot
Bytespider, además, no respeta el archivo robots.txt, una línea de código que los editores de sitios web utilizan para prohibir a los bots extraer datos de sus páginas. Esta práctica tampoco es respetada por GPTbot y ClaudeBot.
Se especula que ByteDance podría estar utilizando esta extracción masiva de datos para desarrollar su propio modelo LLM, que estaría destinado a potenciar la función de búsqueda de TikTok, según fuentes cercanas al proyecto.