El gigante Google sufrió un ciberataque y se difundieron más de 2.500 páginas de documentos internos que muestran el funcionamiento de su motor de búsqueda.

En varias ocaciones, la empresa comentó cómo funciona el algoritmo de su buscador y cómo ofrece el mejor resultado. Sin embargo, hay información privada que nunca reveló y que muchos empresarios y compañías desean obtener.  

El algoritmo, las políticas y los sistemas automatizados se actualizan con frecuencia para evitar la desinformación y actos maliciosos que se pueden producir en la red. 

Funcionamiento del algoritmo de Google 

Se difundieron más de 2500 páginas de archivos vinculados con la interfaz de programación (API) y 14.014 atributos de la interfaz que proceden del almacenamiento de contenidos internos de Google.

Rand Fishkin, el cofundador de SparkToro la herramienta de IA, publicó un artículo en el que afirma tener en su poder documentos relacionados con la interfaz de programación del motor de búsqueda de Google.

El empresario denunció que muchas de las afirmaciones que se encuentran en esos documentos "contradicen directamente las declaraciones públicas realizadas por los empleados de Google a lo largo de los años".

Extrabajadores de la empresa confirmaron la veracidad de la información obtenida
Puntualmente, los documentos brindan información sobre los datos que recopila la compañía.
 
Sin embargo, carece de detalles sobre cómo se utilizan los sistemas de clasificación en cada búsqueda. 

Tras su larga investigación, Fishkin llegó a la conclusión de que la filtración provino de GitHub y que, entre marzo y mayo de 2024, los archivos de la API se difundieron en Hexdocs, el sitio que indexa los repositorios públicos de este portal. 

Funciones secretas del algoritmo

El empresario manifestó que los archivos revelan una gran cantidad de información y compartió cinco descubrimiento que "que arrojan luz sobre cosas que durante mucho tiempo se supuso que Google estaba haciendo y otros que sugieren que las declaraciones públicas de la compañía han sido erróneas". 

  • Google tiene diversas formas de filtrar clics según sus intereses. Miden la duración de los mismos y de sus impresiones 
  • Google dispone de una lista de las URL principales. Para determinar cuales son las mas populares analiza la cantidad de clics sobre las páginas de Chrome 
  • Google introduce determinados dominios relacionados con "consultas potencialmente peligrosas" en búsquedas relacionadas con viajes y política
  • Las puntuaciones y los datos generados por evaluadores de la plataforma EWOK están directamente involucrados con los sistemas de búsqueda de Google 
  • Google utiliza datos de los clics para determinar cómo ponderar los enlaces en las clasificaciones (de calidad baja, media o alta). Por ejemplo, si una página tiene gran cantidad de clics desde dispositivos verificables, se clasifica como enlace de alta calidad
  • Por último, reconoció que muchas de las funciones de las que se hablan en los archivos se encuentran obsoletas ya que google se encarga de modificar cotidianamente sus algoritmos y políticas de seguridad.

    Te puede interesar