El oscuro secreto de Google y ReCaptcha

 

Guatemala, 21/03/2026

Universidad del Valle de Guatemala, Departamento de Ciencias de la Computación

 

El oscuro secreto de Google y ReCaptcha

Como han de saber, por ser una figura pública importante de Guatemala, y también miembro de la Comunidad Educativa del Valle (pues estudió en el Colegio Americano de Guatemala), Luis Von Ahn es el creador no solo de Duolingo, sino también del sistema y/o software de reconocimiento de “humanidad” en internet; entiéndase “CAPTCHA” y “RECAPTCHA”.

Todos hemos usado en algún momento reCAPTCHA al entrar a un sitio web, siendo incluso obligatorio en la mayoría de ellos. Ya sea de escribir una palabra que no se ve claramente del todo, o de identificar cuáles son los pasos de cebra o semáforos en una serie de fotos, es un mecanismo que se ha hecho parte del día a día de la vida virtual en internet. Aunque esto inicialmente fue desarrollado como parte de una prevención de spam masivo por parte de sencillos bots (“sencillos” a comparación de lo que hoy tomamos como IA), eventualmente se consideró que podría tener otros fines… O, al menos, así lo consideró el gigante Google, quien compró reCAPTCHA a Von Ahn en 2009. Y esto, contradeciría el lema fundador de Google: “don’t be evil”.

 

Desde 2007 hasta 2012 aproximadamente, el recaptcha, como propiedad de Google, era simplemente un “descifrador de texto”, en donde se presentaban 2 distintas palabras: una que era claramente visible y otra que estaba manchada, torcida, tachada, etc. Ellos ya sabían cuál era la primera palabra que aparecía, y solo esa bastaba para hacer la verificación humana; no obstante, para la segunda palabra, eran sus propios sistemas de lectura de palabras (Optical Character Recognition) la cual no funcionaba correctamente y no podía identificar dicha palabra. Entonces, se les ocurrió la idea de entrenar a dichos sistemas con las entradas de los cibernautas; básicamente, por cada palabra que un usuario humano real introducía en un sistema de reCAPTCHA, estaba alimentando a un algoritmo de detección de escritos por fotos, para poder identificar a la casi perfección las palabras que, por su cuenta, no podía resolver. Prácticamente, era un modelo de IA con entreno supervisado. Esto, según indican fuentes (citadas al final de este escrito), fue para colaboración de digitalizar las entradas del New York Times antiguas (desde 1851), así como para la digitalización masiva de libros de Google Books.

Con el paso de los años, gracias al entrenamiento recibido por las personas que llenaban reCAPTCHA (sin que estas supieran que estaban involucradas en dicho entrenamiento), el OCR de Google mejoró y ya no necesitó más resoluciones humanas sobre textos… pero ahora era el momento del procesamiento de imágenes.

 

Eventualmente, después de 2012, Google cambió el tipo de reCAPTCHA que era requerido al momento de ingresar a un sitio: en vez de resolver texto, ahora era para resolver imágenes (reCAPTCHA v2). “De la cuadrícula, señala en dónde hay una bicicleta”, o “¿Cuál de estos es un semáforo?”, así como otras instrucciones similares tienen los nuevos reCAPTCHA, la siguiente generación a los de texto. Por tanto, como han de deducir, no solo por el caso previamente mencionado (reCAPTCHA  v1) sino también por el título de la entrada del blog, sí, lo volvieron a hacer. Utilizaron los datos de los usuarios humanos reales, para problemas que tenían de identificación con sus modelos de IA. Estos modelos, ahora, en vez de ser para digitalización de textos, como fueron los anteriores, eran tanto para entrenar un modelo capaz de predecir el ambiente de una calle transitada, como para identificación de objetos. Los cuales, casualmente, son algoritmos utilizados por dos productos de Google (los cuales se explicarán junto con otros, en el párrafo final). No es casualidad que Gemini sabe reconocer tan bien los objetos dentro de las imágenes que se le envía.

 

Finalmente, existe otro tipo de reCAPTCHA, el cual es el más utilizado actualmente (reCAPTCHA v3): una simple casilla de verificación. Yo, cuando vi ese método por primera vez, me sorprendí mucho, pues pensé que únicamente revisaban que no fuera una IP dudosa que estuviera accediendo y poco más, pensé que era menos seguro que los anteriores métodos; pero no, resulta que sí es mucho más elaborado que solo eso. Aquí, ya entran datos biométricos; y no, no me refiero a la huella dactilar o la pupila del ojo, sino a cómo movemos el mouse para darle click a la casilla de verificación. Un humano, tarda un momento en identificar la casilla, mover su mouse en una trayectoria no perfecta hacia la casilla, darle click en un cierto tiempo y esperar a ver el resultado; es bastante natural, todo el procedimiento lo hacemos inconscientemente. No obstante, si fuera una máquina, los trazos de recorrido del mouse serían líneas perfectamente rectas, con tiempos de reacción inmediatos e inhumanos. Todos estos metadatos, así como la huella digital del navegador y, como no, la IP son registrados y consumidos por Google, para su análisis posterior, posiblemente, para entrenar otro modelo de IA. Para este caso, se genera una nueva pregunta inquietante: ¿qué producto lanzará Google que necesita datos biométricos de los movimientos de los músculos de la mano y tiempo de reacción para algo en pantalla?, ¿quieren hacer un robot real, con movimientos de manos casi humanos?

 

Finalmente, aprovechando que se habla de los productos, aquí está la gran lista de beneficiados de esta recolección masiva de datos sin consentimiento (todos productos de Google):

  • ·        Gemini: alto reconocimiento de patrones en imágenes subidas, así como para la generación de estas.
  • ·        Google Lens: reconocimiento y búsqueda de objetos por medio de fotos. Traducción entre idiomas en tiempo real, basándose en una foto de algún texto.
  • ·        Google Image Search: reconocimiento de las imágenes que se le están subiendo, para una búsqueda profunda.
  • ·        Waymo: empresa “hija” de Google, que ofrece servicios de automóviles inteligentes, con conducción propia. Básicamente, como un Uber, pero sin que el piloto sea un ser humano.

Estimaciones calculan que el precio de ganancia por los datos recolectados por casi 20 años es de 6 mil millones de dólares, de total ganancia, pues nunca se le hizo algún tipo de pago a cada uno de los millones de usuarios que resolvieron un reCAPTCHA durante todo este tiempo. Además, cada producto de ellos, beneficiado directamente por esta extracción de datos y entrenamiento, tiene su propio valor de empresa (por ejemplo, Waymo actualmente vale aprox. 126 mil millones de dólares).  

 

En lo personal, comprendo que el objetivo principal por el cual se creó reCAPTCHA fue para evitar que hubiera tanto spam y bots en internet, pero lo irónico es que los datos de ello hayan resultado en más bots circulando aún más por internet (como lo está actualmente a causa de todos los modelos de IA). Considero es algo preocupante, no por el entrenamiento en sí de los modelos, sino por la falta de claridad de Google de no admitir desde un principio que el sistema de reCAPTCHA iba a servir para entrenar sus propios modelos de IA y/o de reconocimiento de caracteres/imágenes; en vez de solo extraer los datos de cada persona (tanto las respuestas del v1 y v2, como los biométricos de comportamiento del v3). Pero, bueno, supongo que por algo eventualmente cambiaron su propio lema.

 

 

Escrito por: Renato Rojas

Referencias adicionales (por si les interesa leer más :D):

Ayo, D. (2026). Google reCAPTCHA Has Been Training AI With User Data for Over 15 Years. https://medium.com/@Daniel.O.Ayo/google-recaptcha-has-been-training-ai-with-user-data-for-over-15-years-eea154af317d

Blockbeats. (2026). Users unknowingly trained Google’s AI for 15 years through CAPTCHA. https://www.kucoin.com/news/flash/users-unwittingly-trained-google-s-ai-for-15-years-via-captcha

Grigoryan, G. (2025). How reCAPTCHA turned internet users into unpaid AI trainers. https://gor-grigoryan.medium.com/how-recaptcha-turned-internet-users-into-unpaid-ai-trainers-a2107adf31e3

 

No hay comentarios:

Con la tecnología de Blogger.