El oscuro secreto de Google y ReCaptcha
Guatemala, 21/03/2026
Universidad del Valle de Guatemala, Departamento de Ciencias
de la Computación
El oscuro secreto de Google y
ReCaptcha
Como han de saber, por ser una figura pública importante de Guatemala,
y también miembro de la Comunidad Educativa del Valle (pues estudió en el Colegio
Americano de Guatemala), Luis Von Ahn es el creador no solo de Duolingo, sino
también del sistema y/o software de reconocimiento de “humanidad” en internet;
entiéndase “CAPTCHA” y “RECAPTCHA”.
Todos hemos usado en algún momento reCAPTCHA al entrar a un
sitio web, siendo incluso obligatorio en la mayoría de ellos. Ya sea de
escribir una palabra que no se ve claramente del todo, o de identificar cuáles
son los pasos de cebra o semáforos en una serie de fotos, es un mecanismo que
se ha hecho parte del día a día de la vida virtual en internet. Aunque esto inicialmente
fue desarrollado como parte de una prevención de spam masivo por parte de sencillos
bots (“sencillos” a comparación de lo que hoy tomamos como IA), eventualmente
se consideró que podría tener otros fines… O, al menos, así lo consideró el
gigante Google, quien compró reCAPTCHA a Von Ahn en 2009. Y esto, contradeciría
el lema fundador de Google: “don’t be evil”.
Desde 2007 hasta 2012 aproximadamente, el recaptcha, como propiedad
de Google, era simplemente un “descifrador de texto”, en donde se presentaban 2
distintas palabras: una que era claramente visible y otra que estaba manchada,
torcida, tachada, etc. Ellos ya sabían cuál era la primera palabra que
aparecía, y solo esa bastaba para hacer la verificación humana; no obstante, para
la segunda palabra, eran sus propios sistemas de lectura de palabras (Optical
Character Recognition) la cual no funcionaba correctamente y no podía
identificar dicha palabra. Entonces, se les ocurrió la idea de entrenar a
dichos sistemas con las entradas de los cibernautas; básicamente, por cada
palabra que un usuario humano real introducía en un sistema de reCAPTCHA, estaba
alimentando a un algoritmo de detección de escritos por fotos, para poder
identificar a la casi perfección las palabras que, por su cuenta, no podía
resolver. Prácticamente, era un modelo de IA con entreno supervisado. Esto, según
indican fuentes (citadas al final de este escrito), fue para colaboración de digitalizar
las entradas del New York Times antiguas (desde 1851), así como para la
digitalización masiva de libros de Google Books.
Con el paso de los años, gracias al entrenamiento recibido
por las personas que llenaban reCAPTCHA (sin que estas supieran que estaban involucradas
en dicho entrenamiento), el OCR de Google mejoró y ya no necesitó más resoluciones
humanas sobre textos… pero ahora era el momento del procesamiento de imágenes.
Eventualmente, después de 2012, Google cambió el tipo de reCAPTCHA
que era requerido al momento de ingresar a un sitio: en vez de resolver texto,
ahora era para resolver imágenes (reCAPTCHA v2). “De la cuadrícula, señala en
dónde hay una bicicleta”, o “¿Cuál de estos es un semáforo?”, así como otras instrucciones
similares tienen los nuevos reCAPTCHA, la siguiente generación a los de texto.
Por tanto, como han de deducir, no solo por el caso previamente mencionado (reCAPTCHA
v1) sino también por el título de la
entrada del blog, sí, lo volvieron a hacer. Utilizaron los datos de los
usuarios humanos reales, para problemas que tenían de identificación con sus
modelos de IA. Estos modelos, ahora, en vez de ser para digitalización de
textos, como fueron los anteriores, eran tanto para entrenar un modelo capaz de
predecir el ambiente de una calle transitada, como para identificación de
objetos. Los cuales, casualmente, son algoritmos utilizados por dos productos
de Google (los cuales se explicarán junto con otros, en el párrafo final). No
es casualidad que Gemini sabe reconocer tan bien los objetos dentro de las
imágenes que se le envía.
Finalmente, existe otro tipo de reCAPTCHA, el cual es el más
utilizado actualmente (reCAPTCHA v3): una simple casilla de verificación. Yo,
cuando vi ese método por primera vez, me sorprendí mucho, pues pensé que
únicamente revisaban que no fuera una IP dudosa que estuviera accediendo y poco
más, pensé que era menos seguro que los anteriores métodos; pero no, resulta que sí
es mucho más elaborado que solo eso. Aquí, ya entran datos biométricos; y no,
no me refiero a la huella dactilar o la pupila del ojo, sino a cómo movemos el
mouse para darle click a la casilla de verificación. Un humano, tarda un
momento en identificar la casilla, mover su mouse en una trayectoria no
perfecta hacia la casilla, darle click en un cierto tiempo y esperar a ver el
resultado; es bastante natural, todo el procedimiento lo hacemos inconscientemente.
No obstante, si fuera una máquina, los trazos de recorrido del mouse serían líneas
perfectamente rectas, con tiempos de reacción inmediatos e inhumanos. Todos
estos metadatos, así como la huella digital del navegador y, como no, la IP son
registrados y consumidos por Google, para su análisis posterior, posiblemente,
para entrenar otro modelo de IA. Para este caso, se genera una nueva pregunta
inquietante: ¿qué producto lanzará Google que necesita datos biométricos de los
movimientos de los músculos de la mano y tiempo de reacción para algo en
pantalla?, ¿quieren hacer un robot real, con movimientos de manos casi humanos?
Finalmente, aprovechando que se habla de los productos, aquí
está la gran lista de beneficiados de esta recolección masiva de datos sin
consentimiento (todos productos de Google):
- · Gemini: alto reconocimiento de patrones en imágenes subidas, así como para la generación de estas.
- · Google Lens: reconocimiento y búsqueda de objetos por medio de fotos. Traducción entre idiomas en tiempo real, basándose en una foto de algún texto.
- · Google Image Search: reconocimiento de las imágenes que se le están subiendo, para una búsqueda profunda.
- · Waymo: empresa “hija” de Google, que ofrece servicios de automóviles inteligentes, con conducción propia. Básicamente, como un Uber, pero sin que el piloto sea un ser humano.
Estimaciones calculan que el precio de ganancia por los datos
recolectados por casi 20 años es de 6 mil millones de dólares, de total
ganancia, pues nunca se le hizo algún tipo de pago a cada uno de los millones
de usuarios que resolvieron un reCAPTCHA durante todo este tiempo. Además, cada
producto de ellos, beneficiado directamente por esta extracción de datos y
entrenamiento, tiene su propio valor de empresa (por ejemplo, Waymo actualmente
vale aprox. 126 mil millones de dólares).
En lo personal, comprendo que el objetivo principal por el
cual se creó reCAPTCHA fue para evitar que hubiera tanto spam y bots en internet,
pero lo irónico es que los datos de ello hayan resultado en más bots circulando
aún más por internet (como lo está actualmente a causa de todos los modelos de
IA). Considero es algo preocupante, no por el entrenamiento en sí de los
modelos, sino por la falta de claridad de Google de no admitir desde un
principio que el sistema de reCAPTCHA iba a servir para entrenar sus propios
modelos de IA y/o de reconocimiento de caracteres/imágenes; en vez de solo
extraer los datos de cada persona (tanto las respuestas del v1 y v2, como los
biométricos de comportamiento del v3). Pero, bueno, supongo que por algo eventualmente
cambiaron su propio lema.
Escrito por: Renato
Rojas
Referencias adicionales (por si
les interesa leer más :D):
Ayo, D. (2026). Google reCAPTCHA Has Been
Training AI With User Data for Over 15 Years. https://medium.com/@Daniel.O.Ayo/google-recaptcha-has-been-training-ai-with-user-data-for-over-15-years-eea154af317d
Blockbeats. (2026). Users unknowingly
trained Google’s AI for 15 years through CAPTCHA. https://www.kucoin.com/news/flash/users-unwittingly-trained-google-s-ai-for-15-years-via-captcha
Grigoryan, G. (2025). How reCAPTCHA turned internet users
into unpaid AI trainers. https://gor-grigoryan.medium.com/how-recaptcha-turned-internet-users-into-unpaid-ai-trainers-a2107adf31e3
No hay comentarios: