Un nuevo estudio, realizado por investigadores de la Universidad Johns Hopkins, en Estados Unidos, ha demostrado que las personas tendemos a hacer las mismas interpretaciones que la Inteligencia Artificial (IA) sobre las imágenes que la confunden.
Los hallazgos sugieren que las computadoras modernas pueden no ser tan diferentes de los humanos como pensamos, lo que demuestra cómo los avances en inteligencia artificial continúan reduciendo la brecha entre las capacidades visuales de las personas y las máquinas. La investigación fue publicada en revista Nature Communications .
Lo que es fácil para los humanos es a menudo difícil para las computadoras. Los sistemas de inteligencia artificial han sido durante mucho tiempo mejores que las personas para hacer matemáticas o recordar grandes cantidades de información, pero durante décadas los humanos han tenido una ventaja en el reconocimiento de objetos cotidianos como perros, gatos, mesas o sillas. Sin embargo, recientemente, las “redes neuronales” que imitan al cerebro se han acercado a la capacidad humana para identificar objetos, lo que ha llevado a avances tecnológicos que respaldan a los autos que conducen por sí mismos, a los programas de reconocimiento facial y a los sistemas de inteligencia artificial que ayudan a los médicos a detectar anomalías en las exploraciones radiológicas.
¿Cómo sabemos que las personas no pueden ver lo que hicieron las computadoras?
Para probar esto, Firestone y el autor principal Zhenglong Zhou, un estudiante de último año de Johns Hopkins que se especializa en ciencias cognitivas, esencialmente le pidieron a la gente que “piense como una máquina”. Las máquinas tienen un vocabulario relativamente pequeño para nombrar imágenes. Así que Firestone y Zhou mostraron a la gente docenas de imágenes tontas que ya habían engañado a las computadoras, y dieron a las personas los mismos tipos de opciones de etiquetado que tenía la máquina. En particular, preguntaron a las personas cuál de las dos opciones en que la computadora decidió que era el objeto, una de ellas era la conclusión real de la computadora y la otra una respuesta aleatoria. ¿Fue la mancha representada un panecillo o un molinillo? Resulta que la gente estaba totalmente de acuerdo con las conclusiones de las computadoras.
La gente eligió la misma respuesta que las computadoras el 75 por ciento de las veces. Quizás aún más notable, el 98 por ciento de las personas tendían a responder como lo hacían las computadoras.
Los siguientes investigadores aumentaron la apuesta al dar a las personas la opción de elegir entre la respuesta favorita de la computadora y su siguiente mejor conjetura: ¿Por ejemplo, la mancha representó un panecillo o un pretzel? La gente volvió a validar las opciones de la computadora, y el 91 por ciento de los evaluados está de acuerdo con la primera opción de la máquina.
Incluso cuando los investigadores hicieron que la gente adivinara entre 48 opciones respecto a cuál era el objeto, e incluso cuando las imágenes se parecían a la estática de la televisión, una proporción abrumadora de los sujetos eligió lo que la máquina eligió muy por encima de las tasas de probabilidad aleatoria. Un total de 1.800 sujetos fueron probados a lo largo de los diversos experimentos.
“Nuestro estudio brinda una nueva perspectiva, junto con un nuevo paradigma experimental que hay que explorar”, concluye Zhou.
Referencia: Humans can decipher adversarial images. Z. Zhou, C. Firestone. Nature Communications, 22 March 2019. DOI: https://doi.org/10.1038/s41467-019-08931-6.