Esclavos del algoritmo

Fragmento

cap-3

Cazando lagartijas

Este libro comenzó a escribirse la mañana en que una niña que estudiaba Ciencias de la Información en la Universidad Complutense de Madrid se plantó en el despacho del director de una revista de informática que entonces estaba en la cresta de la ola, PC Actual. Corría el año 1994, un tiempo en que nadie tenía internet en casa y había que comprarse una gruesa publicación en papel para conocer las últimas novedades del mundo digital. «¿Así que quieres ser periodista?», me preguntó el buen director[1] desde el otro lado de su reluciente mesa en aquella oficina acristalada que olía a Lou Grant. Yo asentí y, seguramente, aunque estaba nerviosa, sonreí con cara de no haber roto un plato. Entonces, me tendió un pequeño recorte de periódico, de esos que ya no existen, donde podía leerse el anuncio de un festival de cibercultura que iba a celebrarse ese fin de semana, Art Futura.[2] Igual que la mayoría de la gente entonces, yo no tenía ni idea de qué era la cibercultura. Pero me pareció bien investigarlo. De ahí salió mi primer reportaje pagado, seis páginas de aventuras y mundos nuevos, de entrevistas a soñadores, artistas y rebeldes que surcaban el ciberespacio, casi todos desde el otro lado del charco, también algunos radicados en España. Ese inocente recorte de periódico fue la semilla que inspiraría durante tres décadas mi debilidad por investigar qué hay detrás del escenario electrónico: las pasiones, los abusos, las batallas idealistas, la crudeza avariciosa. Y, sobre todo, las personas.

Era una época en que no se hablaba de «inteligencia artificial», sino de «vida artificial». Los artistas digitales creaban obras inspiradas en ella y los científicos reproducían en sus ordenadores las primeras células de la Tierra con unos y ceros. Aquellos eran años biofílicos, en los que internet era una explosión de biodiversidad y un campo de libertad. Enseguida, es incierto cuándo exactamente, de un carpetazo, la palabra «vida» se cambió por otra más abstracta y más arrogante, «inteligencia». Y la eclosión artística, científica y social comenzó a cristalizarse en una dirección obcecadamente tecnológica, económica, empresarial. Tanatófila.

Ambas tendencias son innatas en el ser humano, la que tiende a la vida y la que mira a la muerte o, mejor dicho, a la materia inerte. No es que una sea buena y la otra mala: la biofilia acepta, a cambio de su amor por la existencia en eterna evolución, que nada es susceptible de ser dominado y conocido por completo. La tanatofilia, sin embargo, siente predilección por las cosas que no están vivas —la tecnología, por ejemplo—, porque son más fáciles de someter al ansia humana de tenerlo todo bajo control.

En el fragor de la batalla, surgió un término que, en la última década, muchos enarbolan como si fuera sinónimo de innovación, vanguardia y, sobre todo, de ser muy cool, pero que tiene un significado completamente distinto en el diccionario. «Disruptivo». Según la RAE, «Que produce rotura o interrupción brusca». ¿Una rotura o una interrupción brusca es algo deseable? No lo sabemos, pero sí que el adjetivo suele acompañar a la palabra «tecnología». Quizá para suavizar la cosa, la Fundación del Español Urgente (Fundéu) ha tenido que añadir que es «un proceso o modo de hacer las cosas que se impone y desbanca a los que venían empleándose». En eso estamos de acuerdo. Y nuestra bendita lengua viene a aclarar y, otra vez, a dejar en evidencia la situación cuando define[3] «imponer» como «poner una carga, una obligación», «obligar, forzar», «infundir respeto, miedo o asombro», «imputar, atribuir falsamente algo a alguien», «hacer valer su autoridad y poderío», «hacerse necesaria, ser imprescindible», «predominar, aventajar».

Un buen ejemplo de lo que, en la práctica, significa «tecnología disruptiva» es el lema del chico que nunca creció, Mark Zuckerberg: «Muévete rápido y rompe cosas». Como ha demostrado su compañía Facebook Meta a lo largo de sus veinte años de fulgurante carrera, eso se traduce en sacar productos no seguros al mercado, exponer a millones de personas de carne y hueso a ellos y preocuparse por sus consecuencias después, poniendo sus beneficios por encima de la salud mental y de la vida de la gente.[4] No es el único. Su modus operandi es el habitual en el campo de las innovaciones en inteligencia artificial (IA): tendemos a adoptarlas a toda prisa antes de entender o de prevenir sus efectos secundarios sociales, morales o humanos. Por ejemplo, un estudio de Cisco señalaba en 2024 que el 91 por ciento de los equipos de seguridad de las grandes empresas estadounidenses emplean IA generativa, aunque el 70 por ciento de los profesionales no entiendan completamente sus implicaciones.[5] Lo mismo nos pasa a la gente de a pie. Nos hemos metido de cabeza sin tener siquiera tiempo para pensar si era realmente lo que queríamos.

Antes de continuar, deberíamos explicar de qué estamos hablando. Algoritmos son secuencias de tareas o instrucciones para lograr un objetivo en respuesta a una situación inicial. Exactamente como una receta de cocina. Además, «son programas que, en una inmensa base de datos, identifican un patrón o rutina», me explicaba en una entrevista Pilar Bernat,[6] profesora de Nuevas Tecnologías en la Universidad Antonio de Nebrija y directora de desarrollo de negocio en LEO Robot IA. Es de lo que se encarga el machine learning y, dentro de este, el deep learning, en el que las redes neuronales artificiales imitan la enorme complejidad del cerebro humano —«aunque están lejos de conseguirlo», según aseguran los que más saben, como Ramón López de Mántaras,[7] fundador y exdirector del Instituto de Investigación en Inteligencia Artificial del CSIC—.[8]

Por su parte, el Reglamento de Inteligencia Artificial de la Unión Europea define a su protagonista como «sistema basado en una máquina diseñada para operar con diferentes niveles de autonomía y que puede, para objetivos explícitos o implícitos, generar resultados tales como predicciones, recomendaciones o decisiones que influyen en entornos físicos o virtuales». No hay nada de magia ni de superioridad en eso, no nos dejemos embaucar. La inteligencia artificial es pura estadística. Solo eso. Como una bola de cristal matemática, solo calcula —predice— las posibilidades de que algo ocurra. Es decir, de que una palabra vaya detrás de otra en un texto, de que frenar sea lo correcto frente a un semáforo, de que la ciudadanía acepte de buen grado un nuevo impuesto…

Aunque la que aparece en películas de ciencia ficción e historias fantásticas en la prensa suele ser la inteligencia artificial general (AGI, por sus siglas en inglés), absolutamente toda la IA que tenemos hoy es débil y específica, por contraposición a la inteligencia humana, que es fuerte y general. Es decir, no existe un programa de algoritmos que sirva para todo ni que tenga sentido común. La IA puede ser más eficiente que un humano, pero solo en el desempeño y el aprendizaje de una única tarea en unas condiciones muy controladas. Ha logrado grandes éxitos, por ejemplo, a la hora de jugar al ajedrez, de hacer un diagnóstico por imagen, de diseñar propaganda y publicidad de precisión, de conducir un coche, de dar apoyo a estudios astronómicos o a la automatización industrial. Pero, como dijo el científico cognitivo Daniel C. Dennett, sigue siendo «competencia sin comprensión».[9]

Puede que te suene como algo lejano, sobre todo si no programas ni pagas a ningún programador para que lo haga por ti. Pero no lo es. Los algoritmos de IA se han convertido en invasivos tomadores de decisiones humanas, grandes y pequeñas. Se usan para diseñar políticas públicas que afectan a todo un país con sus millones de habitantes. También para cosas aparentemente insignificantes, como elegir el restaurante donde comerás o la película que vas a ver antes de dormir. Los usas cada día sin pensarlo y, muchas veces, sin saberlo: cuando recibes publicidad personalizada —y camuflada— en internet, cuando lees las noticias —seleccionadas para ti— en tu móvil, cuando se te muestra lo que dice tal «amigo» —y no otro— nada más abrir tu red social, cuando aparcas con ayuda del piloto automático, cuando le hablas a Siri o dejas que un modelo de lenguaje escriba por ti.

¿Por qué los usamos? No es del todo cierto que sea para «mejorar la experiencia de usuario». Ni para ser más eficientes ni más modernos, ni porque sea inevitable. La respuesta es que generan grandes ingresos —no en tu cuenta bancaria precisamente, sino en las de las cuatro grandes corporaciones que los explotan—.[10] Ya sabemos que la inteligencia artificial es más rápida que la humana a la hora de procesar cantidades masivas de datos. Y esto es utilísimo en la sociedad de la información, donde «saber» equivale a «poder», ya sea para tratar enfermedades, para dominar países vecinos, para pescar votantes o para usar a cada alma que surca internet como mercancía.

De lo que no se habla tanto es de si «rápido» o «eficiente» equivale a «deseable» o «ético» en todos los casos.

Otra razón de peso para usar inteligencia artificial es lo increíblemente lerdos que somos a la hora de dejarnos embaucar por todo lo que huele a modernidad y moda. En este sentido, los algoritmos recuerdan a las cuentas de colores a cambio de las que los indígenas americanos iban cediendo poco a poco su tierra y su libertad.

Creemos que es nuestra aliada, una forma de ahorrarnos tiempo y, sobre todo, el esfuerzo tan cargante que nos supone pensar y elegir por nosotros mismos. Una herramienta, en definitiva, que nos facilita la vida y que es apropiada o no en función del uso que hagamos de ella. Sin embargo, la inteligencia artificial no es como un martillo. Ni es como otras tecnologías, una lavadora, por ejemplo, que nos ayudan en el día a día y nos evitan tener que ir a lavar al río. Uno de los problemillas que tiene la IA es que se basa en las directrices o parámetros que al humano que la construyó le pareció interesante incorporar. Con sus sutiles intereses y sesgos, muchas veces ajenos y siempre desconocidos para ti. «Los algoritmos son opiniones encerradas en matemáticas», decía la científica de datos Cathy O’Neil,[11] autora del best seller Armas de destrucción matemática. Y eso tiene sus peligros. Para empezar, como observa Pilar Bernat, «llevamos setenta años generando códigos que están integrados en nuestra vida sin ninguna transparencia. Confiamos en la estabilidad emocional-mental, en la ética y profesionalidad de los programadores, aunque nadie supervisa lo que hacen y, si meten un error, es casi imposible encontrar ese algoritmo que falla en el inmenso mar de código». Pero no solo eso. Aún en el caso de que esas intenciones fueran de lo más benéficas o inocuas, los algoritmos pueden equivocarse. Las cosas pueden salir mal. Los resultados pueden no ser los esperados.

Y todavía hay más inconvenientes tras el flamante telón de la innovación digital. ¿De dónde viene la mano de obra? ¿Y la energía que consume? «Los beneficios y riesgos no están equitativamente distribuidos y no afectan a las mismas personas», decía Timnit Gebru,[12] una experta en ética de la IA despedida por Google. Y eso sin hablar de la privacidad maniatada. Ya sabes que, como su poder está en los datos, la IA se ceba con tu intimidad, con todas esas pequeñas acciones, debilidades o aficiones que hasta hace una década eran solo tuyas. Mientras, la opacidad de los sistemas es un riesgo directo para la protección y disfrute de algunos derechos humanos de nada, como la libertad de ser dueño de tu propia vida. También nos encontramos con la fea manía de usarla sí o sí para todo, sin plantearnos si realmente la necesitamos. Todo ello aderezado con delegación y atrofia de nuestras capacidades humanas. Concentración de poder. La ignorancia total de que solo representamos el papel de engranajes en esta gigantesca fábrica de dinero.

Pero, además de ser un filón de oro para los monopolios digitales, los algoritmos también deben de ofrecer beneficios para la gente de a pie, ¿no? Como todo. Aunque es de sus riesgos profundos de lo que vamos a hablar aquí, sí, de todo eso que no nos cuentan en las noticias, ni en los planes de digitalización de los gobiernos o de las escuelas. Porque es necesario conocerlos para dejar de ser marionetas y formarnos una opinión lo más informada posible. Y luego ya, si eso, actuar en consecuencia.

Es verdad que tratar de escribir o de estar al día sobre la actualidad de la inteligencia artificial es como cazar lagartijas. No se está quieta y, cuando te quedas entretenida con la cola que se mueve, el resto del cuerpo ya ha salido corriendo fuera de tu alcance. Sin embargo, si empleas sus propias armas y te especializas en encontrar patrones, te vas dando cuenta de que la tónica es siempre la misma. Innovaciones a medio hornear, lanzadas con el objetivo de maximizar los beneficios de un puñado de compañías, a costa de exprimir y de utilizar a los ciudadanos, que las adoptan encantados y fascinados. A nada que mires, dejas de ver inteligencia artificial y te das cuenta de que lo que hay detrás son personas con las mismas motivaciones que hace miles de años: dinero, poder, curiosidad, pereza.

Claro que una cosa son los investigadores e inventores enamorados de la tecnología y otra las grandes corporaciones que la explotan. La mayoría de los primeros —he entrevistado a muchos a lo largo de mis treinta años de profesión— actúan movidos por la curiosidad científica, su naturaleza creativa y un deseo de mejorar el mundo. Uno de ellos, el ingeniero industrial Rodolfo Haber, director del Centro de Automática y Robótica de la Universidad Politécnica de Madrid e investigador del CSIC, me decía en una entrevista que «uno de los pasos más importantes que hay que dar a corto plazo es entender que todos nuestros avances futuros van a depender de grandes equipos multidisciplinares donde las ciencias sociales van a ser claves para abordar aspectos éticos, filosóficos, económicos, legales».[13] Hasta el momento, sin embargo, el enfoque que mueve todos los avances es económico, puramente capitalista. Por mucho que se hayan incluido departamentos de Ética de la IA en las grandes empresas y en los gobiernos, la mayoría de veces son solo un convidado de piedra, una especie de maquillaje para dar el pego. Google, al menos, no para de despedir a sus ingenieros expertos en ética.[14]

Según Haber, «los grandes fracasos que la inteligencia artificial traerá en el futuro no serán por culpa de los algoritmos, sino por las estrategias que los equipos humanos han adoptado para implementar las capacidades de esa IA». Y esto es lo más maravilloso de todo. No es la IA, son las personas. Son humanos como tú y como yo los que están detrás de los algoritmos de las grandes plataformas, de las redes sociales, de los sistemas financieros automatizados de la bolsa, de los coches autónomos. Tanto los programadores como los explotadores —entendidos en su sentido económico y sin acritud— de los algoritmos y los usuarios que los alimentan con sus datos. Todos son seres vivos de la misma especie. Esos con los que te cruzas por la calle, con los que compartes el mismo metro cuadrado de planeta en la cola de la caja del supermercado tienen mucho que contar, mucho que ofrecer, mucha inteligencia que aprovechar y compartir. Cualquier persona con la que te paras a hablar tiene alguna enseñanza que darte. ¿Por qué a ellos los despreciamos e ignoramos con tan mala educación y, sin embargo, perdemos el trasero por la inteligencia artificial y la alabamos como si fuera el oráculo de Delfos? Recoloquémonos.

«El verdadero peligro de la inteligencia artificial es la estupidez humana. Necesitamos ciudadanos mejor informados, con sentido crítico y dispuestos a hacer valer sus derechos», me decía López de Mántaras.[15] Estamos siendo estúpidos cuando los ciudadanos de a pie nos tragamos con los ojos cerrados los resultados de las búsquedas, cuando las empresas implementan la IA en sus procesos sin tener en cuenta que existen formas más sencillas, baratas y efectivas de solucionar un problema concreto, cuando los dueños de las grandes corporaciones digitales anteponen su avaricia a la vida ajena…

Veamos tu caso particular, por ejemplo. ¿Eres consciente de quién lleva la batuta de tu vida? ¿Venderías tu libre albedrío a cambio de comodidad? ¿Cuáles de tus decisiones eliges libremente dejar en manos de un programa de inteligencia artificial?

Espero que estas páginas sirvan para ayudarte a responder. No solo como una guía de autoayuda para dejar de ser un peón digital, sino como un recordatorio de quién eres, de cuánto vale tu libertad… y de que ninguna creación humana inerte debería ser más valiosa que su propio creador.

«La verdad definitiva y oculta es que el mundo es algo que hacemos nosotros y que, por tanto, bien podríamos hacerlo de modo diferente».[16] Así que te propongo aprovechar la lectura de este libro para lo que te dé la gana. Nadie te está mirando. Olvídate de lo que el resto de la gente dice que es bueno, adecuado o irremediable. Explora tu libre pensamiento.

Pequeño glosario de términos para no perdernos

Inteligencia artificial: Pura estadística.

Inteligencia artificial específica: Se le da bien analizar un gran conjunto de datos para hacer predicciones sobre cómo se comportarán dichos datos en el futuro y tomar decisiones basadas en sus conclusiones. Puede ser más eficiente que un humano, pero solo en el desempeño y aprendizaje de una única tarea en unas condiciones muy controladas. Absolutamente toda la IA que tenemos hoy es solo débil y específica, en contraposición a la inteligencia humana, que es fuerte y general.[1] La IA específica ha logrado grandes éxitos, por ejemplo, a la hora de jugar al ajedrez, hacer un diagnóstico por imagen, diseñar propaganda y publicidad de precisión, conducir un coche, apoyar estudios astronómicos o automatización industrial. Pero sigue siendo «competencia sin comprensión».[2]

Inteligencia artificial general (AGI, por sus siglas en inglés): Es el objeto de las investigaciones actuales y la protagonista de las películas de ciencia ficción. Todavía no existe. Es decir, no hay ningún programa de algoritmos que sirva para todo ni que tenga sentido común.

Machine learning o aprendizaje automático: Una clase de inteligencia artificial en que «un programa aprende a partir de bases de datos o sensores físicos, en un proceso que le permite extraer nuevos patrones e información previamente no conocida»[3] que pueden servir para decidir la mejor manera de lograr el resultado deseado. Puede emular comportamientos humanos como el aprendizaje, el razonamiento, la clasificación de información y la toma de decisiones. Normalmente, cuando un humano quiere hablar con un ordenador y pedirle que haga algo, lo hace a través de la programación. Pero hay cosas difíciles de programar, por ejemplo, cómo reconocer imágenes de saltamontes. Para esto sirve el machine learning: le doy al programa muchos ejemplos para que aprenda (para que encuentre patrones, incluso algunos que pueden pasar desapercibidos a los humanos).

Deep learning o aprendizaje profundo: Una variante dentro del machine learning que utiliza redes neuronales artificiales y en que cada una realiza una función y se conecta a las demás. Sirve para detectar patrones, y para ello son necesarias grandes cantidades de datos, a diferencia de la inteligencia humana, que con solo ver dos manzanas ya es capaz de reconocer una tercera. Es lo que está detrás de los algoritmos de recomendaciones, programados con el fin de maximizar los clics y el tiempo de enganche de los pobres cibernautas que creen que deciden cuando se sientan delante de Netflix. El deep learning es, además, una caja negra, porque no puede saberse qué ha estado ocurriendo dentro, qué ha llevado al programa a una conclusión y no a otra: hay billones o trillones de parámetros y nadie sabe cómo funcionan. Ni los propios diseñadores pueden explicar por qué la IA pone un currículo al final de la lista a la hora de contratar a un nuevo empleado o por qué aconseja dar libertad bajo fianza a un preso. Por otra parte, aunque es muy eficiente para encontrar correlaciones inusitadas entre los datos, no puede diferenciar causa y efecto. Esto es un riesgo, porque las personas que leemos resultados que pueden ser casuales (por ejemplo, quizá, que la mayoría de los zurdos roncan) podemos caer en el error de interpretarlos apresuradamente como relaciones causa-efecto, cuando no lo son.

Redes neuronales artificiales: Imitan la enorme complejidad del cerebro humano, aunque están lejos de conseguirlo. Una red neuronal artificial que consta de más de tres capas se considera un algoritmo de deep learning.

Buscar patrones: Cuando nos referimos a la IA, se trata de su capacidad de cómputo (cálculo matemático-estadístico) para encontrar, en un conjunto grande de ejemplos, relaciones entre sus partes, atendiendo a múltiples variables. Por ejemplo, «lo primero que hacemos cuando encendemos el móvil», según qué contextos y qué perfiles de personas, en el sentido más amplio de «contextos» y «perfiles».

Modelos preentrenados o fundacionales: Dentro del deep learning, están las redes neuronales que aprenden con datos supervisados y los modelos entrenados de forma autónoma con datos masivos, sin supervisión alguna. Aquí estarían incluidos los modelos fundacionales —o modelos grandes preentrenados—, que se autoentrenan sin necesidad de que haya humanos etiquetando manualmente los datos. Es lo que se conoce como «aprendizaje reforzado»: esencialmente autónomo, puede generar sus propios datos y aprender del éxito y del fracaso, obteniendo feedback de su uso.

Grandes modelos de lenguaje: Si a los modelos preentrenados se les aplican técnicas de procesamiento natural del lenguaje (NLP, por sus siglas en inglés) se convierten en grandes modelos de lenguaje —como ChatGPT—, accesibles a través del interfaz más universal, el lenguaje natural humano, que permite que hables con la máquina como hablarías con tu cuñado, sin códigos ni instrucciones informáticas. Es un avance sorprendente que puede hacernos olvidar que la IA conoce las palabras, sí, pero no sabe lo que significan. Solo funciona por estadística y probabilidades de que una palabra/frase/contexto siga a otro. Como explica el programador uruguayo y youtuber Nate Gentile en su programa dedicado a la informática doméstica hablando del lenguaje natural, «los ordenadores no van a entender nunca los conceptos que representan las palabras. Por ejemplo, si yo te digo “árbol”, te vas a imaginar un ser vivo, de celulosa, el olor de las hojas, color marrón y verde… Un ordenador no tiene ni idea de qué es esto. Los ordenadores solo entienden números, ceros y unos para ser exactos. No van a ver árboles ni casas ni caras ni personas ni poemas, solo números».

Inteligencia artificial generativa: Programas de deep learning basados en grandes modelos de lenguaje capaces de reconocer, y luego crear, contenido como imágenes, texto, audio, código de software, tratamientos médicos, estrategias de venta o de batalla, trabajos de clase para estudiantes vagos… En 2025, el 50 por ciento de los proyectos de desarrollo de medicamentos y el 30 por ciento de los mensajes privados enviados por las empresas fueron fruto de la IA generativa, según datos de la consultora Gartner.

QUÉ HEMOS DEJADO YA EN SUS MANOS

Hambre de datos

Mi hija tiene un conejito blanco y redondo que se llama Olimpo. Y lo único que hace Olimpo es comer. Siempre tiene hambre. Se come su heno, las peladuras de patata, los cables de la luz, las bolsas de plástico, el pan duro, las cajas de cartón, su pienso, el pienso de la perra. Cada día está más gordo, tanto que fantaseamos con encontrárnoslo un día encajado entre las paredes de la casa, ocupando todo el espacio entre el techo y el suelo como Alicia en el País de las Maravillas cuando mordió el pastelito que decía «cómeme».

Pues lo mismo le pasa a la IA. Es omnívora y su menú, interminable. Zampa que te zampa, para parecer «inteligente» depende de la ingesta de gigantescos montones de fotos, vídeos, textos, audios y código generados por humanos. Sin ellos, no sería nada.

Los necesita para aprender. Y para buscar patrones, trazar estadísticas, hacer predicciones, tomar decisiones, sacar inferencias a partir de todo ese material cosechado online que resultaría informe e inabarcable para las capacidades humanas si no recurriésemos a la tecnología. Los algoritmos son expertos en peinar los datos… en hacerles trenzas, extensiones, mechas de color y moños italianos si hace falta.

Todos nuestros biodatos, ya sean médicos, biométricos —iris, huellas dactilares, huella de voz…—, sociométricos —comportamiento de la población y de los individuos—, psicométricos —personalidad— están siendo capturados y almacenados para entrenar a las redes neuronales. Hoy, cualquier proceso psicobiológico puede ser traducido a información electrónica almacenable y analizable.

¿Pero de dónde sale esa mole de información que se emplea en su entrenamiento? De internet, sí. ¿Dónde estaba antes de llegar allí? Al tenerte pegado a la pantalla, adicto a las redes sociales, a Siri, al navegador, a ChatGPT, al reloj que te cuenta los pasos… te conviertes sin saberlo en una vaca lechera que chorrea datos a cada paso. Sobre cómo te comportas, qué haces, qué te interesa, cómo hablas, a quién, en qué circunstancias, en qué orden, dónde… Todo lo que haces en la red se convierte en alimento para la maquinaria. El historiador Yuval Noah Harari dice que las plataformas digitales son «mercaderes de atención» porque su verdadero negocio ya no es vender publicidad.[1] Al capturar tu atención, pueden acumular inmensas cantidades de información sobre ti, que es mucho más valiosa que cualquier anuncio. El nuevo El Dorado está en la venta de los detalles personales que les regalas, no ya a los gigantes tecnológicos, sino a cualquier paginita web que visites.

Estamos ante una nueva forma de extractivismo que va mucho más allá del medioambiental, que nos convierte en animales de granja… casi sin que nos demos cuenta. «Existen profundas interconexiones entre el saqueo de los materiales de la tierra y la biosfera, y la captura de datos y monetización de las prácticas humanas de comunicación y socialización mediante IA», como denuncia Kate Crawford, investigadora del Information Law Institute de Nueva York.[2] Crawford estudia el caso del usuario de Alexa, cuyos «comandos vocales son recogidos, analizados y guardados con el propósito de construir una base de datos aún mayor [que la empleada en su entrenamiento original] de voces e instrucciones humanas. Además, desarrolla el valioso servicio de contribuir a mecanismos de feedback respecto a la utilidad o exactitud de las respuestas del asistente de voz». Es decir, no es solo que estemos utilizando un aparatito que hemos comprado para que nos ponga música o encienda la luz sin levantarnos del sofá. Además, Amazon —sin pagarnos— nos usa como una utilísima e insustituible fuente de datos de entrenamiento para mejorar su producto.

Todos trabajamos gratis para Google, Amazon y todas las grandes plataformas. Lo hacemos también cuando completamos esos enervantes CAPTCHAS, puzles en los que, con la excusa de demostrar que somos humanos, llevamos a cabo la labor de etiquetar imágenes en múltiples recuadros con números, coches, semáforos, casas, escaleras… Nuestra tarea intelectual y el tiempo que le dedicamos sirven —además de para dejarnos iniciar sesión en la página que sea— para entrenar el sistema de visión computarizada de Google.

Lo mismo ocurre con las redes sociales. «Usaremos los tuits públicos para el entrenamiento de xAI, igual que ha hecho todo el mundo. Todas las compañías que hacen inteligencia artificial, grandes y pequeñas, han usado los datos de Twitter para entrenar sus algoritmos, en todos los casos de forma ilegal. Hemos tenido múltiples actores tratando de escrapear —del inglés scrape, algo así como “arañar”— cada tuit que se publica», señalaba Elon Musk el verano de 2023, durante la presentación de xAI, su modelo grande de lenguaje que pretende competir con ChatGPT. ¿Qué mejor forma de entrenar la maquinaria para imitar la forma que tenemos los humanos de comunicarnos en las redes, opinar, criticar, alabar… que tragándose billones de tuits frescos sobre los temas más diversos?

Para el deep learning, «no hay mejor base de datos que más bases de datos», alerta la experta en ética de la IA Timnit Gebru en un ya mítico ensayo del que es coautora, titulado «On the dangers of stochastic parrots».[3] Los grandes modelos de lenguaje son grandes, precisamente, porque cada vez incluyen más parámetros, para lo que necesitan devorar más y más y más información. ¿De qué fuente? De la que sea, pero más.

De esta forma, aspira a mapearlo todo, el universo entero. Desde un modelo del cosmos hasta el sutil espectro de emociones humanas, pasando por el cerebro o los movimientos bursátiles. El deep learning necesita ese mapa de la realidad traducido a código para poder operar a partir de ahí. Es solo después de eso que la IA puede identificar rostros, dirigir anuncios a medida, predecir explosiones de estrellas, diagnosticar un cáncer o adivinar si un contenido hace gracia a su lector por el casi imperceptible arqueo de sus cejas al leerlo. Porque los algoritmos no trabajan con la realidad, sino con una representación numérica —y nunca completa al cien por cien— de esa realidad.

¿Cuántos datos deben ingerir para alcanzar la perfección?

El algoritmo nunca se sacia. Cuantas más referencias, más perfecta será su actuación y su simulación de las capacidades humanas. En el campo de la medicina, por ejemplo, se ha hablado mucho de las aplicaciones de IA para diagnósticos, incluso para diseñar tratamientos personalizados a enfermos de carne y hueso. Por el momento, su capacidad para hacerlo es ridícula. Aunque su ambición es llegar lejos. Para eso, necesita más historias clínicas de pacientes. Muchas más. De todo tipo de pacientes. Esto es imprescindible para hacer realidad el sueño de que «la salud es una ciencia que descansa en datos y estadísticas»,[4] en palabras de Sourabh Pagaria, un directivo de Siemens Healthineers (compañía que tiene más de novecientas patentes de machine learning aplicadas a la salud).

Por el momento, lo que la IA hace es «producir una gran cantidad de imágenes de alta calidad y datos automatizados que están multiplicando nuestra carga de trabajo. Si antes teníamos que examinar cuatro o cinco imágenes de una lesión, ahora nos encontramos casi con un libro entero», dice Matthias May, radiólogo en el Hospital Universitario de Erlangen, en Alemania, uno de los centros europeos pioneros en el ensayo de diagnóstico por imagen con técnicas de inteligencia artificial.[5] Y es que los radiólogos humanos son quienes se encargan de visionar esas imágenes del paciente tomadas mediante el escáner, seleccionarlas, interpretarlas y facilitar, luego, su veredicto médico a los algoritmos, a modo de lecciones sobre cómo hacerlo de forma autónoma. Para aprender a identificar patrones —que más tarde se aplicarán a futuras detecciones de patologías—, el deep learning necesita primero tragarse montones de ejemplos. Por eso, Matthias comprende que «somos la generación que está produciendo los datos de alta calidad con los que se entrenará la inteligencia artificial que, en el futuro, podrá utilizarse de verdad en medicina».

Por otra parte, cualquier avance de IA aplicada a la salud del que oigamos hablar, ya sea un nuevo sistema para diagnosticar alzhéimer a través del iris, la predicción de sufrir un infarto o el fármaco anticancerígeno que más se adapta a tu epigenoma, implica el uso masivo de historiales médicos de personas reales para la creación de modelos matemáticos y simulaciones. Lo cual no tendría por qué tener nada de malo, excepto porque… podría pasar que la compañía que diseña esa aplicación para su venta gane dinero con ella —si no, no la diseñaría—, y se olvide de pagar a todas esas personas sin cuya cesión de datos no hubiera llegado a ningún sitio. Podría ser también que la cesión no fuera directa, sino que hubiera intermediarios, traficantes de información lucrándose por medio. O podría pasar que esas personas cuyas penurias sirvieron al bien del progreso vean en peligro su anonimato y desvelados sus secretos. ¿Te gustaría que cualquier empresa de cualquier parte del mundo tuviera conocimiento de las cosas que le cuentas a tu médico en la intimidad de la consulta, o las que averigua él solito al leer tu análisis de orina? No son peligros meramente hipotéticos. Ya en 2015, con la excusa de diseñar una aplicación «salvadora de vidas» para identificar el riesgo de desarrollar una lesión aguda de riñón, la compañía de Google DeepMind tuvo acceso a los historiales sanitarios de un millón y medio de pacientes del Royal Free Hospital, un hospital público en Londres, dependiente del Servicio Nacional de Salud de Reino Unido. Sin informar ni pedir consentimiento a los pacientes. ¿Sigue pasando? Según el Reglamento General de Protección de Datos (RGPD) europeo, los datos médicos pueden usarse libremente para fines de investigación y entrenamiento de la IA aunque, en teoría, es obligatorio anonimizarlos antes —borrar cualquier indicio que vincule un análisis de sangre, o de lo que sea, al nombre y apellido de la persona que se lo hizo—. En la práctica, depende.

Hasta el momento, sin duda, nada ha dado más juego que la pandemia de la covid-19 para recabar datos privados de las personas —de su salud, de sus movimientos, de su círculo de relaciones—, centralizados en muchos países a través de la compañía de vigilancia masiva Palantir, con la excusa de crear aplicaciones para protegernos de contactos de riesgo, para la investigación científica o para velar por los confinamientos selectivos. La razón da igual. El caso es tragar información personal de la gente. Ya se le encontrará un uso u otro, seguro.

También son los datos los que hacen andar a un vehículo autónomo. Todo lo que captan sus sensores es procesado en tiempo real por algoritmos que detectan qué son líneas de carril, vallas, contenedores, árboles, señales de tráfico, edificios, otros coches, peatones… Antes de eso, igual que el reconocimiento facial, la tecnología de visión computarizada necesita haber aprendido de ejemplos tomados de la realidad. Para conducir solo, el deep learning debe haber sido entrenado con interminables horas de vídeo en las que cada fotograma haya sido etiquetado con detalle y precisión —más le vale, porque confundir un camión con una plaza de aparcamiento o las luces de neón de un teatro con un semáforo puede costar vidas—. A estas muestras, se suman todas las que el coche va grabando mientras conduce —entre 1 y 20 terabytes por hora—, que almacenará para futuras referencias. Para ser confiables, lo que se espera de ellos es que sean capaces de gestionar cualquier situación que pudiera darse al volante. ¿Imaginas con cuántos datos tendrían que contar para eso? Este es, precisamente, uno de los escollos que los fabricantes todavía no saben cómo solucionar.

Otro ejemplo genial de tragaldabas son los grandes modelos de lenguaje (LLM, por sus siglas en inglés), redes neuronales con miles de millones de parámetros entrenados en inmensas cantidades de texto. Lo inteligentes que parezcan —y las tareas que puedan desempeñar— depende de la cantidad de recursos —datos, parámetros— con que se alimenten. O sea, para que ChatGPT pueda aprobar un examen de ingreso a la carrera de Medicina, no tiene por qué estar tan preparado como un aspirante a médico, no. Solo necesita haber engullido cientos de ejemplos de exámenes realizados durante los últimos años que luego usará como «chuletas».

Tienen hambre, pero no precisamente de merluza fresca con verduras al horno. La comida basura, que en el mundo de los datos es tan barata y abundante como en los supermercados, atiborra a los grandes modelos de lenguaje. Por alguna razón, a pesar de los filtros que algunos se empeñan en poner, las fuentes de las que beben para entrenarse incluyen todo tipo de tóxicos. Un estudio del informático de la Universidad de Washington Samuel Gehman[6] señala que las bases de entrenamiento de GPT-2 incluían doscientos setenta y dos mil documentos de páginas de fake news y sesenta y tres mil posts que se habían prohibido por su contenido en Reddit.

Algunos expertos, como Timnit Gebru,[7] proponen entresacar con cuidado las fuentes y guardar registro de cuáles son, en vez de dejar que la IA ingiera todo lo que pilla. «Cuando confiamos en bases de datos gigantescas nos encontramos con que no están documentadas y, además, son demasiado grandes para ser revisadas y documentadas post hoc. Sin documentación, no se pueden entender sus características ni mitigar algunos de los sesgos conocidos u otros problemas aún desconocidos», advierte.

Una de estas monstruosas bases de datos es la Common Crawl —patrocinada, por cierto, por Amazon Web Services—, que contiene petabytes de datos recogidos a lo largo de diez años de peinar internet y es una de las fuentes más usadas para entrenar LLM y motores de búsqueda. Un informe reciente[8] de The Washington Post y del Instituto Allen para la Investigación en IA revelaba que su versión filtrada por Google —sin palabrotas ni referencias sexuales—, C4, incluye el contenido de quince millones de sitios web. Los más grandes son, por orden, Google Patents —con el texto de patentes de todo el mundo—, Wikipedia y Scribd —una biblioteca digital por suscripción—. Y las temáticas más frecuentes de las páginas más ingeridas son, en primer lugar, negocios y empresas (16 por ciento), tecnología (15 por ciento) y noticias (13 por ciento). Alberga también el contenido de grandes plataformas de blogs personales, como WordPress, Tumblr, Blogger o Medium. Todo ello sin el conocimiento o consentimiento de quienes alguna vez han escrito en ellas. «El símbolo de copyright aparece más de doscientas veces en el material de esta base de datos», apuntan los autores de la investigación.

Entre las páginas de prensa, se encuentran publicaciones consagradas, como The Guardian, Forbes o The New York Times. Pero también otras de dudosa confianza señaladas como difusoras de desinformación por NewsGuard —una organización independiente de fact-checkers—. Entre ellas, RT (Russia Today), 4Chan (un foro especializado en organizar campañas de acoso online) y Vdare (con una línea editorial de supremacía blanca antiinmigración).

Incluye además (por cierto), entre las top 100, dos páginas con copias de las bases de datos de votantes de Estados Unidos. Como advierten los autores de la investigación, «aunque es una información pública, los modelos de lenguaje podrían utilizarla de formas insospechadas».

Otra de las bases de datos que utilizan los LLM es The Pipe, propiedad de un grupo anónimo que se hace llamar The Eye y usa un logo de inspiración masónica, con un ojo dentro de un triángulo —suena fiable, ¿verdad?—. Esta reúne la Common Crawl completa, miles de ebooks pirateados sacados de una página de descargas con BitTorrent, cien gigabytes de código extraído de GitHub y algunas otras sorpresas más. Si hablamos de imágenes de personas sacadas de internet, tenemos los catorce millones que guarda ImageNet —patrocinada por Nvidia y Google, entre otros— o las cien mil fotos de famosos, periodistas, activistas y políticos arañadas de la red por Microsoft para crear MS-Celeb —una base de datos que fue eliminada en 2019, después de suscitar controversia acerca de sus violaciones de privacidad; sin embargo, en los tres años que estuvo activa, sirvió para entrenar a todo tipo de programas de inteligencia artificial que hoy siguen funcionando—.

También comen voz. Sí, sobre todo, desde que los avances en biometría permiten extraer mil conclusiones sobre el habla de una persona, desde su identidad hasta su edad, género, etnia, estatus socioeconómico, salud o estado de ánimo. Incluso hay algoritmos que aventuran cómo sería el rostro de alguien solo a partir de cómo habla. Por algo les interesan tanto a Google, Amazon, Apple y Microsoft, empresas todas que han recibido denuncias por analizar las grabaciones de sus asistentes de voz —Ok Google, Alexa, Siri, Cortana— sin el consentimiento de los usuarios para la elaboración de perfiles. Por su parte, TikTok incluyó hace poco en sus condiciones de servicio la huella vocal entre las cosas que recolecta de sus usuarios —además de su rostro—. En este caso, como te ha informado previamente —aunque sea en eso tan largo que aceptas sin leer—, es legal. Y una vez que los datos están ahí, pueden comprarse y venderse. Si se almacenan en la nube, es más fácil que sean cedidos, y sin que tú lo sepas.

Traga que te traga, la IA generativa arrampla con novelas, biografías, pódcasts, libros de física, de magia y de viajes, deglute dibujos, obras de arte, desfiles de moda, canciones, discursos, páginas web, colecciones de cómics, catálogos de museo, blogs personales, códigos informáticos, artículos periodísticos… con y sin derechos de autor. Curiosamente, hasta la fecha lo hace sin tener que preocuparse por este insignificante detalle. Hasta la legislación europea, que dicen que es la menos permisiva del mundo respecto a las libertades del algoritmo, hace la vista gorda.

En la mayoría de los países, incluido el viejo continente, hay barra libre para la minería de datos. Según la Directiva de Mercado Único Digital (2019), el uso de todo el acervo cultural de la humanidad para entrenar a la inteligencia artificial no requiere consentimiento del dueño de la propiedad intelectual. Así está recogido en España, en la excepción a la Ley de Propiedad Intelectual (Real Decreto Ley 24/21), que considera que esta no puede ser un obstáculo al desarrollo de la tecnología. «Legalmente, está justificado por un bien mayor, que es ayudar al machine learning a identificar patrones», me explicó en una entrevista el abogado Santiago Mediano, presidente de la Sección de Robótica, Inteligencia Artificial, Realidad Virtual y Aumentada del Ilustre Colegio de la Abogacía de Madrid.[9]

Luego está el internet de las cosas…

«A todos los dispositivos electrónicos que quepa imaginar se les puede conectar un sensor que aporta datos», cuenta la ingeniera industrial y experta en inteligencia artificial Alicia Colmenares.[10] En el ámbito doméstico, recolectan información sobre tiempos de uso, temperaturas, consumos, tipos de programas, mapeos de las casas, número de personas que viven en ella, horarios… «En el industrial, a través de los motores eléctricos que hacen mover las máquinas en una fábrica, controlamos el tiempo de vida útil, la temperatura del aceite, el gasto de freno». Suena inocuo. «Pero también guardas horas y tiempo de producción». El problema es que esos datos que parecen ingenuos pueden cruzarse con otros para sacar patrones de rendimiento de empleados, si se ha usado o no una máquina, si hay alguna desviación respecto a las reglas de la empresa —de tal a tal hora no se puede ir a tomar café, por ejemplo—. Puede hacerse por casualidad o a propósito, como Mercadona, que tuvo que retirar su sistema de reconocimiento facial de los trabajadores y pagar una sanción millonaria impuesta por la Agencia Española de Protección de Datos. Algo parecido hacen los reyes de la economía colaborativa, como Uber, Deliveroo o Cabify. Amazon usa un sistema para rastrear las tasas de productividad de cada trabajador y generar automáticamente advertencias o terminaciones (despidos), sin la mediación de supervisores. Su herramienta Anytime Feedback Tool mide el tiempo que alguien «gasta» en ir al servicio o a comer —TOT, siglas de time off task— y la persona recibe un aviso negativo si este supera el TOT del 75 por ciento de la plantilla.

Recuerda, la información es poder. Y la carrera por hacerse con ella está desbocada. Como me dijo mi amiga Alicia Colmenares, «una vez que tienes la tecnología de recopilación de datos, lo que se puede hacer con ellos es infinito. Echa tu imaginación a volar».

Malos tiempos para Mata Hari

«Para empezar, por favor, contáctenme directamente y le daré a su gente el acceso a Clearview AI, junto con instrucciones sobre cómo usarlo. Será un honor poder ayudarlos». Así terminaba la carta que Hoan Ton-That, CEO y fundador de la empresa estad

Suscríbete para continuar leyendo y recibir nuestras novedades editoriales

¡Ya estás apuntado/a! Gracias.X

Añadido a tu lista de deseos