Hace unos años, investigadores intentaron adivinar qué tipo de campañas de manipulación podrían amenazar las elecciones de 2018 y 2020, y los videos engañosos generados por IA a menudo encabezaban la lista. Ahora, a pocos meses de las elecciones presidenciales de EEUU, la ola de videos falsos está en auge y un nuevo formato falso generado por IA aún más difícil de detectar amenaza con convertirse en una fuerza omnipresente en Internet: el texto deepfake.
GPT3, presentado recientemente, ofrece una inteligencia artificial que puede producir oraciones sorprendentemente humanas (aunque a veces surrealistas). Su producción es cada vez más difícil de distinguir de los textos humanos, lo que ha despertado el temor de que Internet sea producido por máquinas.
Los primeros vestigios de este temor comenzaron cuando Photoshop, After Effects y otras herramientas de edición de imágenes y CGI empezaron a surgir hace tres décadas. El hecho de que estos aplicativos pudieran retocar la realidad, crearla o transformarla era abrumador en un principio, sin embargo, la era tecnológica nos hizo aceptarlos y a mirar con escepticismo. Las personas aceptan que la persona de la portada de revista que ven seguramente no es tal cual la retratan.
Pero con el video deepfaked o la salida GPT-3 los términos son diferentes. Si estas herramientas se usan de forma maliciosa para producir el contenido de internet, el más consumido por nuestra generación, los problemas pueden ser serios. Incluso las plataformas de redes sociales reconocen esta distinción; sus políticas de moderación deepfake distinguen entre el contenido de los medios que es sintético y el que es simplemente “modificado”.
Los críticos han advertido que la producción de texto generalizado tiene el potencial de deformar nuestro ecosistema de comunicación social. Sin embargo, para moderar el contenido deepfaked, debes poder reconocerlo.
Los videos creados por IA a menudo tienen señales digitales que pueden resultarnos inquietantes: los movimientos faciales de una persona están apagados; un pendiente o algunos dientes están mal hechos; o el latido del corazón de una persona, detectable a través de sutiles cambios de color, no está presente. Pero el audio generado puede ser más sutil, pues sin imágenes hay menos oportunidades de errores. No obstante, con un poco de esfuerzo, los investigadores pueden notarlo también.
Esto abrirá paso a una guerra entre falsificadores y autenticadores a perpetuidad. Solo si el público está cada vez más informado de la tecnología, puede suponer las falsificaciones. Pero ese conocimiento supone otro riesgo, y es que los políticos ahora podrán descartar videos reales y escandalosos como construcciones artificiales simplemente diciendo: “¡Eso es un deepfake!”.
Entonces, en una realidad en la que todos consumimos internet con riesgo de texto sintético, toda posibilidad de recibir información se deforma, aun cuando la detección sea más sofisticada y precisa, nos puede ganar el escepticismo. Ahora mismo, surgen conspiraciones en torno a cualquier tipo de información, se generan opiniones por redes sociales que se difunden como hechos objetivos ¿qué podríamos esperar de una sociedad gobernada por el texto, el audio y el video sintético?
Los expertos pronostican que tendremos que adaptarnos a un nuevo nivel de irrealidad. En el futuro, los videos deepfake y audiofakes pueden usarse para crear momentos distintos y sensacionales que comandan un ciclo de prensa, o para distraer la atención de algún otro escándalo más orgánico. Pero las falsificaciones de texto indetectables, enmascaradas como charlas regulares en Twitter, Facebook, Reddit y similares, tienen el potencial de ser mucho más sutiles, mucho más frecuentes y mucho más siniestras. Por lo que tendremos que estudiar para ser consumidores más críticos con el contenido en línea.