Deepfakes de audio: cuando la voz clonada siembra la duda

En algún momento de nuestras vidas alguien nos ha aconsejado con aquella famosa expresión: “no creas todo lo que escuchas”, cuyo sentido metafórico suele aludir a que el contenido que se nos transmite puede estar errado o que simplemente estamos malinterpretando las cosas. Pero ¿y si te digo que la frase es literal?, que ya no puedes confiar porque ni siquiera sabes con quién hablas por teléfono ni de quién es una nota de voz que recibes. En efecto, nuestro sistema auditivo ya no resulta lo suficientemente fiable, no basta con una escucha activa para analizar el tono, el timbre y la entonación de una voz familiar, pues es posible clonar todos estos elementos con una precisión pasmosa mediante uso de inteligencia artificial, seduciéndonos hacia peligros ocultos. Acompáñame a conocer más sobre los deepfakes de audio en esta travesía turbulenta.

“¡Felicitaciones!, acabas de ganar la lotería, ahora tienes que pagar los impuestos por adelantado para reclamar el premio”;

“Buenas tardes estimado señor, le llamamos del banco, estamos actualizando los datos y necesitamos confirmar con usted estas informaciones de carácter personal”;

“Su hija acaba de tener un accidente, es urgente que nos transfiera trescientos mil pesos para que puedan atenderla”.

¿Sensación de déjà vu? Claro, seguro que tú, algún amigo, miembro de la familia, vecino o conocido ha sido víctima de una estafa de este tipo. Constantemente, se nos envían comunicaciones para que no nos veamos perjudicados por los ciberdelincuentes, quienes suelen engañarnos, obteniendo los datos de interés mediante métodos como el phishing (cuyo anzuelo es a través de correos electrónicos y sitios web engañosos), smishing (amenaza que se produce haciendo uso de mensajes de texto o WhatsApp) y vishing (llamando vía telefónica). Sin embargo, a pesar de las advertencias, estas técnicas siguen representando un problema, pues los atacantes sofistican sus estrategias.

En ese orden, al día de hoy no podemos lacerarnos, ya no es cuestión de que ante estas prácticas conocidas debimos usar el sentido común, por cierto, el menos común de los sentidos, como expresó el célebre filósofo Voltaire. Ahora, la preocupación se centra en que nuestro oído no está preparado para la era de la inteligencia artificial, así lo afirma un estudio realizado a 529 personas, publicado en Plos One, donde se deja en evidencia nuestras debilidades humanas a la hora de identificar un audio artificial, incluso, quedan demostradas las limitaciones de aquellos que estaban en conocimiento del experimento y recibieron entrenamiento previo. La realidad es que en estos tiempos las voces pueden falsificarse de un modo más perfecto con facilidad y los cibercriminales lo saben, el potencial uso indebido de cualquier tecnología es parte de su trabajo diario. Sin embargo, quizás tú o los tuyos no están al tanto de los audio deepfakes, aquellos generados o editados por IA para crear audio falso que parece real, así como de los peligros que estos entrañan.

Como fórmula matemática, es un proceso en el que se utiliza la tecnología Deep learning, a través de modelos de redes neuronales generativas que recrean la voz tras procesar audios de la persona a la que se va a suplantar. En principio, justamente se convirtieron en blanco las celebridades, en razón de que, al ser figuras públicas, es sencillo encontrar en la web horas de grabación como insumos para alimentar el software. Para muestra, las grabaciones falsas de la actriz Emma Watson leyendo un fragmento del Mein Kampf de Adolf Hitler, generadas a través del Voice Lab de Eleven Labs. Lo anterior, obligó a la citada empresa a tomar una serie de medidas, entre las que se destacan, el lanzamiento de una herramienta que permita verificar si un audio se generó utilizando su tecnología, el establecimiento de una validación de identidad adicional y que los servicios como los de clonación de voz sean por pago.

Hasta ahí nuestra estabilidad se mantiene, porque las vidas de los famosos son como las películas de ciencia ficción, emocionantes pero ajenas. Ahora bien, la narrativa se transforma por completo cuando es protagonizada por alguien común, ya que es como vivir la trama de nuestra propia historia. En ese sentido, cualquiera de nosotros está en riesgo, ya que como ha apuntado en diversas conversaciones al Washington Post el conocido experto Hany Farid, profesor del Departamento de Ingeniería Eléctrica y Ciencias de la Computación en la Universidad de California Berkeley, una persona puede clonar tu voz con grabaciones de TikTok, YouTube, Facebook, Instagram o cualquier otra red social, cuyo resultado puede ser aterrador.

Así de espeluznante fue la experiencia de Ruth Card, quien contó en una entrevista que, un hombre la llamó y sonaba exactamente como su nieto Brandom, indicándole que estaba en la cárcel, sin billetera, sin celular y necesitando efectivo para la fianza, por lo que junto a su esposo, ambos de más de 70 años, acudieron a un banco para retirar el máximo permitido por día. Por fortuna, en una segunda sucursal, el gerente les explicó que había otro cliente con una situación similar y que descubrió que la voz increíblemente precisa era falsificada. De este modo, los abuelos cayeron en cuenta de que los engañaron. La misma modalidad utilizaron con los padres de Benjamin Perkin, quienes enviaron miles de dólares a un supuesto abogado a través de un terminal de bitcoin. Ojo, no nos encontramos ante hechos aislados, pues conforme la Federal Trade Commission, la suplantación o estafa por impostores fue la segunda táctica más popular en Estados Unidos para el 2022.

Por su parte, Europol, advirtió mediante informe sobre el impacto negativo como herramienta en el crimen organizado. No es para menos, todos quedamos estupefactos al leer en las noticias los siguientes casos:

– El gerente de una sucursal de una empresa japonesa en Hong Kong fue contactado por quien entendía era su jefe, director de la empresa matriz, a fin de autorizar unas transferencias por $35 millones. Como era de esperarse, al reconocer su voz comenzó a transferir, pero resultó ser una clonación de la voz del director, siendo parte de un gran entramado que llegó a manos de la justicia, cuyas especificaciones son impresionantes conforme descubrió Forbes.

– El CEO de una empresa de energía con sede en Reino Unido juraba que estaba recibiendo instrucciones del director ejecutivo de la empresa matriz alemana a la que pertenece y que había sido este último quien le pidió con urgencia que realizara una transferencia de $243,000 a un proveedor húngaro. La verdad es que se trató de un fraude, criminales utilizaron un software basado en IA para suplantar la indicada voz con acento alemán. Los fondos se enviaron posteriormente a México y se distribuyeron en otros lugares, así se detalla en The Wall Street Journal.

Lógicamente, ahora te preguntas ¿qué hacen las autoridades ante denuncias de este tipo? Lo cierto es que tienen una ardua tarea. Primero, porque existe un amplio debate acerca del nivel de restricciones que se imponen, ya que puede considerarse violatorio de otros derechos tal la libertad de expresión. Segundo, debido a que lograr identificar al autor es como encender fuego bajo la lluvia, claramente, los estafadores pueden usar un teléfono en cualquier parte del mundo, ocasionándonos los acostumbrados problemas de jurisdicción. También, usualmente, las víctimas de estas estafas de voz no cuentan con mucha información que sirva de evidencia para colaborar en las investigaciones de la policía, ¿por qué? En vista de que usted entiende que está hablando con alguien de su entera confianza.

A lo expuesto, se suma que la regulación avanza como caracol, según análisis de Bloomberg, actualizado a junio de 2023, nueve estados de Estados Unidos han regulado de algún modo los deepfakes, por ejemplo, tanto en Virginia como en Nueva York se prohíbe, con carácter explícito, todo material de pornografía generado con esta tecnología. En el mismo estudio, se incluyen las propuestas legislativas de aquellos estados que las han presentado, este es el caso de Illinois. Cabe resaltar que, la Unión Europea hace mención expresa de los deepfakes en su propuesta de AI Act, incorporando como principio la transparencia, entre otras instrucciones, así como multas a modo de sanción ante incumplimiento. Resulta de igual interés, la legislación de la Administración del Ciberespacio de China, cuyo objetivo principal es evitar la desinformación; sus nuevas reglas prohíben a los proveedores de servicios y usuarios, utilizar dicha tecnología para producir, divulgar y fabricar información falsa. Incluso, se detuvo a un hombre en la provincia de Gansu, como se indica en Reuters, por supuestamente usar ChatGPT para generar una noticia falsa sobre un accidente de tren. De todo lo antes descrito, resulta que estamos en presencia de vacíos legales, además, no contamos con precedentes contundentes para que los tribunales, en caso de uso dañino, responsabilicen a las empresas que desarrollan estas herramientas.

Ante este panorama, ¿podemos hacer algo nosotros? ¡Desde luego! No somos meros espectadores, nos corresponde subir al escenario y asumir nuestro rol. Está en nuestras manos ser agentes multiplicadores y crear conciencia para evitar que otros caigan en la trampa, así lo hizo Jennifer DeStefano, exigiendo a los competentes regular esta tecnología que permite clonar las voces, narrando su estremecedora historia ante el Senado de los Estados Unidos, detallando cómo un hombre la amenazó vía telefónica requiriendo $1 millón, colocándole un audio con una voz exactamente igual a la de su hija Briana de 15 años, quien “aparentemente” le rogaba ser salvada.

Desde mi óptica, algunas tácticas de utilidad personal que pueden implementar son:

– Cuando tomes el teléfono, espera que la otra persona se identifique. Muchas veces he recibido llamadas y me preguntan ¿con quién hablo? Y mi respuesta favorita es ¿a quién usted llamó? Lo mejor es no entrar en detalles, ni siquiera es recomendable el uso de monosílabas como sí y no. No converses con este tipo de personas y en ningún caso brindes información personal, ya que puede ser utilizada a futuro por el ciberdelincuente que no completó su misión.

-Mantén tus redes sociales privadas. En el caso de que seas figura pública, involucra a tus allegados lo menos posible. Si ellos forman parte de la estructura y es inevitable su presencia, evita videos o audios extensos de ellos.

– En aquel momento que te llamen de una “institución” para brindarte una información inusual, no olvides que siempre podrás comprobar mediante otros canales.

– Expertos en machine learning como Kimberly Mai, aseguran que cuando tengas una duda, puedes discutirlo con otras personas, esto reduce el riesgo de equivocaciones, cada uno suma una perspectiva diferente asociada a los detalles.

– Un clásico es verificar la calidad del sonido, como cuando crees que te han intervenido el teléfono.

– Las empresas de seguridad, pueden concentrarse en hacer más robustos los detectores automatizados. A propósito, el doctor Richard Benjamins, quien dirige el área de inteligencia artificial y datos en Telefónica, explicó a La Vanguardia que en la citada reconocida compañía se trabaja con sistemas que detectan deepfakes, por ejemplo, para confirmar en las reuniones a distancia que el interlocutor es real, evitando ser engañados.

– Si usted tiene una empresa o forma parte de una, establezca y respete los protocolos y procedimientos acostumbrados para la toma de decisiones, así le llame el # 1, ya que las elecciones de peso no tienen cobertura en la red telefónica.

– Se ha recomendado, si el tipo de llamada lo amerita, adoptar un sistema de palabras claves o de preguntas para medir la autenticidad de las llamadas. ¡Sí, lo mismo que lleva a cabo el banco cuando llamamos para una acción determinada!

– La más importante, validar con la fuente. Llamar a la otra persona, el “suplantado”, así sabremos si la situación es real o resultado de datos sintéticos.

Constantemente, en la República Dominicana, el Centro Nacional de Ciberseguridad publica estadísticas, informes, boletines y recomendaciones vinculadas a ataques de ingeniería social de las que son víctimas gran cantidad de dominicanos. El componente novedoso, la IA. Lo que escuchamos se ha convertido en rompecabezas y nos toca enlazar sus piezas para descifrar la verdad.

Por último, recuerda, escuchar es solo el primer paso, la verificación es la clave.

Clonación Deepfakes de audio: cuando la voz clonada siembra la duda IA Nicole Marie Suárez Uribe

Deepfakes de audio: cuando la voz clonada siembra la duda

El componente novedoso, la IA. Lo que escuchamos se ha convertido en rompecabezas y nos toca enlazar sus piezas para descifrar la verdad.

{{#title}}{{rendered}}{{/title}}

Más noticias de Opinión

{{title}}

Últimas noticias

{{title}}