¡Hola, Alexa! Lo siento, te engañé…

El nuevo sistema TextFooler del MIT puede engañar a los tipos de sistemas de procesamiento de lenguaje natural que utiliza Google para impulsar sus resultados de búsqueda, incluido el audio para Google Home.

Es probable que un humano pueda notar la diferencia entre una tortuga y un rifle. Hace dos años, la IA de Google no estaba tan segura . Durante bastante tiempo, un subconjunto de la investigación informática se ha dedicado a comprender mejor cómo los modelos de aprendizaje automático manejan estos ataques «contradictorios», que son entradas creadas deliberadamente para engañar o engañar a los algoritmos de aprendizaje automático. 

Si bien gran parte de este trabajo se ha centrado en el habla y las imágenes , recientemente, un equipo del Laboratorio de Ciencias de la Computación e Inteligencia Artificial (CSAIL) del MIT probó los límites del texto. Se les ocurrió «TextFooler», un marco general que puede atacar con éxito los sistemas de procesamiento de lenguaje natural (NLP), los tipos de sistemas que nos permiten interactuar con nuestros asistentes de voz Siri y Alexa, y «engañarlos» para que hagan predicciones incorrectas. 

Uno podría imaginar el uso de TextFooler para muchas aplicaciones relacionadas con la seguridad en Internet, como el filtrado de correo no deseado, el marcado de discursos de odio o la detección de texto de discurso político «sensible», que se basan en modelos de clasificación de texto. 

“Si esas herramientas son vulnerables a los ataques deliberados de los adversarios, entonces las consecuencias pueden ser desastrosas”, dice Di Jin, estudiante de doctorado del MIT y autor principal de un nuevo artículo sobre TextFooler. “Estas herramientas deben tener enfoques de defensa efectivos para protegerse y, para crear un sistema de defensa tan seguro, primero debemos examinar los métodos adversarios”. 

TextFooler funciona en dos partes: alterar un texto dado y luego usar ese texto para probar dos tareas de lenguaje diferentes para ver si el sistema puede engañar con éxito a los modelos de aprendizaje automático.  

El sistema primero identifica las palabras más importantes que influirán en la predicción del modelo de destino y luego selecciona los sinónimos que encajan contextualmente. Todo esto mientras se mantiene la gramática y el significado original para parecer lo suficientemente «humano», hasta que se altera la predicción. 

Luego, el marco se aplica a dos tareas diferentes: clasificación de texto y vinculación (que es la relación entre fragmentos de texto en una oración), con el objetivo de cambiar la clasificación o invalidar el juicio de vinculación de los modelos originales. 

En un ejemplo, la entrada y salida de TextFooler fueron:

“Los personajes, colocados en situaciones imposiblemente artificiales, están totalmente alejados de la realidad”. 

“Los personajes, elegidos en circunstancias imposiblemente diseñadas, están completamente alejados de la realidad”. 

En este caso, cuando se prueba en un modelo NLP, obtiene la entrada de ejemplo correcta, pero luego obtiene la entrada modificada incorrecta. 

En total, TextFooler atacó con éxito tres modelos objetivo, incluido «BERT», el popular modelo NLP de código abierto. Engañó a los modelos de destino con una precisión de más del 90 por ciento a menos del 20 por ciento, cambiando solo el 10 por ciento de las palabras en un texto determinado. El equipo evaluó el éxito en tres criterios: cambiar la predicción del modelo para clasificación o vinculación; si tenía un significado similar para un lector humano, en comparación con el ejemplo original; y si el texto parecía lo suficientemente natural. 

Los investigadores señalan que si bien atacar los modelos existentes no es el objetivo final, esperan que este trabajo ayude a generalizar modelos más abstractos a datos nuevos e invisibles. 

“El sistema se puede usar o ampliar para atacar cualquier modelo de NLP basado en clasificación para probar su solidez”, dice Jin. “Por otro lado, los adversarios generados se pueden usar para mejorar la solidez y la generalización de los modelos de aprendizaje profundo a través del entrenamiento de adversarios, que es una dirección crítica de este trabajo”. 

Jin escribió el artículo junto con el profesor del MIT Peter Szolovits, Zhijing Jin de la Universidad de Hong Kong y Joey Tianyi Zhou de A*STAR, Singapur. Presentarán el artículo en la Conferencia AAAI sobre Inteligencia Artificial en Nueva York. 

Loading

Danos tu valoración..

mauricio Valdés

Bloguero de aficionado y redactor de mi revista, utilizo codigos sagrados, me apasiona el Internet y la informática, lector de psicología, espiritualidad, criptomonedas, salud, llevo una vida simple con grandes sueños...

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *