El proyecto EMBERS predice el futuro con Twitter

La comunidad de inteligencia de EEUU utiliza el big data y la inteligencia artificial para rastrear información en América Latina.

Hace unos días tomamos de Dominio Cuba las declaraciones del experto ruso Evgeny Pashentsev, quien da cuenta de un sistema de inteligencia artificial desarrollado por EEUU para pronosticar y eventualmente detonar procesos políticos en la región. El programa no solo puede predecir determinados hechos violentos, sino agravar la situación. El investigador se refería, entre otros, al proyecto EMBERS, desarrollado por la comunidad de inteligencia de EEUU. Hoy compartimos, a partir de otra publicación de Dominio Cuba, un reportaje de la revista norteamericana NewsWeek, una de las pocas publicaciones que han hablado de EMBERS, un programa sobre el que hay muy poca información reciente en Internet.

Por Leah McGrath Goodman/ NewsWeek

Para la mayoría de los estadounidenses nacidos después de la Segunda Guerra Mundial, es poco probable que Arlington, Virginia, tenga algún significado especial. Pero para aquellos que saben que el resultado de la guerra dependió en gran medida de los códigos descifrados y del “juego de la imitación”, Arlington tiene una mística como el epicentro del criptoanálisis militar estadounidense.

En 1942, el Servicio de Inteligencia de Señales del Ejército de los EE.UU. (U.S. Army Signal Intelligence Service) estableció su residencia en el Arlington Hall Junior College for Girls, una escuela privada que instruía a las jóvenes sobre arte, música, modales, vestimenta adecuada y economía doméstica, y la utilizaba en realidad para descodificar los sistemas de cifrado japoneses.

La Agencia de Seguridad Nacional (NSA, por sus siglas en inglés), fundada en 1952, se basó originalmente en Arlington Hall. La Defense Intelligence Agency, formada por el Secretario de Defensa Robert McNamara en el Pentágono una década más tarde, también ocupó dos edificios allí. En la actualidad Arlington mantiene sus raíces, pero ahora está descifrando otros tipos de códigos, y ha avanzado hacia el ámbito de la computación cuántica, convirtiéndose en un foco de iniciativas de investigación financiadas por el gobierno, en la que participan instituciones públicas y privadas que sirven principalmente a Washington.

Una de ellas, Virginia Tech (VT), prueba cuánto importa el “big data” en el juego de aumentar la capacidad de la comunidad de inteligencia de EEUU al pronosticar, con una precisión inusitada, el comportamiento humano a escala global. La materia prima principal proviene de Twitter, YouTube, Wikipedia, Tumblr, Tor, Facebook y otros. VT está utilizando algoritmos y una variedad de herramientas avanzadas para clasificar información compleja e identificar patrones en el caos que, frecuentemente, apuntan a eventos antes de que estos ocurran, como movimientos civiles, brotes de enfermedades, crisis humanitarias, migraciones masivas, protestas, disturbios, acciones políticas e incluso violencia.

“Cada vez que tuiteas o publicas en Facebook, te estás convirtiendo en parte de la gran economía de datos”, dice Naren Ramakrishnan, profesor de Ciencias de la Computación en VT y director del Centro de Análisis de Descubrimientos de la Universidad, que “estudia científicamente toda la gama de datos”. En el 2014, el centro trasladó su base de operaciones del campus de VT, en Blacksburg, Virginia, a Arlington, en los predios del Pentágono, luego de obtener más de $15 millones en subvenciones y contratos para el proyecto EMBERS. Ramakrishnan dirige el proyecto, que, hasta el momento, está liderando la carrera armamentista para convertir el big data en pronósticos que puedan usar líderes políticos y agencias de inteligencia de EEUU.

“Muchos analistas pueden ofrecer pronósticos para el próximo año, pero cuando hacemos pronósticos, estamos hablando de fechas específicas”, dice Ramakrishnan. Desde su inicio en abril de 2012, entre el 80 y el 90 por ciento de los pronósticos han resultado ser precisos, y pueden anticiparse hasta siete días a un evento.

EMBERS (abreviatura de Early Model Based Event Recognition using Surrogates -lo que en español sería Reconocimiento Temprano de Eventos Basado en Modelos usando Sustitutos) es un sistema de inteligencia artificial que utiliza lo que los geeks del big data llaman “indicadores de código abierto”: medios sociales, imágenes satelitales y más de 200 000 blogs disponibles públicamente. Procesa hasta 2 000 mensajes por segundo, como por ejemplo los datos de código abierto que provee el “Twitter Firehose”, funcionalidad de Twitter que sólo está disponible para ciertos socios, se adquiere por un precio considerable y permite el acceso a cientos de millones de tweets en tiempo real por día.

Si bien se ha hablado mucho de las operaciones de vigilancia secreta del gobierno, particularmente las que espían a los estadounidenses, el proyecto EMBERS se centra en rastrear el comportamiento humano en el extranjero y en publicar sus hallazgos, incluso si son negativos. “No estamos viendo nada clasificado y no estamos pronosticando terrorismo, porque no tenemos acceso a ese tipo de canales traseros”, dice Ramakrishnan. “Estamos viendo datos que cualquiera puede obtener”.

Es un sistema totalmente automatizado que produce entre 45 y 50 alertas totales por día, 24 horas al día, siete días a la semana. Revela la fecha de un evento, la ubicación y las coordenadas, quién o qué grupos están involucrados, la razón de la inquietud y el nivel de confianza de la predicción. ¿El objetivo? Pronosticar cualquier cosa que pueda darle a Estados Unidos un aviso de cómo proteger a los estadounidenses en el extranjero, así como a sus aliados.

El proyecto se inició con el examen de flujos de datos de código abierto en América Latina: predijo con precisión el juicio político al presidente de Paraguay en 2012, las protestas de la Copa Mundial en Brasil en 2013 y las violentas protestas de 2014 en Venezuela. En estos días (2015), el programa monitorea 20 países en América Latina y está comenzando a trasladarse a Medio Oriente y África del Norte, cubriendo Iraq, Siria, Egipto, Baréin, Jordania, Arabia Saudita y Libia.

EMBERS es un sistema de pronóstico 24 horas los siete días de la semana, totalmente automatizado que utiliza datos de código abierto, incluidos tweets, páginas de Facebook, artículos de noticias, publicaciones de blog, búsquedas de Google, Wikipedia, datos meteorológicos, indicadores económicos y financieros, datos de eventos codificados, reservas de restaurantes en línea e imágenes satelitales.

EMBERS fue el producto de un concurso de 2012 organizado por Jason Matheny, director asociado de la gubernamental Office for Anticipating Surprise (Oficina para Anticipar la Sorpresa) -sí, ese es el nombre de una oficina real- y un gerente de la Intelligence Advanced Research Projects Activity (IARPA), programa de la Oficina del Director de Inteligencia Nacional, subordinado al Presidente de Estados Unidos.

Se pidió a tres equipos -uno de Virginia Tech; otro de la empresa de computación cuántica Raytheon BBN Technologies en Cambridge, Massachusetts, y la HRL en Malibu, California, anteriormente Hughes Research Laboratories-, que construyeran el mejor modelo de pronóstico posible basado en indicadores de código abierto. El más exitoso de estos fue EMBERS, que terminó integrando a varios miembros de los otros equipos en su propio equipo, incluido los de la Raytheon BBN, que ahora construye algunos de los modelos para las redes sociales de EMBERS, como los que intentan pronosticar disturbios civiles interpretando los mensajes de Twitter.

Algunos de los principios rectores de la investigación son asombrosamente simples, asegura Scott Miller, director técnico principal del Grupo de palabra y lenguaje de la Raytheon BBN. “Buscamos charlas, palabras específicas indicativas de protesta”, dice Miller. “Encontramos que existe una correlación entre las frecuencias de términos referidos a la agitación política, por ejemplo, la palabra en español protesta, y la cantidad de disturbios civiles que encontramos en esas regiones”.

En otros casos, sin embargo, la información que llega puede ser mucho más compleja. Debido a que la información puede ser una imagen, palabras o un gráfico, sin mencionar que abarca muchos idiomas y dialectos diferentes, EMBERS utiliza métodos avanzados de extracción y traducción de datos en asociación con otra compañía de Cambridge, la Basis Technology, que enriquece los datos y la información, proporciona herramientas de análisis de texto que, en lugar de traducir idiomas extranjeros al inglés, obtiene un significado directo de las lenguas nativas. Por ejemplo, es capaz de interpretar una imagen con letras en árabe y llevarla a la fonética del inglés. Los datos gráficos se leen directamente en Tumblr y las fotos aéreas por satélite se procesan a través de herramientas automatizadas para imágenes.

A pesar de la sofisticación tecnológica, los algoritmos de los modelos predictivos pasan por una gran cantidad de modelos de prueba y error. Un equipo de 80 expertos y 13 subcontratistas, incluidos científicos sociales, filósofos, informáticos, epidemiólogos, científicos políticos, estadísticos y expertos regionales trabaja en el diseño y la actualización de los mejores modelos posibles.

Ramakrishnan compara las computadoras de entrenamiento para reconocer patrones a las aplicaciones que se utilizan para reconocer el spam en los sistemas de correo electrónico. Hay un “supermodelo” que, con el tiempo, “aprende qué modelos son mejores, pero sigue aprendiendo, porque las situaciones en estos países cambian con el tiempo”, dice Ramakrishnan.

El supermodelo recibe un dictamen mensual de calificaciones en el que se evalúa la precisión de sus predicciones, donde se indica qué modelos funcionan en qué combinaciones y cuáles no. Luego se ajustan en consecuencia. El contratista independiente que lee y califica la precisión de los pronósticos de EMBERS es un centro de investigación sin fines de lucro en las cercanías de McLean, Virginia, llamado MITRE, un conglomerado de centros de investigación financiados por el gobierno.

Terry Reed, el ingeniero de sistemas de información del Instituto de Ingeniería y Desarrollo de Sistemas de Seguridad Nacional de MITRE, supervisa a un equipo de una docena de personas que combinan las alertas de EMBERS con los informes de noticias para determinar si se cumplen sus predicciones. EMBERS ahora tiene un puntaje casi perfecto en la predicción de los eventos que sucederán, pero aún así trabaja para que los detalles de cada evento sean correctos, dice Matheny.

Ramakrishnan afirma que cree que EMBERS tiene el potencial de pronosticar eventos en poblaciones de todo el mundo. “Uno podría imaginar que tecnologías como esta serán muy útiles en el futuro y podrían convertirse en una herramienta principal”, dice. “Tratar de predecir esto no es nuevo. Lo nuevo es que las redes sociales nos permiten hacerlo mejor”.

Hasta la fecha, las agencias gubernamentales no están actuando de manera concertada según las predicciones del proyecto EMBERS, y aún no está claro qué planea hacer el gobierno con estas capacidades en crecimiento. Matheny se negó a revelar exactamente qué agencias gubernamentales están dispuestas a adoptar la tecnología predictiva de EMBERS, pero confirmó a Newsweek que la inteligencia, la salud pública, los asuntos humanitarios y las agencias de seguridad mundial y nacional lo están siguiendo de cerca.

“Mantenemos a los socios gubernamentales informados sobre los resultados de la investigación”, dice. “Más de una docena de agencias han recibido actualizaciones periódicas sobre el progreso de esta investigación”. Una de las agencias que utilizan las alertas EMBERS, dice Ramakrishnan, es el Centro para el Control y la Prevención de Enfermedades.

Además de proporcionar información a las agencias gubernamentales, VT también puede vender el acceso a sus tecnologías de medios sociales a entidades comerciales, aunque todavía no hay un plan inmediato para eso, dice Ramakrishnan. “Hay muchas razones legítimas para ello”, dice Ramakrishnan. “Esto puede permitirnos aumentar nuestra seguridad en lugares importantes y ofrecer consejos de viaje más precisos, proteger a los estadounidenses de la violencia y aumentar nuestra seguridad en las embajadas”.

MITRE, por su parte, tiene conexiones profundas con los aparatos de defensa, seguridad e inteligencia de la nación. De hecho, según MITRE, Reed representa al jefe de seguridad de la información del Departamento de Seguridad Nacional en un comité dentro del Grupo de Trabajo de Sistemas de Seguridad Nacional centrado en cuestiones de políticas relacionadas con sistemas clasificados de información.

Si bien MITRE confirmó el trabajo de Reed con EMBERS, se negó a ser entrevistado por Newsweek.

EMBERS tampoco es el único proyecto gubernamental que se perfecciona para utilizar a las redes sociales con fines de pronóstico. En febrero de 2015, un grupo que afirmaba estar asociado con ISIS hackeó la página de Newsweek en Twitter y publicó un documento del Ejército titulado “The Gist Mill Pilot Project”, que se refería a un “proyecto de operaciones” para extraer del código abierto indicadores y “análisis de redes sociales”. Según un portavoz del Pentágono, el proyecto se suspendió en 2013, pero el Ejército está en proceso de fusionar las redes sociales con sus operaciones tradicionales de inteligencia, vigilancia y reconocimiento e introducir continuamente nuevas capacidades.

A pesar de los beneficios predictivos de aprovechar los datos de código abierto, Karen Greenberg, directora del Centro de Seguridad Nacional de la Universidad de Fordham en Nueva York, advierte que seguir de cerca a las masas a través de las redes sociales y otros medios, suena menos a la película “Imitation Game” y más a “Minority Report”.

“Realmente debemos decidir sobre algunas pautas y parámetros legales y éticos en las etapas iniciales de todos estos proyectos”, dice ella. “Hemos visto que cuando eso no sucede, más tarde escuchamos a nuestro gobierno: ‘Dependemos de este programa, no podemos desmantelarlo ahora’. Las consecuencias de estos programas son extraordinarias. Como nación, ¿estamos de acuerdo en que somos tan inseguros que necesitamos que estos programas reduzcan nuestro riesgo a cero a costa de nuestra privacidad?”

Los funcionarios de inteligencia a menudo señalan que el término vigilancia masiva es un nombre inapropiado, argumentando que el objetivo de la vigilancia del gobierno es apuntar a individuos o grupos específicos, no a las masas. “No estamos rastreando individuos en nuestro proyecto”, dice Ramakrishnan. “Estamos siguiendo multitudes y grupos”. Señala que el programa sí sigue los feeds de las figuras públicas de Twitter y otros líderes clave, debido al hecho de que han ejercido una gran influencia en las masas.

Greenberg agrega que si bien estas herramientas son sin duda útiles, existen indicios de que el gobierno puede volverse demasiado dependiente de la tecnología para alertarlo sobre amenazas de seguridad. “De alguna manera, nos perdimos la primavera árabe, nos perdimos el auge de ISIS”, dice ella. “Estas son herramientas tecnológicas valiosas, pero nada sustituye estar en el lugar de los hechos. Tienes que buscar tu respuesta con más de dos clics “.

Miller de Raytheon BBN está de acuerdo en que, en caso de duda, no hay nada como la verdad fundamental: “En este momento, nuestras predicciones en el Medio Oriente aún no son buenas. La mejor manera de resolver algo es simplemente preguntarle a alguien”. (Artículo publicado originalmente en la revista NewsWeek, el 7 de marzo de 2015).

Deja una respuesta Cancelar la respuesta