5 herramientas prácticas para analizar Twitter y cómo las usamos los cazadores de fake news

Explicamos nuestras herramientas favoritas para investigar tendencias, cuentas y noticias en Twitter y para identificar campañas coordinadas, rumores, bots y trolls

Al momento de analizar cuentas, tendencias y la difusión de noticias en Twitter, es conveniente utilizar herramientas que simplifican un trabajo que requeriría de mucho tiempo y esfuerzo de hacerse de forma manual. Durante muchos años se han desarrollado muchas herramientas que extraen, interpretan y organizan datos descargados directamente de la red social y a los que cualquier persona puede acceder de forma gratuita.

Las cinco herramientas presentadas en este artículo permiten analizar distintos aspectos de Twitter. Han sido usadas en artículos publicados e investigaciones de nuestra comunidad y son consultadas regularmente, cada vez que se necesitan obtener referencias rápidas sobre alguna cuenta, tendencia, cuando queremos determinar cómo se ha difundido en Twitter alguna información (o desinformación) o cuando estudiamos posibles cuentas falsas, bots o trolls:

  • TruthNest y TweetBeaver, útiles para analizar cuentas de Twitter y su comportamiento.
  • Allegedly, permite analizar los patrones de publicación de tweets de una cuenta de Twitter en particular.
  • Twitron, muy práctica para analizar tendencias impulsadas en ciertos países, en un día en particular y compararlas con otras tendencias difundidas el mismo día.
  • Hoaxy, sirve para analizar cómo y quiénes difunden hablan en Twitter sobre un tema, bien sea una tendencia, un enlace, una noticia, otra cuenta de Twitter o menciones de alguna palabra en particular.

Los gráficos, mensajes, advertencias o indicadores que entregan estas herramientas no implican necesariamente la presencia de cuentas bots, trolls, o de que alguna tendencia haya sido difundida de forma coordinada o mediante manipulación de plataforma. Nos entregan en cambio, pistas muy útiles para evaluar comportamientos, organizando la data de forma más práctica y entregando evidencias que pueden llevarnos a resolver algunas investigaciones sobre casos de desinformación o manipulación de plataforma en Twitter.

1. Para evaluar la credibilidad de cuentas de Twitter: TruthNest

TruthNest (app.truthnest.com) es una herramienta de análisis de cuentas en Twitter desarrollada por ATC (Athens Technology Center, Centro de Tecnología de Atenas) que provee análisis estadísticos para una cuenta de Twitter en particular, basados en su actividad, su red de cuentas más cercana y la influencia que tiene en dicha red.

Al realizar el análisis para alguna cuenta en particular, TruthNest entrega datos como: información general de la cuenta, hashtags y cantidad de veces que fueron publicados por la cuenta, proporción de tweets originales/retweets/citas/respuestas, sitios web mencionados, herramientas de publicación usadas, actividad semanal y horas usuales de publicación.

Algunos resultados entregados por TruthNest. (1) Información general de una cuenta, actividad semanal, horas de mayor actividad y frecuenta de publicación. (2) Proporción de tipos de tweets publicados. (3) Usuarios más retuiteados por la cuenta. (4) Etiquetas que indican que la cuenta tiene características simialres a cuentas trolls, presencia de spam, largos períodos de tiempo de inactividad y seguidores sospechosos.
Haz click aquí para conocer más detalles sobre TruthNest

En el tope del resumen que realiza TruthNest a cada cuenta de Twitter, aparece una barra llamada “bot indicators” (indicador de cuenta similar a bot), que puntúa de 0 a 100% si una cuenta posee criterios para ser considerada una cuenta (similar a) bot. De igual manera, entrega una serie de observaciones sobre comportamientos sospechosos que arroja el análisis de la cuenta, entre los que pueden aparecer etiquetas (“flags“) como:

  • Troll“: si la cuenta menciona de forma proporcionada a otra cuenta específica, como posible señal de acoso selectivo
  • Fake“: si no posee foto de perfil o tiene indicios de ser una cuenta falsa
  • Comedy“: si la cuenta está incluida en alguna lista que la identifique como una cuenta de sátira, comedia o declara en su información que lo es
  • Spam“: si la cuenta ha generado gran cantidad de tweets por día o posee una gran proporción de retweets
  • False Timezone“: si hay divergencia entre las horas usuales de publicación de tweets y la zona horaria declarada por la cuenta

Es importante resaltar que estas etiquetas solamente indican que, de acuerdo al algoritmo de TruthNest, una cuenta en particular presenta indicios de tener un comportamiento determinado. En bastantes casos, aparecen falsos positivos que pueden ser explicados de forma lógica. Un ejemplo claro es la etiqueta “Troll“: según el criterio de TruthNest, indica que la cuenta estudiada ha realizado muchas menciones a otra cuenta, que es una característica de algunas cuentas trolls, mas no una prueba concluyente.

Por ello, el investigador siempre debe profundizar en las características de cada cuenta estudiada, usando a estas observaciones solamente como guías preliminares y no como conclusiones.

Usamos TruthNest, por ejemplo, cuando necesitamos descargar un resumen en formato *.pdf sobre la actividad de alguna cuenta de Twitter, para saber si genera spam, si ha usado gran cantidad de veces una etiqueta en particular (y para conocer cuántos tweets publicó con dicha etiqueta), al momento de analizar posibles cuentas bots o trolls, para observar la proporción entre los tipos de tweets (tweets originales, retweets, citas o respuestas) publicados por alguna cuenta específica, entre otros análisis.

2. Para analizar patrones de publicación de una cuenta en Twitter: Allegedly

Allegedly (makeadverbsgreatagain.org/allegedly) es una herramienta desarrollada por un influyente científico de datos que se identifica como “Conspirador Norteño” en Twitter (@conspirator0). Mediante esta herramienta, se pueden obtener diagramas con los patrones de publicación de tweets de una cuenta en particular.

Estos diagramas son generados en forma de tablas compuestas por filas (para indicar el día de publicación), columnas (para indicar hora de publicación) y círculos de color ubicados en filas y columnas, que representan la hora y día de publicación de los tweets. Estos círculos pueden tener distintos tamaños y colores; el tamaño indica la cantidad de tweets publicados (mientras más grandes, más tweets publicó en una hora determinada); los colores indican, dependiendo de la opción seleccionada, el tipo de tweet, la herramienta de publicación o el lenguaje del tweet.

Allegedly es muy útil para detectar cuentas que poseen comportamiento similar a bot. Las cuentas bot, que por definición tienen algún grado de automatización, generan patrones de publicación de tweets repetitivos o constantes: tuitean siempre en el mismo instante del día, todos los días; publican la misma cantidad de tweets cada hora, constantemente; tuitean sin parar durante todo el día, incluso en la madrugada, entre otros comportamientos anómalos y no orgánicos.

Estos indicios son fácilmente apreciables con el uso de los diagramas de publicación de tweets generados con Allegedly, que pueden ayudar a detectar cuando se utiliza software para programar la publicación de tweets de alguna cuenta:

Haz click aquí para conocer más detalles sobre Allegedly

En algunos casos, usando Allegedly, hemos hallado grupos de cuentas que, aunque no poseen un patrón de publicación de tweets repetitivo o constante que delate automatización, sí poseen gran cantidad de tweets publicados exactamente en los mismos momentos, durante muchos días, lo que denota sincronización entre cuentas:

Evidencias de sincronización entre 16 cuentas de Twitter, de acuerdo a los patrones de publicación de tweets generados con Allegedly

En el siguiente video, realizamos la superposición de patrones de publicación en Allegedly de seis cuentas de Twitter diferentes, con características muy similares: generaban gran cantidad de tweets al día (spam) a través de la misma herramienta de publicación (Twitter para Android), generaban una proporción casi idéntica de retweets/tweets, publicaban tweets con textos repetidos y tenían horas de publicación muy similares.

Todo lo anterior nos llevó a concluir que las seis cuentas tenían un mismo operador:

Superposición de diagramas de publicación de tweets, generados con Allegedly, para seis cuentas diferentes manejadas por el mismo operador

Allegedly no entrega un resultado explícito sobre si una cuenta es bot, troll o está automatizada. Quien investiga debe unir los puntos e interpretar si la cuenta estudiada tiene suficientes indicios para concluir que si se encuentra automatizada, genera spam o posee alguna anomalía, usualmente consultando otras herramientas como TruthNest, que proporcionan información complementaria.

3. Para analizar cómo se difunden conversaciones en Twitter: Hoaxy

Hoaxy (hoaxy.iuni.iu.edu) es una herramienta desarrollada por el Instituto de Ciencia de Redes de la Universidad de Indiana (Indiana University Network Science Institute, IUNI), que sirve para evaluar cómo y cuáles cuentas de Twitter han difundido alguna información en Twitter.

Para usar Hoaxy se deben hacer búsquedas de palabras claves, que pueden ser frases, hashtags, nombres de otros usuarios o enlaces a páginas externas a Twitter. Hoaxy selecciona tweets que incluyen estas palabras claves y genera un grafo de interacciones entre los usuarios que las han mencionado. Los usuarios son representados en un grafo mediante círculos de colores (azul, verde, amarillo, naranja o rojo) y las interacciones entre ellos (menciones, retweets, respuestas o citas) son representadas con líneas grises.

Mientras más cercano al rojo sea el color de los círculos que representan a cada usuario, poseerá mayor cantidad de criterios que lo asemejan a una cuenta anómala o que está involucrada en algún tipo de manipulación de plataforma. Los criterios considerados para determinar este color son los establecidos por otra aplicación desarrollada por el IUNI, llamada “Botometer“.

Cuando para una misma búsqueda detectamos gran cantidad de círculos con colores amarillos, naranjas y rojos (que nos encanta llamar “semerucos“, para tener un punto de comparación con una fruta), solemos estar ante casos de manipulación de plataforma o campañas coordinadas, impulsadas por varias cuentas con comportamiento anómalo:

Varios obtenidos con Hoaxy, con búsquedas de figuras políticas venezolanas. En todos los casos consultados de figuras políticas del oficialismo, la gran cantidad de puntos amarillos, naranja y rojos indica presencia de cuentas vinculadas con la red de spam “Tuiteros de la Patria”
Haz click aquí para conocer más detalles sobre Hoaxy

Los puntajes y colores que usa Botometer/Hoaxy para definir la inorganicidad de cada cuenta, son calculados en función de seis criterios diferentes, que indican si el comportamiento de una cuenta se asemeja al de alguno de seis distintos tipos de cuentas bots, que fueron identificados previamente por los desarrolladores de ambas herramientas:

  • Echo chamber” (cámara de eco): similares a cuentas que participan en grupos de seguimiento, comparten o eliminan tweets con contenido político en grandes volúmenes
  • Fake follower” (seguidor falso): similares a cuentas bots compradas para aumentar el número de seguidores
  • Financial” (financieros): similares a cuentas bots que utilizan cashtags en sus publicaciones
  • Self declared” (auto-declarados): similares a cuentas bots que aparecen en el índice botwiki.org
  • Spammer” (generador de spam): cuentas etiquetadas como bots de spam a partir de varios conjuntos de datos
  • Otros: similares a otras cuentas bots obtenidas a partir de anotaciones manuales, comentarios de usuarios, etc.

Luego de evaluar estos criterios, Botometer asigna un puntaje que va de 0 a 5 para cada cuenta estudiada. Las cuentas que son identificadas con color azul (con puntajes cercanos a “0”), probablemente son manejadas por operadores humanos. Las que aparecen con color rojo (con puntajes cercanos a “5”), poseen comportamiento muy similar a cuentas bot.

Sin embargo, en la sección de “preguntas frecuentes” de Botometer, se deja claro que no se debe usar un puntaje específico para considerar una cuenta como “bot“; es más útil interpretar la distribución de los puntajes asignados a un conjunto de cuentas cercanas, con el objetivo de evaluar comportamientos anómalos en cuentas individuales, o participación en algún tipo de manipulación de plataforma, como generación de spam o astroturfing, de conjuntos de cuentas:

Arriba: grafo generado con Hoaxy, en la que se observa presencia de gran cantidad de cuentas con color amarillo, naranja y rojo. Abajo: análisis en Botometer de una de las cuentas del grafo superior, donde se indica que posee características similares a bots que operan como “cámaras de eco”

Aunque las líneas grises trazadas entre dos puntos por Hoaxy indican que entre ambas ha ocurrido alguna interacción (mención, retweet, respuesta o cita), es importante señalar que la existencia de alguna interacción no es suficiente para demostrar que hay algún vínculo, afinidad o amistad entre ambas cuentas, o que se encuentren impulsando de forma coordinada algún mensaje.

A veces, cuando dos cuentas antagonistas discuten respondiéndose de forma consecutiva a lo largo de un hilo de Twitter, Hoaxy las enlazará con líneas grises, ya que detectará que han interactuado, aunque exista un desacuerdo entre ellas sobre el tema del cual hablan. Es necesario verificar manualmente de qué manera interactuaron y comprender el contexto de la discusión.

En Cazadores de Fake News usamos Hoaxy de forma casi cotidiana, al evaluar como se propagan discusiones sobre temas específicos, tendencias, enlaces, menciones o ataques coordinados a cuentas de figuras públicas, periodistas, políticos, ONGs, entre otras.

4. Para analizar tendencias en Twitter: Twitron

En Twitter existen páginas web como GetDayTrends y Trendinalia, que presentan listados estáticos de las tendencias que han llegado a ser trending topics en distintos países, algún día en particular. Pero la herramienta Twitron, desarrollada por la organización Usuarios Digitales (Ecuador), proporciona gran cantidad de información adicional de utilidad al momento de analizar tendencias de Twitter, especialmente en América y algunos países de Europa.

Twitron (twitron.usuariosdigitales.org) es una herramienta de monitoreo de tendencias en Twitter, que descarga y organiza información sobre las etiquetas que se posicionan en el tope de los trending topics diarios, de 14 países americanos y 5 europeos, permitiendo evaluar la relevancia de cada tendencia en la discusión digital de Twitter para un día determinado:

Información suministrada por Twitron: (1) Diagrama de carrera de tendencias a lo largo del día. (2) Tendencias principales observadas, en función del parámetro RankUD, indicando volumen de tweets. (3) Top 10 tendencias del día consultado. (4) Detalles de cada tendencia del top 10 del RankUD. (5) Nube de tendencias observadas. (6) Movimiento de las primeras tendencias durante el día

Adicionalmente, Twitron permite descargar un archivo exportable a Flourish, que permite realizar “carreras de tendencias“: gráficas animadas de las principales tendencias de Twitter en un país, de acuerdo la posición obtenida a lo largo del día:

Esta herramienta es muy útil al momento de evaluar tendencias de Twitter relevantes, ya que proporciona métricas útiles para conocer su impacto en la conversación digital. Nos ha permitido ilustrar como varias tendencias compiten a lo largo del día, para alcanzar los principales puestos de los trending topics de un país determinado.

Para obtener una referencia más integral sobre cuáles fueron las tendencias de mayor importancia para un país en un día en particular, usualmente comparamos el listado de tendencias principales entregados por Twitron con los proporcionadas en otras fuentes como GetDayTrends o Trendinalia.

5. Para descargar tablas con información de cuentas de Twitter, que pueden ser usadas en análisis avanzados: TweetBeaver

TweetBeaver (tweetbeaver.com) es una aplicación gratuita que cuenta con 16 herramientas útiles para consultar y descargar información sobre cuentas de Twitter.

Permite que cualquier persona pueda descargar información relevante sobre cuentas de Twitter, organizada en tablas de datos separadas por comas (en formato *.CSV), que pueden ser posteriormente importadas a Excel, Tableau o algún software similar de procesamiento de datos:

Usos recomendados para TweetBeaver (marcados en rojo): descargar el timeline (tweets), la lista de seguidores y la información de una cuenta
Haz click aquí para conocer más detalles sobre TweetBeaver

TweetBeaver es una aplicación poco vistosa, pero muy útil.

Algunas de sus herramientas, como “download a user’s followers list(descargar lista de seguidores de un usuario) o “download a user’s timeline” (descargar los tweets de un usuario), son operaciones que pueden ser realizadas mediante scripts programados en lenguajes como Python o R, pero que ameritan la instalación de software adicional, paquetes especiales y actualizaciones si es requerido su uso. Mediante TweetBeaver se omite este paso y gran cantidad de data puede ser descargada de forma instantánea.

Sin embargo, la información descargada mediante algunas de las herramientas de TweetBeaver, tiene algunas restricciones. Por ejemplo, al querer descargar tweets de algún usuario en particular, TweetBeaver solamente permite descargar los últimos 3.200 tweets publicados en la cuenta; si es necesario descargar más tweets, es necesario buscar un método diferente. Al descargar listas de seguidores, permite descargar solamente los últimos 10.000 seguidores; para cuentas con más seguidores, es preferible usar scripts de Python o R.

TweetBeaver es una excelente herramienta de “emergencia”, accesible a todos, que puede ser usada para descargar información clave sobre cuentas susceptibles a ser sancionadas o bloqueadas por Twitter, al presentar anomalías:

  • Poseen posibles seguidores falsos
  • Forman parte de campañas coordinadas o no auténticas
  • Generan spam
  • Difunden contenido que viola las reglas de Twitter (odio, discriminación, acoso selectivo, etc.)

En estos casos, abre TweetBeaver, haz login con tu cuenta, descarga la información que necesites y guárdala en una carpeta de forma ordenada. Quizás en un futuro cercano, sea necesario utilizarla o compartirla con nosotros.


Comparte y ayuda a combatir la desinformación