¿Puede la actividad de Twitter de las candidatas predecir los resultados de las #primariasEQUO?

Durante las últimas 8 semanas he recogido datos sobre la actividad en Twitter de las personas candidatas a las #primariasEQUO. Me pregunto si sería posible predecir con ellos el resultado de la primera vuelta, cuya votación se cierra en un par de horas.

He utilizado la herramienta TweetBinder para recoger los datos. TweetBinder analiza los tweets de los últimos 7 días, y por tanto he realizado 8 mediciones semanales de los siguientes datos:

  • el número total de veces que se menciona el nombre de una candidata
  • el número de personas que contribuyen a esas menciones
  • el número medio de tweets relacionados que publica cada persona contribuyente (una forma de medir la interacción)
  • el número de retweets de estas menciones

Todos los datos recogidos están disponibles en este GoogleDoc para quien quiera verlos y jugar con ellos: “Impacto en Twitter de candidaturas #primariasEQUO“.

Limitaciones

Este pequeño estudio tiene muchas limitaciones que es necesario tener en cuenta.

En principio mi tesis es que el impacto real de una candidatura va a tener su reflejo en Twitter, y que las interacciones en esta red aproximan bien el interés real por los candidatos. Quiero estudiar la correlación entre los resultados en las primarias y la interacción en Twitter, pero no tengo nada claro si es posible derivar algún tipo de causalidad. ¿Twitter influye en el voto real, o viceversa, o ambos? Esa pregunta se me queda grande. Estoy abierto a todo tipo de críticas sean metodológicas, epistemológicas, o de cualquier otro tipo.

Elegí Twitter por la relativa sencillez de uso de TweetBinder. Me hubiese gustado también analizar Facebook, pero no encontré ninguna herramienta similar. Ambas redes tienen idiosincrasias diferentes, no se hace el mismo uso de ellas. Por tanto, no puedo decir nada sobre el impacto de “las redes sociales” en las #primariasEQUO, sino únicamente sobre Twitter. De hecho, centrarse únicamente en Twitter puede hacer que se minusvalore el impacto de Facebook.

Los datos han sido recogidos de forma “casi semanal”, cada domingo. Hay dos excepciones, en la semana 3 que los recogí un lunes, y en la semana 8 que los recojo un viernes porque es cuando se acaban las votaciones. Dado que Tweetbinder recoge los datos de los últimos 7 días (sin poder seleccionar, que yo sepa, únicamente los últimos 5 días), el resultado de no recoger datos a la misma hora el mismo día supone que habrá datos que se pierdan (por ejemplo la actividad del 23 de diciembre no está) y otros que se dupliquen (por ejemplo los días 25 y 26 de enero se cuentan tanto en la semana 7 como en la 8). Con las horas de recogida para algo similar: a veces recuento a las 12, otras a las 23, y unos datos se pierden y otros se duplican.

He ido introduciendo los datos según iba conociendo cuentas de los candidatos en Twitter. Por eso algunos sólo aparecen desde la mitad del estudio, y otros incluso sólo la última semana.

Twitter es una herramienta abierta al público, pero quienes van a votar en las primarias son un grupo limitado de personas (afiliadas, simpatizantes y votantes registradas ex-profeso). Son dos grupos diferentes, y no se puede saber si una interacción en Twitter proviene de una persona que va a votar, o no. Por tanto, una de las principales asunciones de este estudio es que quien genera la interacción con los candidatos es quien tiene un interés por ellos y por votarles, es decir, gente supuestamente registrada como votante.

Otra asunción implícita es que todas las interacciones son positivas. Podrían también ser menciones críticas, pero no tengo forma de saberlo. Por eso se asume cierto efecto “popularidad”, y que quien levante más interés será quien mejores resultados obtenga (que hablen de mi aunque sea mal).

Por último, los candidatos que no usan Twitter no están incluidos en este estudio. No puedo decir con ello que vayan a obtener buenos o malos resultados, sólo que los datos no pueden decir nada sobre ellos.

¿En qué basar una predicción?

Un primer indicador podría ser el número de seguidores. Los candidatos parten de situaciones muy diferentes, desde Reyes Montiel, que arrancaba la campaña con 6.500 seguidores, hasta varios otros que no tenían cuenta de Twitter y empezaron de cero durante la campaña, como por ejemplo Mateo Quirós, que ha llegado hasta 261. Ambos han “ganado” un número de seguidores similar durante la campaña.

De los 4 indicadores que saco de TweetBinder, descartaría el de “media de tweets por contribuyente”. Mide cuantos tweets de media ha publicado un contribuyente en particular en los que se mencione al candidato. Es un buen indicador para saber cual es la calidad de la interacción, y si el candidato está hablando solo o logra involucrar a la gente en los debates. Aunque puede ser muy útil para que un candidato ajuste su campaña, creo que no son tan indicativos respecto a los posibles votos. Por ejemplo, en la semana 1 Rafael Conde tuvo un gran número de menciones (927) pero una interacción baja (1.14). La explicación es que consiguió que un tweet suyo fuese muy retwiteado, pero sin entrar en debate. Un ejemplo diferente sería Carolina López, que en las semanas 5 y 6 tiene también muchas menciones (por encima de 900) pero una interacción muy alta (mayor de 9). En este caso se trata de discusiones muy animadas con mucha gente contestando muchas veces. Ambos casos pueden generar potenciales votantes, pero no tengo nada claro cómo medirlo.

Dado que el número de RTs va incluido en el número total de interacciones, me quedo finalmente con 3 indicadores: el número de seguidores,el número total de interacciones, y el número de contribuyentes.

Otro aspecto a considerar sería en qué marco temporal se hace la predicción. Los datos acumulan 8 semanas, pero las votaciones sólo se han realizado durante los últimos 9 días. Si la gente va decidiendo su voto con antelación, entonces será más relevante un marco temporal amplio. Eso repercutirá en un mejor resultado de quienes tienen el terreno más trabajado, como por ejemplo Inés López-Dóriga que tiene un impacto muy regular a lo largo de todo el estudio. Si el voto se decide en los últimos días, será más relevante saber cómo de frescos llegan los candidatos a la recta final. Por ejemplo, Hontanares Arranz sólo comienza a twittear a mitad del estudio, pero en la última semana ha tenido bastante impacto, escala puestos y se mete en el ajo.

Como ninguna opción parece dar la respuesta por sí misma, probablemente haya que hacer una mezcla entre todas. Los pesos relativos de cada apartado sólo los podremos saber una vez calibrada la balanza, es decir, después de tener los resultados.

Los resultados de las primarias del PVE son coherentes con el impacto en Twitter

Después de tantas limitaciones y problemas, aquí va un ejemplo de que este sistema podría funcionar. Justo tras conocerse los resultados de las primarias del PVE recogí los datos de los cuatro candidatos en Twitter. Fueron votados en este orden: Ska Keller, José Bové , Rebecca Harms y Mónica Frassoni.

Ska Keller

  • Votos: 11.791.
  • Impacto en Twitter: 1.316 menciones, 719 contribuyentes, 1,83 tweets/contribuyente, 787 RTs

José Bové 

  • Votos: 11.726
  • Impacto en Twitter: 1.252 menciones, 799 contribuyentes, 1,56 tweets/contribuyente, 803 RTs

Rebecca Harms

  • Votos: 8.170
  • Impacto en Twitter: 953 menciones, 591 contribuyentes, 1,61 tweets/contribuyente, 642 RTs

Monica Frassoni

  • Votos: 5.851, 573, 359, 1.59, 375
  • Impacto en Twitter: 573 menciones, 359 contribuyentes, 1,59 tweets/contribuyente, 375 RTs

En este caso se trata de interacciones únicamente durante la última semana (no tengo más datos). Resultan bastante aproximadas al resultado real, con el número de menciones imitando al resultado real, el de RT y contribuyentes un poco menos, y los tweets por persona indicando cosas diferentes, como habíamos visto antes. Hay que tener la precaución de que esto es un único dato y podría ser casualidad, pero parece prometedor.

Predicciones para las #primariasEQUO

Con todo lo anterior, intentaré basar una predicción para el resultado de la primera vuelta de las primarias en los datos recogidos sobre número de menciones, número de personas que contribuyen y número de seguidores, tanto para las últimas 2 semanas (durante las cuales se celebra la votación), como para el global del estudio.

ranking

 

Todos los datos en: “Impacto en Twitter de candidaturas #primariasEQUO“.

Ahí va por tanto una posible conclusión en función de los datos. De los dos hombres que pasarán a la segunda fase, hay dos que están arriba en todos los rankings, Florent Marcellesi, y Joan Groizard, y uno que ha ido creciendo durante la campaña, Guillermo Rodríguez. De las dos mujeres una sería con bastante seguridad Reyes Montiel, y el cuarto lugar sería o bien para Inés López-Dóriga o para Mónica Monteagudo.

¿Tendrá sentido todo esto que he dicho? Lo veremos mañana. Buenas noches, y buena suerte.

Actualización 01/02/14: ¡Bingo! Florent, Guillermo, Reyes e Inés pasan a segunda vuelta. Por la parte de encima de la lista parece que hay bastante correlación entre actividad en Twitter y resultados, mientras que por la parte de abajo, no tanta. Mientras me aclaro con los análisis que hay que hacer, aquí queda disponible el documento con los datos de la votación incorporados por si alguien quiere analizarlos estadísticamente.

7 comentarios en “¿Puede la actividad de Twitter de las candidatas predecir los resultados de las #primariasEQUO?

  1. inti suarez

    Hola Rafa

    Chevere tu analisis, es bueno hacer esas cosas e irle tomando el pulso a la herramienta. Hay un par de cosas que me pregunto. Por un lado, me gustaria hacer analisis de sensitividad a el tiempo de tus mediciones. Algo asi como que ver si las predicciones cambian al analizar todas las semanas, o la mitad o solo el ultimo dia. La pregunta es porque hay bastante investigacion que dice que el 50% de los votantes se decide el ultimo dia. Eso en elecciones entre varios partidos. Quizas elecciones internas sean diferentes… o no.

    Otra cosa que me llama la atencion de tus datos de Jose y de Ska. Jose es obviamente una persona con muchisimo mayor impacto internacional que Ska. Eso se ve en los RT: a Jose lo retweetean mas, pero a Ska la mencionan mas (logico, candidata joven con seguidores online). Esos numeros estan al reves de los votos. Quizas se pudiera decir que los nuevos candidatos son mas “interactuadores” que los tradicionales? Ahora bien, todo esto que digo esta basado en diferencias que parecen pequenhas. Chequeaste si son (estadisticamente) significativas?

    Y claro, para el consumo interno, seria interesante saber que candidatos manejan sus cuentas de twitter personalmente… o quienes tienen staff para ello 🙂

    saludos y gracias, I.

    Responder
    1. miquel

      Muy interesante el análisis, el resultado será interesante de por sí, pero ahora además me apetece ver qué tal resulta el análisis. Un abrazo

      Responder
    2. boronat Autor

      Hola Inti,
      Los datos de cada semana están ahí, creo que el análisis de sensitividad que propones se podría hacer (yo no se cómo hacerlo). No me he metido a hacer ningún análisis estadístico, pero tengo pensado hacerlo cuando estén los resultados. En el caso de los European Greens imagino que los que son eurodiputados (Bove, Harms y Keller) sí tengan staff, y Frassoni probablemente no. Y para EQUO creo que alguno tiene algún voluntario, pero por lo general son cuentas gestionadas por ellos mismos.

      Sobre la interacción, creo que el indicador adecuado sería el número de tweets por contribuyente, que medirían cuanto se enganchan los candidatos en una conversación, el “engagement”. Los números son bastante similares para todos los de la #greenPrimary, y tiene más pinta de que interactúan poco con el personal.

      Responder
  2. Candelaria I. Marrero Cruz

    Felicitarte Rafa por tu extraordinario estudio y balance de los resultados de las primarias. Es un aliento fresco para tod@s aquell@s que participamos en hacer de este proyecto otra forma de hacer política, reiniciando y reactivando modelos llenos de sueños y objetivos a favor del bien común.

    Responder
  3. Pedro Fresco (@PedroFresco)

    Hola Rafa,

    Estoy muy impresionado de la “currada” que te has dado con este estudio, que considero interesantísimo. Ver el resultado del PVE demuestra que es muy probable que aciertes (vamos, en dos vas a acertar seguro) y que la herramienta va a dar resultados muy buenos.

    Has comentado ya los posibles problemas del estudio pero me gustaría añadir algo más, incluso repitiendo algunas de tus percepciones.
    Creo que este estudio va a dar resultados muy exactos por la naturaleza de EQUO. EQUO es un partido pequeño, que se da a conocer principalmente por las redes sociales y por eso la influencia de éstas en sus resultados va a ser definitiva. El formato de primarias, abiertas y con votaciones e inscripción online, también ayuda a que sea así.
    Has hablado de que no te era posible (o no habías podido) medir la influencia en facebook. Para mi facebook es una red eminentemente menos política que twitter. Mucha gente separa twitter para temas o preocupaciones “políticas” y facebook para asuntos personales (yo lo hago así), e incluso evita hablar de política en facebook por distintas razones. Creo que eso hace que los resultados de twitter sean mucho más definitivos que los que hipotéticamente hubieses podido sacar de facebook, aunque mi intuición me dice que serían similares.

    La naturaleza parcialmente online de estas primarias y del propio EQUO hace que todos los miembros más importantes y conocidos del partido estén en las redes sociales. Has comentado muy acertadamente que la cantidad de seguidores preexistente de los candidatos más famosos les daba una ventaja, pero es que es la propia ventaja que tenían de entrada por ser más conocidos. Twitter es un reflejo de la realidad así que no creo que eso desnaturalice los resultados para nada.
    También hay candidatos que saben usar mejor twitter que otros. Florent, por ejemplo, siempre responde poniendo el punto delante del destinatario para que salga en el muro de todos sus seguidores. Eso hace que sea mucho más probable la interacción y el debate, y eso lleva a que tenga más presencia a pesar de tener menos seguidores, por ejemplo, que Reyes.

    Tampoco debemos olvidar, como tu has dejado caer, que estas son unas primarias “buenrollistas”, que todo el mundo se lleva bien y que nadie tiene especial animadversión a ningún candidato. Eso hace que todas las interacciones sean positivas y que realmente éstas demuestren el apoyo de un candidato.
    Si esto se hiciese en otro partido con gente con mala prensa o enemigos las cosas cambiarían radicalmente. Si en vez de Florent y Reyes las primarias fuesen entre Maria Dolores de Cospedal y Carlos Floriano podríamos asegurar que más de la mitad de interacciones serían burlas, insultos o ataques. En un caso así creo que resultaría muy difícil hacer lo mismo.

    Eso nos lleva al punto clave, que es que creo que esto sólo es válido para un partido como EQUO: Muy introducido en las redes sociales, sin mala prensa ni el partido ni sus candidatos y con un tamaño menor para que sean las redes casi el único punto de información.
    Si EQUO tuviese candidatos no introducidos en las redes no hubiésemos podido hacer el estudio. Si EQUO tuviese una masa de votantes de mediana-avanzada edad que no manejasen las redes sociales tampoco. Hay cosas que podemos medir gracias a la naturaleza propia de las circunstancias y eso lo has sabido ver muy bien.

    ¿Qué hubiese pasado, por ejemplo, si EQUO hubiese tenido un candidato sin twitter pero que fuese conocido por salir en las tertulias de La Sexta? Probablemente hubiese sacado un gran resultado pero hubiese salido el último en tu estudio.
    En ese caso creo que más que predecir el resultado este estudio hubiese valido para ver la influencia de twitter en los resultados, como un facilitador o corrector de voto, pero no como un oráculo que prácticamente nos dice quien va a ganar (yo tengo pocas dudas que Reyes y Florent serán los primeros de la lista).

    Espero haber enriquecido algo el debate con mi punto de vista, que por otro lado es bastante intuitivo y estoy convencido que te has planteado mientras hacías el estudio.

    Muchas felicidades por la “currada”.

    Saludos,

    Responder
    1. Rafa Font

      Gracias por tus comentarios, Pedro.

      Mientras escribías han salido los nombres de los 4 que pasan a segunda vuelta: Florent, Reyes, Guillermo e Inés (4 de los 6 que mi estudio había seleccionado).

      Creo que tu comentario sobre el uso personal de Facebook es muy acertado, yo de hecho tengo una cuenta diferente para mis interacciones personales y otra para las políticas. Pero aún así, los que se presentan a las primarias usan su faceta política (aunque sea el FB personal) y en época de campaña en especial, así que un análisis de FB creo que hubiese sido un buen complemento. Pero no se con qué herramienta se puede realizar. Aun así, creo que es importante resaltar las diferencias entre ambas redes sociales.

      ¿Y si hubiese un candidato sin Twitter? Yo creo que ese candidato conocido no tardaría en abrirse una cuenta de Twitter 🙂 De todas formas hay varios candidatos que no tienen Twitter y podremos ver hasta donde llegan en número de votos cuando estén los resultados definitivos.

      Ahora llega la segunda vuelta, agradezco sugerencias para nuevos análisis.

      Responder
  4. Pingback: ¿Puede la actividad de Twitter de las candidatas predecir los resultados de la segunda vuelta de las #primariasEQUO? | Rafa Font (eu)

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *