logo

Ciencia de datos para campañas electorales


Por Dalia Patiño González

Puebla. Puebla. 18 de julio de 2018 (Agencia Informativa Conacyt).- Cada minuto se generan millones de datos e información a través de distintas plataformas virtuales. En México, lo que más consultan los usuarios son las redes sociales, siendo Facebook el más utilizado, seguido de WhatsApp, YouTube, Instagram y Twitter, de acuerdo con el estudio “Hábitos de los usuarios en Internet en México 2018” de la Asociación de Internet Mx.

800X300_Vot_elec-1807.jpg

El texto revela que los mexicanos ocupan hasta 40 por ciento de su tiempo al día en consultar o interactuar en las redes sociales. El total de usuarios en México ascendía hasta 2017 a 79 millones de internautas, lo que equivale un incremento de 295 por ciento en el periodo de 2006 a 2017.

Con un panorama en el que más de 60 por ciento de la población del país de diferentes edades genera y requiere información constante, el usuario de Internet se convierte en la materia prima de lo que se conoce como la ciencia de datos o big data, que analiza grandes volúmenes de información para que a través de software y algoritmos genere información útil para diferentes sectores como el comercial o público.

Para el doctor Jorge Luis Coronel Fuentes, académico e investigador del Instituto Tecnológico y de Estudios Superiores de Monterrey (ITESM), campus Puebla, la ciencia de datos tiene múltiples aplicaciones y, a nivel de mercado y aplicada a empresas y corporaciones, representa una herramienta útil para reflejar las opiniones y necesidades del usuario o cliente potencial.

Ciencia de datos para todo

El maestro Jorge Luis Coronel aclaró en entrevista para la Agencia Informativa Conacyt que la ciencia de datos emplea diferentes metodologías de análisis dependiendo de las necesidades que se tengan, ya que no puede analizarse de la misma forma una estrategia comercial que el impacto o penetración de una campaña electoral.

“No es lo mismo la ciencia de datos aplicada a una campaña que en una empresa que ofrece otro tipo de servicios. El manejo de datos es diferente y hay que ser muy cuidadoso. Por ejemplo, si una empresa tiene una marca y la quiere dar a conocer, la estrategia se apunta a lo que se conoce como reputación en línea, es decir, crear la marca y lograr que la gente la conozca, la recuerde y se vaya posicionando; en el caso de candidatos a elección popular, las necesidades y estrategias son otras”.

21Dra-Lorna-Verónica-Rosas.jpgDoctora Lorna Verónica Rosas.Para la doctora Lorna Verónica Rosas Téllez, profesora de la Facultad de Tecnologías de Información de la Universidad Popular Autónoma del Estado de Puebla (UPAEP), la ciencia de datos está presente en las principales empresas del mundo para hacer más eficientes sus procesos y mantener presencia en los mercados, de ahí la importancia de formar perfiles de profesionales expertos en análisis y manejo de datos en plataformas virtuales.

“Se calcula que cada minuto se envían 204 millones de emails, 47 mil aplicaciones se descargan en los dispositivos móviles y se dan 277 mil interacciones en Facebook, lo que genera no solo una actividad incesante en estas plataformas sino también grandes cantidades de información y datos. ¿Qué hacer con toda esta información?, lo que se requiere es un científico que haga uso de estos datos y genere conocimiento útil en beneficio de las empresas para poder diseñar estrategias, predecir eventos, analizar riesgos en empresas, aeropuertos, etcétera, eso es la ciencia de datos, se puede utilizar en cualquier ámbito del conocimiento, sea medicina, mercadotecnia pero también en procesos electorales”.

La doctora Lorna Verónica Rosas destacó que en el mercado en general, así como en los gobiernos o procesos electorales, la estrategia principal en la ciencia de datos radica en la obtención de información sin necesidad de recurrir a encuestas, ya que son las mismas audiencias quienes revelan sus gustos y preferencias a través de los datos que proporcionan en las redes sociales, lo que facilita saber quiénes son, qué piensan, con quién se relacionan y qué es lo que necesitan.

El uso de datos personales

Sobre el uso de datos e información “personal”, el doctor Vittorio Zanella Palacios, profesor de la Facultad de Tecnologías de Información de la UPAEP, apuntó que cuando no se hace un uso correcto de estas herramientas tecnológicas, se presentan casos como el de Cambridge Analytica, es decir, un uso indebido de datos a los que no tienes permiso de acceder.

Prof_FB_1807.jpg

“La ciencia de datos es una herramienta valiosa, pero se debe manejar con ética y responsabilidad para dar resultados positivos para las empresas en el campo de la informática, redes sociales e Internet”, declaró en entrevista para la Agencia Informativa Conacyt.

Vittorio Zanella añadió que en el caso de México la ciencia de datos empezó a crecer cuando la gente comenzó a utilizar cada vez más las redes sociales, que es el sitio donde colocan su información.

“La ciencia de datos empezó a ser importante cuando crecieron los sitios de redes sociales, donde la gente proporciona información generalmente sin darse cuenta, porque casi nadie lee las letras pequeñas que se emiten en mensajes de términos y condiciones de uso. Por ejemplo, cuando aceptamos encuestas para acceder a juegos gratis, damos información sobre qué nos gusta, qué leemos, dónde vivimos, nuestro correo, etcétera, el punto es que las empresas no incurren en ilegalidad porque el usuario aceptó dar esos datos”.

La hipersegmentación

Pero ¿qué sucede cuando ya se tiene toda esa información de fácil acceso, cómo emitir un mensaje adecuado en audiencias dispares, con condiciones sociales y económicas diferentes? A este fenómeno, explica el maestro Jorge Luis Coronel, se le conoce como hipersegmentación, y tanto en el plano comercial como electoral representa un reto emitir el mensaje adecuado y focalizado.

“Con los medios digitales, la hipersegmentación nos dice que las audiencias son más dispersas, reunidas como grupo o comunidad social, en la que la edad, el género o la ubicación geográfica no interviene tanto, sino más bien el factor común son los gustos, esto significa que se hacen grupos más reducidos en cuanto a cantidad, más dispersos y por lo tanto hay una gran diversidad”.

Ante este escenario, advirtió el académico, la hipersegmentación se convierte en un reto para los comunicólogos y mercadólogos porque significa crear más contenidos, más formatos en canales distintos con estrategias diferentes para que el mensaje, que muchas veces es el mismo, pueda llegar a grupos muy específicos, lo que complica lograr la eficiencia.

De igual forma, mencionó que los formatos también son un punto a considerar al momento de generar contenidos. Por ejemplo en los links, si remite al usuario a un texto extenso, se suele perder su atención en los primeros segundos, lo mismo sucede con los videos, los cuales, aseguró, suelen captar la atención en los primeros tres segundos, de lo contrario se pierde al espectador.

“El reto es encontrar la audiencia adecuada, el mensaje adecuado y el formato idóneo para poder permear. A esto hay que añadir y tomar muy en cuenta que por lo menos en el caso de las elecciones, la historia personal y la reputación de los personajes que participan en la contienda está teniendo mucho peso”, refirió el maestro Jorge Luis Coronel.

Análisis de audiencias en el proceso electoral

Para conocer cuál era la percepción de la sociedad mexicana con respecto a las elecciones de 2018, el maestro Jorge Luis Coronel desarrolló una investigación titulada “Análisis de sentimiento de la sociedad a través de twitters respecto a los candidatos a la presidencia en las elecciones 2018”. El estudio, aclaró el académico, no analiza las tendencias del voto o las mejores propuestas, sino a la audiencia, qué dice la gente sobre lo que generan los candidatos en una plataforma de red social como Twitter.

El académico aclaró que este trabajo no revelaría quién ganaría la elección porque los seguidores en línea no significan necesariamente un voto directo a determinado candidato, de ahí que la actividad en redes sociales no defina elecciones.

fakeNews_187-clis-m.jpg“Hacemos análisis de la percepción, qué sienten los tuiteros, qué expresan y con qué relacionan a los candidatos. Esto no nos va a decir quién puede ganar la elección, tampoco quién tiene los votantes porque todos los que siguen en línea o en las redes sociales a un determinado candidato no significa que van a votar por ellos, por eso nos enfocamos en este estudio en cómo ven las personas a los candidatos, qué perciben o si los usuarios del Twitter tienen un juicio crítico para detectar información falsa, conocida como fake news (noticias falsas)”.

Para llevar a cabo el estudio se analizaron los últimos veinte días del mes de mayo y se concentraron cinco mil 600 tuits siguiendo la etiqueta (hashtag) #elecciones2018. En un primer análisis, explicó el doctor Jorge Luis Coronel, se determinó que el rango de 18 a 20 por ciento de los tuits se relacionaba con información positiva respecto a los candidatos y solo cinco por ciento era neutral, mientras que el resto era información negativa. Esto, aseguró el académico, demostró que la tendencia fue hacia la denostación y no a la evaluación de las propuestas.

“Lo que notamos es que la gente expresa en su mayoría sentimientos de hartazgo, de desconfianza y no se están usando (redes sociales) como una herramienta para generar conversación, ni siquiera las estrategias de los propios candidatos están orientando sus recursos hacia ese sentido, sino más bien hacia la polarización, relacionada también con la hipersegmentación”.

Análisis de sentimientos en redes sociales

En cuanto a la metodología, Jorge Luis Coronel detalló que fueron empleados los 10 hashtags más populares y la investigación fue divida en tres etapas. Primero se hizo un monitoreo de la actividad de los personajes más destacados que aspiraban a una candidatura a la presidencia, atendiendo a interrogantes como: quién habla de ellos, qué es lo que se hablaba, con qué frecuencia. Para el análisis de sentimientos, se utilizaron herramientas digitales y un software que permite descargar y ordenar la información a partir de un algoritmo programado en Python.

“Nosotros desarrollamos un algoritmo que lo que hace es clasificar todos los tuits a través de un diccionario que nosotros alimentamos, es decir, a qué hora se publicó, quién lo hizo, qué se dijo, además de verificar si hubo retuits. Estos se clasifican en positivos, negativos y neutrales. Digamos que la herramienta o el algoritmo lo clasifica partiendo de un diccionario que nosotros creamos”.

El investigador explicó que al crear el diccionario, a través de un dictado de palabras se establecen relaciones con palabras clasificadas como positivas, negativas, para posteriormente darle sinónimos.

“Le damos sinónimos para que el algoritmo entienda por ejemplo que inteligente es sinónimo de preparado, eficaz, etcétera, y al darles sinónimos va realizando esa clasificación”.

Este trabajo, realizado con apoyo de cuatro estudiantes del ITESM, quienes de manera cualitativa realizaban segundas revisiones a la información que descargaban de todo lo publicado, basados en el hashtag #Elecciones2018, representa la primera etapa de la investigación que arrojó frecuencias y porcentajes.

300Jorge-Coronel-2.jpg

Mtro. Jorge Luis Coronel Fuentes

Consultor, investigador y profesor de tiempo completo de la Escuela de Negocios del Tecnológico de Monterrey, campus Puebla. Licenciado en comunicación por la Universidad Autónoma de Aguascalientes, con maestría en comunicación y producción audiovisual por el Tec de Monterrey, campus Monterrey, maestría en mercadotecnia digital por la Universidad Antonio de Nebrija, especialidad en mercadotecnia internacional por el IEB (Instituto de Estudios Bursátiles de Madrid) y doctorando en desarrollo de proyectos de base tecnológica en el Centro Panamericano de Estudios Superiores. 

Esta dirección de correo electrónico está siendo protegida contra los robots de spam. Necesita tener JavaScript habilitado para poder verlo.

Posteriormente, en un segundo periodo y ya que se determinaron los candidatos de forma oficial, el análisis se apoyó en herramientas digitales enfocadas en el análisis cualitativo como Mention Map que sirve para establecer conexiones de conversación o Social Page que funciona para saber cuántas de esas personas que conversan sobre los candidatos o los siguen son reales o son bots.

El académico mencionó que en el caso de los debates se hicieron conteos especiales, porque se generó otro tipo de conversaciones que generaron otro tipo de interacción.

“En el debate descubrimos, por ejemplo, que algo que generaba mucho más acción de conversación, sobre todo en Twitter fueron las encuestas y estas encuestas no necesariamente eran realizadas por organismos oficiales o casas encuestadoras, sino por politólogos, comunicadores o incluso empresarios, quienes lanzaban preguntas o realizaban cuestionamientos sobre el debate a las audiencias, en este sentido te puedo referir que de las que registramos, la menos popular tuvo 88 mil participaciones”.

La tercera etapa de este ejercicio académico, indicó el investigador del ITESM, fue durante el día de las votaciones hasta que se dieron los resultados oficiales de los ganadores de las elecciones.

“La idea fue obtener una fotografía mucho más completa de qué se mencionó como relevante, quién tuvo más frecuencias de aparición, en qué orden, para encontrar no solo variables sino cambios en el comportamiento y en los sentimientos que pudo tener la audiencia”.

En cuanto a los resultados previos, el investigador Jorge Luis Coronel refirió que para mal o para bien el candidato Andrés Manuel López Obrador generó más conversación en redes sociales, seguido de Ricardo Anaya y José Antonio Meade.

Jorge Luis Coronel aseguró que a reserva del análisis posterior a la jornada electoral, se puede determinar que los candidatos tuvieron un respaldo en redes sociales basado en percepciones no necesariamente reales, además de otros factores que también intervienen como la historia de cada candidato o de su partido. El problema para el académico es que la interacción generada en el caso del Twitter no dio pie a conversaciones o crítica sustentada sino más bien a la polarización de opiniones.

Para el investigador del ITESM, el uso de la ciencia de datos sí da conocimiento pero en México aún está en proceso de reconocerse y emplearse con todo su potencial a pesar de la influencia que puede tener en los usuarios, sobre todo como herramienta para encontrar tendencias y volverse predictivo, en el caso de un proceso electoral. 


Sistemas como Narval, Orca o Gordon fueron desarrollados por los científicos de ciencia de datos que participaron en las campañas a la presidencia de Estados Unidos y cada uno fue creado para atender los objetivos específicos de cada candidato.

 

 

 

 

 



image icon01Descargar fotografías.

pdf iconVer texto en pdf.

 

Licencia de Creative Commons
Esta obra cuyo autor es Agencia Informativa Conacyt está bajo una licencia de Reconocimiento 4.0 Internacional de Creative Commons.

Agencia Informativa Conacyt

 

Algunos derechos reservados 2015 ®
Ciencia MX
Conoce nuestras políticas de privacidad
logotipo

México, CDMX


 

Search Mobile