Mecanismos para la geolocalización de usuarios en Twitter
Resumen
En este documento se tratan los dos métodos principales descritos en la literatura académica sobre
la geolocalización en Twitter: el basado en el análisis de texto y el de análisis de las redes de usuarios.
Se profundiza en las técnicas que emplea cada uno de ellos, especialmente aquellas relacionadas con el
procesamiento del lenguaje natural, algoritmos de Machine-Learning y las relacionadas con el análisis
de grafos.
Posteriormente, se implementan en código Python los mecanismos necesarios para llevar a cabo
todo el proceso de geolocalización siguiendo algunos de los métodos descritos. Para lo cual, se
obtienen diversos conjuntos de tweets utilizando la API de Twitter y se almacenan en una base de
datos MongoDB. Seguidamente se lee la información relevante y se inicializan las estructuras de datos
que, tras su etapa de preprocesado, se utilizarán en los algoritmos de Machine-Learning o análisis de
grafos y que permitirán la clasificación de los mismos como pertenecientes a una localización u otra.
Aunque el código presentado no pretende competir en eficacia y exactitud con los métodos
descritos en la literatura académica, sí que nos permite obtener una visión completa de su
funcionamiento, permitiendo descender a los detalles de implementación como las librerías que se
precisan, las estructuras de datos, los parámetros que determinan el comportamiento de los algoritmos
de clasificación, las herramientas de visualización y presentación de resultados, etc. Obtendremos
gracias a ello las conclusiones de índole práctica relacionadas con los distintos mecanismos de
geolocalización y que permitan seleccionar el más adecuado en función de la utilidad final para la que
se emplee tal localización.