Que se utilicen los trending topic o temas más populares de Twitter para difundircontenido "basura" (spam) se ha convertido en una práctica bastante habitual. Para solventarlo, investigadores de la Universidad Nacional de Educación a Distancia (UNED)desarrollaron un método estadístico que permite detectar el contenido basura en esta conocida plataforma de microblogging. Para demostrar su eficacia, analizaron 20 millones de mensajes, 34.000 trending topics y seis millones de direcciones webs.
Los secretos para detectar contenido basura en Twitter
Muchos de ellos se camuflan bajo los famosos "trending topic" y "hashtags".
Los modelos del lenguaje utilizados por los investigadores son herramientas estadísticas que definen la estructura del lenguaje y que resultan muy útiles en aplicaciones con una sintaxis o semántica compleja, como ocurre con Twitter. Puesto que los trending topics tratan temas concretos, los investigadores han construido un modelo con los mensajes que se refieren a ese tema. De esta forma, podemos detectar aquellos nuevos mensajes que no se correspondan con ese modelo y, por tanto, sean spam, asegura Lourdes Araujo,coautora del estudio.