Sosyal Ağ Akışlarında Anomali Olaylarının Tespiti için Kelime Frekansı Tabanlı Bir Yöntem


Creative Commons License

Şeker A. , Diri B., Amasyalı M. F. , Biricik G.

2nd International Eurasian Conference on Science, Engineering and Technology (EurasianSciEnTech 2020), Gaziantep, Türkiye, 7 - 09 Ekim 2020, ss.540-545

  • Basıldığı Şehir: Gaziantep
  • Basıldığı Ülke: Türkiye
  • Sayfa Sayıları: ss.540-545

Özet

Son yıllarda, ülke gündemlerinin anlaşılmasında sosyal medya paylaşımlarının büyük bir katkısı bulunmaktadır. Ülke çapında ve yerel çapta yaşanan olaylar çok kısa bir sürede sosyal medyada gündem haline gelmektedir. Bunun yanında aslı olmayan, bir kısmını bot kullanıcıların da oluşturduğu gruplar tarafından yapay olaylar da üretilmektedir. Sıradan iletilerin dışında bu tarz olayların ortaya çıkması sosyal medya açısından anomali olarak nitelendirilebilir. Bu bağlamda anomalinin ortaya çıkarılması ile gündemde olan veya gündeme taşınmak istenen olaylar hakkında bazı çıkarımlar yapılabilir. Olayın tanımlanması, ne zaman/kimler tarafından başlatıldığı gibi çıkarımlar önemli olacaktır. Bu çalışmada Twitter platformundan 6 aylık bir veri toplama sürecinin ardından elde edilen bir twit veri kümesi (480K) üzerinde anomali olayları bulmak amaçlanmıştır. Bulunan anomali olaylardan; olay adı, kimler tarafından hangi zaman diliminde gündemde tutulduğu gibi bilgiler çıkarılmıştır. Uygulamada, çalışma zamanının hızlanması için ElasticSearch ve python vektörleştirme özelliği kullanılmıştır. Elde edilen olaylar ile ilgili tarihlerdeki gündemler karşılaştırıldığında, bazı anomali olayların tespit edildiği görülmüştür.

In recent years, social media posts have made a great contribution to understanding the agendas of countries. The events that country-wide or local scale are trend-topic on social media in a jiff. Besides, some untruth events are also generated by groups that some of them are bot users. Apart from ordinary posts, the emergence of such events can be considered as anomalies in terms of social media. In this context, with the extraction of the anomaly, some inferences can be made about the events that are on the agenda or want to be brought up to the agenda. The inferences, such as defining the event and when /who started it, will be important. In this study, it was aimed to find anomaly events on a tweet dataset (480K) obtained a six-month data collection process from the Twitter platform. We extracted some information about the anomalies such as the name of events, who was kept on the agenda in the time period, etc. In the application, we used ElasticSearch and python vectorization due to have faster running time. When we compared the agendas on related dates and the obtained events, we saw that most of the expected anomaly events were detected.