Preview

Труды учебных заведений связи

Расширенный поиск

Предобработка текстов электронных писем в задаче обнаружения спама

https://doi.org/10.31854/1813-324X-2020-6-4-80-90

Аннотация

Функционирование практически любой организации в той или иной степени зависит от того, насколько надежно защищены ее информационные ресурсы от различных угроз безопасности информации, одной из которых является спам. При этом было совершено множество попыток раз и навсегда решить проблему его обнаружения. В данной предметной области постоянно ведутся исследования. По их результатам предлагаются и реализуются на практике различные подходы. Ранее авторами предложена модель электронных писем, учитывающая содержание электронных писем, которое зачастую меняется в зависимости от выполняемых пользователями задач и меняющихся их информационных потребностей.В настоящей статье обсуждается вопрос предобработки текстов электронных писем в задаче обнаружения спама с использованием модели электронных писем, полученной на основе генетического подхода к формированию математических моделей текстов, зарекомендовавшего себя для решения различных задач.

Об авторах

С. В. Корелов
Национальный координационный центр по компьютерным инцидентам
Россия


А. М. Петров
Национальный координационный центр по компьютерным инцидентам
Россия


Л. Ю. Ротков
Национальный исследовательский Нижегородский государственный университет им. Н.И. Лобачевского
Россия


А. А. Горбунов
Национальный исследовательский Нижегородский государственный университет им. Н.И. Лобачевского
Россия


Список литературы

1. Email Statistics Report, 2016-2020 // The Radicati Group. URL: https://www.radicati.com/?p=13546(дата обращения 25.11.2020)

2. Вергелис М., Щербакова Т., Сидорина Т. Спам и фишинг в 2018 году // Securelist. URL: https://securelist.ru/spam-and-phishing-in-2018/93453 (дата обращения 17.09.2019)

3. Вергелис М., Щербакова Т., Сидорина Т., Куликова Т. Спам и фишинг в 2019 году // Securelist. URL: https://securelist.ru/spam-report-2019/95727 (дата обращения 29.10.2020)

4. Barushka, A., Hajek, P. Spam Filtering Using Integrated Distribution-Based Balancing Approach and Regularized Deep Neural Networks // Applied Intelligence. 2018. Vol. 48. PP. 3538-3556. DOI:10.1007/s10489-018-1161-y

5. Bhattacharya P., Singh A. E-mail Spam Filtering using Genetic Algorithm based on Probabilistic Weights and Words Count // International Journal of Integrated Engineering. 2020. Vol. 12. No. 1. PP. 40-49. DOI:10.30880/ijie.2020.12.01.004

6. Bibi A., Latif R., Khalid S., Ahmed W., Shabir R.A., Ansari M., et al. Spam Mail Scanning Using Machine Learning Algorithm // Journal of Computers. 2020. Vol. 15. No. 2. PP. 73-84. DOI:10.17706/jcp.15.2.73-84

7. Abdulhamid Sh.M., Shuaib M., Osho O., Ismaila I., Alhassan J.K. Comparative Analysis of Classification Algorithms for Email Spam Detection // International Journal of Computer Network and Information Security (IJCNIS). 2018. Vol. 10. No. 1. PP. 60-67. DOI:10.5815/ijcnis.2018.01.07

8. Radhakrishnan A., Vaidhehi V. Email Classification Using Machine Learning Algorithms // International Journal of Engineering and Technology (IJET). 2017. Vol. 9. No. 2. PP. 335-340. DOI:10.21817/ijet/2017/v9i1/170902310

9. Rusland N., Wahid N., Kasim Sh., Hafit H. Analysis of Naïve Bayes Algorithm for Email Spam Filtering across Multiple Datasets // Proceedings of International Research and Innovation Summit (IRIS2017, Melaka, Malaysia, 6-7 May 2017). IOP Conference Series: Materials Science and Engineering. Bristol: IOP Publishing, 2017. Vol. 226. DOI:10.1088/1757-899X/226/1/012091

10. Verma T., Gill N.S. Email Spams via Text Mining using Machine Learning Techniques // International Journal of Innovative Technology and Exploring Engineering (IJITEE). 2020. Vol. 9. No. 4. PP. 2535-2539. DOI:10.35940/ijitee.D1915.029420

11. Корелов С.В., Петров А.М., Ротков Л.Ю., Горбунов А.А. Модель электронных писем в задаче обнаружения спама // Вестник Поволжского государственного технологического университета. Серия: Радиотехнические и инфокоммуникационные системы. 2020. № 2(46). С. 44-54. DOI:10.25686/2306-2819.2020.2.44

12. Androutsopoulos I., Paliouras G., Michelakis E. Learning to Filter Unsolicited CommercialE-Mail // NCSR «Demokritos». Tech. Report number: 2004/2. 2004.

13. Sharaff A., Nagwani N., Dhadse A. Comparative Study of Classification Algorithms for Spam Email Detection // Shetty N., Prasad N., Nalini N. (eds) Emerging Research in Computing, Information, Communication and Applications. New Delhi: Springer, 2016. PP. 237-244. DOI:10.1007/978-81-322-2553-9_23

14. Androutsopoulos I., Koutsias J., Chandrinos K., Spyropoulos C. An Experimental Comparison of Naive Bayesian and Keyword-Based Anti-Spam Filtering with Personal E-Mail Messages // Proceedings of the 23rd annual international ACM SIGIR conference on Research and development in information retrieval (SIGIR’00, Athens, Greece, 24-28 July 2000). New York: Association for Computing Machinery, 2000. PP. 160-167. DOI:10.1145/345508.345569

15. Metsis V., Androutsopoulos I., Paliouras G. Spam Filtering with Naive Bayes - Which Naive Bayes? // Proceedings of the 3rd Conference on Email and Anti-Spam (CEAS 2006, Mountain View, USA, 27-28 July 2006). 2006. PP. 28-69.

16. Visani Ch., Jadeja N., Modi M. A Study on Different Machine Learning Techniques for Spam Review Detection // Proceedings of the International Conference on Energy, Communication, Data Analytics and Soft Computing (ICECDS, Chennai, India, 1-2 August 2017). IEEE, 2017. PP. 676-679. DOI:10.1109/ICECDS.2017.8389522

17. Carreras X., Marquez L. Boosting Trees for Anti-Spam Email Filtering // Proceedings of the 4th International Conference on Recent Advances in Natural Language Processing (RANLP, 5-7 September 2001). 2001. PP. 58-64.

18. Sheu JJ., Chen YK., Chu KT., Tang JH., Yang WP. An Intelligent Three-Phase Spam Filtering Method Based on Decision Tree Data Mining // Security and Communication Networks. 2016. Vol. 9. No. 17. PP. 4013-4026. DOI:10.1002/sec.1584

19. Drucker H., Wu D., Vapnik V. Support Vector Machine for Spam Categorization // IEEE Transactions on Neural Networks. 1999. Vol. 10. No. 5. PP. 1048-1054. DOI:10.1109/72.788645

20. Jiang S., Pang G., Wu M., Kuang L. An Improved k-Nearest-Neighbor Algorithm for Text Categorization // Expert System with Applications. 2012. Vol. 39. No. 1. PP. 1503-1509. DOI:10.1016/j.eswa.2011.08.040

21. Yue X., Abraham A., Chi ZX., Hao YY., Mo H. Artificial Immune System Inspired Behavior-Based Anti-Spam Filter // Soft Computing. 2007. Vol. 11. PP. 729-740. DOI:10.1007/s00500-006-0116-0

22. Малыхина М.П., Частикова В.А., Биктимиров А.А. Методика обнаружения спама на основе искусственных иммунных систем // Вестник Астраханского государственного технического университета. Серия: Управление, вычислительная техника и информатика. 2018. № 3. С. 38-48. DOI:10.24143/2072-9502-2018-3-38-48

23. Clark J., Koprinska I., Poon J. A Neural Network Based Approach to Automated Email Classification // Proceedings of the IEEE/WIC International Conference on Web Intelligence (WI 2003, Halifax, Canada, 13-17 October 2003). IEEE, 2003. PP. 702-705. DOI:10.1109/WI.2003.1241300

24. Катасёв А.С., Катасёва Д.В., Кирпичников А.П. Нейросетевая технология классификации электронных почтовых сообщений // Вестник технологического университета. 2015. Т. 18. № 5. С. 180-183.

25. Катасёв А.С., Катасёва Д.В., Кирпичников А.П., Семёнов Я.Е. Спам-фильтрация электронных почтовых сообщений на основе нейросетевой и нейронечеткой моделей // Вестник технологического университета. 2015. Т. 18. № 15. С. 217-221.

26. Катасёв А.С., Катасёва Д.В. Разработка нейросетевой системы классификации электронных почтовых сообщений // Вестник Казанского государственного энергетического университета. 2015. № 1(25). С. 68-78.

27. Ларионова А.В., Хорев П.Б. Метод фильтрации спама на основе искусственной нейронной сети // Науковедение. 2016. Т. 8. № 3. URL: http://naukovedenie.ru/PDF/04TVN316.pdf (дата обращения 26.11.2020)

28. Ларионова А.В., Хорев П.Б. Оценка эффективности метода фильтрации спама на основе искусственной нейронной сети // Науковедение. 2016. Т. 8. № 2. DOI:10.15862/134TVN216

29. Hussain N., Turab Mirza H., Rasool G., Hussain I., Kaleem M. Spam Review Detection Techniques: A Systematic Literature Review // Applied Sciences. 2019. Vol. 9. No. 5. PP. 1-26. DOI:10.3390/app9050987

30. Корелов С.В., Петров А.М., Ротков Л.Ю., Горбунов А.А. К вопросу об определении численного значения параметра в модели электронных писем // Труды XXIV научной конференции по радиофизике, посвященной 75-летию радиофизического факультета (Нижний Новгород, Российская Федерация, 13-31 мая 2020). Нижний Новгород: ННГУ, 2020. С. 471-474. URL: http://www.rf.unn.ru/wp-content/uploads/sites/21/2020/10/rf-conf-2020-book-1.pdf (дата обращения 26.11.2020)

31. Климов Д.В. Предобработка текстовых сообщений для метрического классификатора // Символ науки. 2017. № 12. C. 25-32.

32. Haddi E., Liu X., Shi Y. The Role of Text Pre-processing in Sentiment Analysis // Procedia Computer Science. 2013. Vol. 17. PP. 26-32. DOI:10.1016/j.procs.2013.05.005

33. Devaraj S., Krishnakumar A. Effective Search Engine Spam Classification // International Journal of Recent Technology and Engineering (IJRTE). 2019. Vol. 8. No. 2S8. PP. 1541-1545. DOI:10.35940/ijrte.B1100.0882S819

34. HaCohen-Kerner Y., Miller D., Yigal Y. The influence of preprocessing on text classification using a bag-of-words representation // PLoS ONE. 2020. Vol. 15(5): e0232525. DOI:10.1371/journal.pone.0232525

35. Vijayarani S., Ilamathi J., Nithya M. Preprocessing Techniques for Text Mining - An Overview // International Journal of Computer Science & Communication Networks. 2015. Vol. 5. No. 1. PP. 7-16.

36. Weng J. NLP Text Preprocessing: A Practical Guide and Template. URL: https://towardsdatascience.com/nlp-text-preprocessing-a-practical-guide-and-template-d80874676e79 (дата обращения 14.07.2020)

37. Uysal A., Gunal S. The Impact of Preprocessing on Text Classification // Information Processing & Management. 2014. Vol. 50. No. 1. PP. 104-112. DOI:10.1016/j.ipm.2013.08.006

38. Enron-Spam datasets. URL: http://www2.aueb.gr/users/ion/data/enron-spam (дата обращения 26.11.2020)

39. Sebastiani F. Machine Learning in Automated Text Categorization // ACM Computing Surveys. 2002. Vol. 34. No. 1. PP. 1-47. DOI:10.1145/505282.505283

40. Sebastiani F. Text Categorization // Zanasi A. (ed.). Text Mining and its Applications. Southampton: WIT Press, 2005. PP. 109-129.

41. Aas K., Eikvil L. Text Categorisation: A Survey // Norwegian Computing Center. Tech. Report number: 941, 1999.

42. Manning C., Raghavan P., Shütze H. Introduction to Information Retrieval. Cambridge: Cambridge University Press, 2008. DOI:10.1017/CBO9780511809071

43. Sokolova M., Lapalme G. A Systematic Analysis of Performance Measures for Classification Tasks // Information Processing & Management. 2009. Vol. 45. Iss. 4. PP. 427-437. DOI:10.1016/j.ipm.2009.03.002

44. Мироненко А.Н. Алгоритм контентной фильтрации спама на базе совмещения метода опорных векторов и нейронных сетей. Автореферат дис. … канд. техн. наук. Санкт-Петербург, 2012. 18 с.

45. Чернопрудова Е.Н. Защита почтовых сервисов от несанкционированных рассылок на основе контентной фильтрации электронных сообщений. Автореферат дис. … канд. техн. наук. Уфа, 2013. 16 с.


Рецензия

Для цитирования:


Корелов С.В., Петров А.М., Ротков Л.Ю., Горбунов А.А. Предобработка текстов электронных писем в задаче обнаружения спама. Труды учебных заведений связи. 2020;6(4):80-90. https://doi.org/10.31854/1813-324X-2020-6-4-80-90

For citation:


Korelov S..., Petrov A..., Rotkov L..., Gorbunov A... Preprocessing of the Emails in the Spam Detection Task. Proceedings of Telecommunication Universities. 2020;6(4):80-90. (In Russ.) https://doi.org/10.31854/1813-324X-2020-6-4-80-90

Просмотров: 2226


Creative Commons License
Контент доступен под лицензией Creative Commons Attribution 4.0 License.


ISSN 1813-324X (Print)
ISSN 2712-8830 (Online)