Предобработка текстов электронных писем в задаче обнаружения спама
https://doi.org/10.31854/1813-324X-2020-6-4-80-90
Аннотация
Об авторах
С. В. КореловРоссия
А. М. Петров
Россия
Л. Ю. Ротков
Россия
А. А. Горбунов
Россия
Список литературы
1. Email Statistics Report, 2016-2020 // The Radicati Group. URL: https://www.radicati.com/?p=13546(дата обращения 25.11.2020)
2. Вергелис М., Щербакова Т., Сидорина Т. Спам и фишинг в 2018 году // Securelist. URL: https://securelist.ru/spam-and-phishing-in-2018/93453 (дата обращения 17.09.2019)
3. Вергелис М., Щербакова Т., Сидорина Т., Куликова Т. Спам и фишинг в 2019 году // Securelist. URL: https://securelist.ru/spam-report-2019/95727 (дата обращения 29.10.2020)
4. Barushka, A., Hajek, P. Spam Filtering Using Integrated Distribution-Based Balancing Approach and Regularized Deep Neural Networks // Applied Intelligence. 2018. Vol. 48. PP. 3538-3556. DOI:10.1007/s10489-018-1161-y
5. Bhattacharya P., Singh A. E-mail Spam Filtering using Genetic Algorithm based on Probabilistic Weights and Words Count // International Journal of Integrated Engineering. 2020. Vol. 12. No. 1. PP. 40-49. DOI:10.30880/ijie.2020.12.01.004
6. Bibi A., Latif R., Khalid S., Ahmed W., Shabir R.A., Ansari M., et al. Spam Mail Scanning Using Machine Learning Algorithm // Journal of Computers. 2020. Vol. 15. No. 2. PP. 73-84. DOI:10.17706/jcp.15.2.73-84
7. Abdulhamid Sh.M., Shuaib M., Osho O., Ismaila I., Alhassan J.K. Comparative Analysis of Classification Algorithms for Email Spam Detection // International Journal of Computer Network and Information Security (IJCNIS). 2018. Vol. 10. No. 1. PP. 60-67. DOI:10.5815/ijcnis.2018.01.07
8. Radhakrishnan A., Vaidhehi V. Email Classification Using Machine Learning Algorithms // International Journal of Engineering and Technology (IJET). 2017. Vol. 9. No. 2. PP. 335-340. DOI:10.21817/ijet/2017/v9i1/170902310
9. Rusland N., Wahid N., Kasim Sh., Hafit H. Analysis of Naïve Bayes Algorithm for Email Spam Filtering across Multiple Datasets // Proceedings of International Research and Innovation Summit (IRIS2017, Melaka, Malaysia, 6-7 May 2017). IOP Conference Series: Materials Science and Engineering. Bristol: IOP Publishing, 2017. Vol. 226. DOI:10.1088/1757-899X/226/1/012091
10. Verma T., Gill N.S. Email Spams via Text Mining using Machine Learning Techniques // International Journal of Innovative Technology and Exploring Engineering (IJITEE). 2020. Vol. 9. No. 4. PP. 2535-2539. DOI:10.35940/ijitee.D1915.029420
11. Корелов С.В., Петров А.М., Ротков Л.Ю., Горбунов А.А. Модель электронных писем в задаче обнаружения спама // Вестник Поволжского государственного технологического университета. Серия: Радиотехнические и инфокоммуникационные системы. 2020. № 2(46). С. 44-54. DOI:10.25686/2306-2819.2020.2.44
12. Androutsopoulos I., Paliouras G., Michelakis E. Learning to Filter Unsolicited CommercialE-Mail // NCSR «Demokritos». Tech. Report number: 2004/2. 2004.
13. Sharaff A., Nagwani N., Dhadse A. Comparative Study of Classification Algorithms for Spam Email Detection // Shetty N., Prasad N., Nalini N. (eds) Emerging Research in Computing, Information, Communication and Applications. New Delhi: Springer, 2016. PP. 237-244. DOI:10.1007/978-81-322-2553-9_23
14. Androutsopoulos I., Koutsias J., Chandrinos K., Spyropoulos C. An Experimental Comparison of Naive Bayesian and Keyword-Based Anti-Spam Filtering with Personal E-Mail Messages // Proceedings of the 23rd annual international ACM SIGIR conference on Research and development in information retrieval (SIGIR’00, Athens, Greece, 24-28 July 2000). New York: Association for Computing Machinery, 2000. PP. 160-167. DOI:10.1145/345508.345569
15. Metsis V., Androutsopoulos I., Paliouras G. Spam Filtering with Naive Bayes - Which Naive Bayes? // Proceedings of the 3rd Conference on Email and Anti-Spam (CEAS 2006, Mountain View, USA, 27-28 July 2006). 2006. PP. 28-69.
16. Visani Ch., Jadeja N., Modi M. A Study on Different Machine Learning Techniques for Spam Review Detection // Proceedings of the International Conference on Energy, Communication, Data Analytics and Soft Computing (ICECDS, Chennai, India, 1-2 August 2017). IEEE, 2017. PP. 676-679. DOI:10.1109/ICECDS.2017.8389522
17. Carreras X., Marquez L. Boosting Trees for Anti-Spam Email Filtering // Proceedings of the 4th International Conference on Recent Advances in Natural Language Processing (RANLP, 5-7 September 2001). 2001. PP. 58-64.
18. Sheu JJ., Chen YK., Chu KT., Tang JH., Yang WP. An Intelligent Three-Phase Spam Filtering Method Based on Decision Tree Data Mining // Security and Communication Networks. 2016. Vol. 9. No. 17. PP. 4013-4026. DOI:10.1002/sec.1584
19. Drucker H., Wu D., Vapnik V. Support Vector Machine for Spam Categorization // IEEE Transactions on Neural Networks. 1999. Vol. 10. No. 5. PP. 1048-1054. DOI:10.1109/72.788645
20. Jiang S., Pang G., Wu M., Kuang L. An Improved k-Nearest-Neighbor Algorithm for Text Categorization // Expert System with Applications. 2012. Vol. 39. No. 1. PP. 1503-1509. DOI:10.1016/j.eswa.2011.08.040
21. Yue X., Abraham A., Chi ZX., Hao YY., Mo H. Artificial Immune System Inspired Behavior-Based Anti-Spam Filter // Soft Computing. 2007. Vol. 11. PP. 729-740. DOI:10.1007/s00500-006-0116-0
22. Малыхина М.П., Частикова В.А., Биктимиров А.А. Методика обнаружения спама на основе искусственных иммунных систем // Вестник Астраханского государственного технического университета. Серия: Управление, вычислительная техника и информатика. 2018. № 3. С. 38-48. DOI:10.24143/2072-9502-2018-3-38-48
23. Clark J., Koprinska I., Poon J. A Neural Network Based Approach to Automated Email Classification // Proceedings of the IEEE/WIC International Conference on Web Intelligence (WI 2003, Halifax, Canada, 13-17 October 2003). IEEE, 2003. PP. 702-705. DOI:10.1109/WI.2003.1241300
24. Катасёв А.С., Катасёва Д.В., Кирпичников А.П. Нейросетевая технология классификации электронных почтовых сообщений // Вестник технологического университета. 2015. Т. 18. № 5. С. 180-183.
25. Катасёв А.С., Катасёва Д.В., Кирпичников А.П., Семёнов Я.Е. Спам-фильтрация электронных почтовых сообщений на основе нейросетевой и нейронечеткой моделей // Вестник технологического университета. 2015. Т. 18. № 15. С. 217-221.
26. Катасёв А.С., Катасёва Д.В. Разработка нейросетевой системы классификации электронных почтовых сообщений // Вестник Казанского государственного энергетического университета. 2015. № 1(25). С. 68-78.
27. Ларионова А.В., Хорев П.Б. Метод фильтрации спама на основе искусственной нейронной сети // Науковедение. 2016. Т. 8. № 3. URL: http://naukovedenie.ru/PDF/04TVN316.pdf (дата обращения 26.11.2020)
28. Ларионова А.В., Хорев П.Б. Оценка эффективности метода фильтрации спама на основе искусственной нейронной сети // Науковедение. 2016. Т. 8. № 2. DOI:10.15862/134TVN216
29. Hussain N., Turab Mirza H., Rasool G., Hussain I., Kaleem M. Spam Review Detection Techniques: A Systematic Literature Review // Applied Sciences. 2019. Vol. 9. No. 5. PP. 1-26. DOI:10.3390/app9050987
30. Корелов С.В., Петров А.М., Ротков Л.Ю., Горбунов А.А. К вопросу об определении численного значения параметра в модели электронных писем // Труды XXIV научной конференции по радиофизике, посвященной 75-летию радиофизического факультета (Нижний Новгород, Российская Федерация, 13-31 мая 2020). Нижний Новгород: ННГУ, 2020. С. 471-474. URL: http://www.rf.unn.ru/wp-content/uploads/sites/21/2020/10/rf-conf-2020-book-1.pdf (дата обращения 26.11.2020)
31. Климов Д.В. Предобработка текстовых сообщений для метрического классификатора // Символ науки. 2017. № 12. C. 25-32.
32. Haddi E., Liu X., Shi Y. The Role of Text Pre-processing in Sentiment Analysis // Procedia Computer Science. 2013. Vol. 17. PP. 26-32. DOI:10.1016/j.procs.2013.05.005
33. Devaraj S., Krishnakumar A. Effective Search Engine Spam Classification // International Journal of Recent Technology and Engineering (IJRTE). 2019. Vol. 8. No. 2S8. PP. 1541-1545. DOI:10.35940/ijrte.B1100.0882S819
34. HaCohen-Kerner Y., Miller D., Yigal Y. The influence of preprocessing on text classification using a bag-of-words representation // PLoS ONE. 2020. Vol. 15(5): e0232525. DOI:10.1371/journal.pone.0232525
35. Vijayarani S., Ilamathi J., Nithya M. Preprocessing Techniques for Text Mining - An Overview // International Journal of Computer Science & Communication Networks. 2015. Vol. 5. No. 1. PP. 7-16.
36. Weng J. NLP Text Preprocessing: A Practical Guide and Template. URL: https://towardsdatascience.com/nlp-text-preprocessing-a-practical-guide-and-template-d80874676e79 (дата обращения 14.07.2020)
37. Uysal A., Gunal S. The Impact of Preprocessing on Text Classification // Information Processing & Management. 2014. Vol. 50. No. 1. PP. 104-112. DOI:10.1016/j.ipm.2013.08.006
38. Enron-Spam datasets. URL: http://www2.aueb.gr/users/ion/data/enron-spam (дата обращения 26.11.2020)
39. Sebastiani F. Machine Learning in Automated Text Categorization // ACM Computing Surveys. 2002. Vol. 34. No. 1. PP. 1-47. DOI:10.1145/505282.505283
40. Sebastiani F. Text Categorization // Zanasi A. (ed.). Text Mining and its Applications. Southampton: WIT Press, 2005. PP. 109-129.
41. Aas K., Eikvil L. Text Categorisation: A Survey // Norwegian Computing Center. Tech. Report number: 941, 1999.
42. Manning C., Raghavan P., Shütze H. Introduction to Information Retrieval. Cambridge: Cambridge University Press, 2008. DOI:10.1017/CBO9780511809071
43. Sokolova M., Lapalme G. A Systematic Analysis of Performance Measures for Classification Tasks // Information Processing & Management. 2009. Vol. 45. Iss. 4. PP. 427-437. DOI:10.1016/j.ipm.2009.03.002
44. Мироненко А.Н. Алгоритм контентной фильтрации спама на базе совмещения метода опорных векторов и нейронных сетей. Автореферат дис. … канд. техн. наук. Санкт-Петербург, 2012. 18 с.
45. Чернопрудова Е.Н. Защита почтовых сервисов от несанкционированных рассылок на основе контентной фильтрации электронных сообщений. Автореферат дис. … канд. техн. наук. Уфа, 2013. 16 с.
Рецензия
Для цитирования:
Корелов С.В., Петров А.М., Ротков Л.Ю., Горбунов А.А. Предобработка текстов электронных писем в задаче обнаружения спама. Труды учебных заведений связи. 2020;6(4):80-90. https://doi.org/10.31854/1813-324X-2020-6-4-80-90
For citation:
Korelov S..., Petrov A..., Rotkov L..., Gorbunov A... Preprocessing of the Emails in the Spam Detection Task. Proceedings of Telecommunication Universities. 2020;6(4):80-90. (In Russ.) https://doi.org/10.31854/1813-324X-2020-6-4-80-90