<?xml version="1.0" encoding="UTF-8"?>
<!DOCTYPE article PUBLIC "-//NLM//DTD JATS (Z39.96) Journal Publishing DTD v1.3 20210610//EN" "JATS-journalpublishing1-3.dtd">
<article article-type="research-article" dtd-version="1.3" xmlns:mml="http://www.w3.org/1998/Math/MathML" xmlns:xlink="http://www.w3.org/1999/xlink" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xml:lang="ru"><front><journal-meta><journal-id journal-id-type="publisher-id">tuzsut</journal-id><journal-title-group><journal-title xml:lang="ru">Труды учебных заведений связи</journal-title><trans-title-group xml:lang="en"><trans-title>Proceedings of Telecommunication Universities</trans-title></trans-title-group></journal-title-group><issn pub-type="ppub">1813-324X</issn><issn pub-type="epub">2712-8830</issn><publisher><publisher-name>СПбГУТ</publisher-name></publisher></journal-meta><article-meta><article-id pub-id-type="doi">10.31854/1813-324X-2024-10-6-111-120</article-id><article-id custom-type="edn" pub-id-type="custom">TOPDUA</article-id><article-id custom-type="elpub" pub-id-type="custom">tuzsut-645</article-id><article-categories><subj-group subj-group-type="heading"><subject>Research Article</subject></subj-group><subj-group subj-group-type="section-heading" xml:lang="ru"><subject>ИНФОРМАЦИОННЫЕ ТЕХНОЛОГИИ И ТЕЛЕКОММУНИКАЦИИ</subject></subj-group><subj-group subj-group-type="section-heading" xml:lang="en"><subject>INFORMATION TECHNOLOGIES AND TELECOMMUNICATION</subject></subj-group></article-categories><title-group><article-title>Снижение размерности массивов данных  с помощью многослойных автокодировщиков  в задаче классификации мобильных приложений</article-title><trans-title-group xml:lang="en"><trans-title>Reducing the Dimensionality of Data Arrays  Using Multi-Layer Autoencoders  in the Task of Classifying Mobile Applications</trans-title></trans-title-group></title-group><contrib-group><contrib contrib-type="author" corresp="yes"><contrib-id contrib-id-type="orcid">https://orcid.org/0000-0001-7564-6744</contrib-id><name-alternatives><name name-style="eastern" xml:lang="ru"><surname>Шелухин</surname><given-names>О. И.</given-names></name><name name-style="western" xml:lang="en"><surname>Sheluhin</surname><given-names>O. I.</given-names></name></name-alternatives><bio xml:lang="ru"><p>доктор технических наук, профессор, заведующий кафедрой «Информационная безопасность» Московского технического университета связи и информатики</p></bio><email xlink:type="simple">sheluhin@mail.ru</email><xref ref-type="aff" rid="aff-1"/></contrib><contrib contrib-type="author" corresp="yes"><contrib-id contrib-id-type="orcid">https://orcid.org/0009-0002-4897-2338</contrib-id><name-alternatives><name name-style="eastern" xml:lang="ru"><surname>Маторин</surname><given-names>Ф. А.</given-names></name><name name-style="western" xml:lang="en"><surname>Matorin</surname><given-names>F. A.</given-names></name></name-alternatives><bio xml:lang="ru"><p>аспирант кафедры «Информационная безопасность» Московского технического университета связи и информатики</p></bio><email xlink:type="simple">f.matorin@mail.ru</email><xref ref-type="aff" rid="aff-1"/></contrib></contrib-group><aff-alternatives id="aff-1"><aff xml:lang="ru">Московский технический университет связи и информатики<country>Россия</country></aff><aff xml:lang="en">Moscow Technical University of Communications and Informatics<country>Russian Federation</country></aff></aff-alternatives><pub-date pub-type="collection"><year>2024</year></pub-date><pub-date pub-type="epub"><day>26</day><month>12</month><year>2024</year></pub-date><volume>10</volume><issue>6</issue><fpage>111</fpage><lpage>120</lpage><permissions><copyright-statement>Copyright &amp;#x00A9; Шелухин О.И., Маторин Ф.А., 2024</copyright-statement><copyright-year>2024</copyright-year><copyright-holder xml:lang="ru">Шелухин О.И., Маторин Ф.А.</copyright-holder><copyright-holder xml:lang="en">Sheluhin O.I., Matorin F.A.</copyright-holder><license license-type="creative-commons-attribution" xlink:href="https://creativecommons.org/licenses/by/4.0/" xlink:type="simple"><license-p>This work is licensed under a Creative Commons Attribution 4.0 License.</license-p></license></permissions><self-uri xlink:href="https://tuzs.sut.ru/jour/article/view/645">https://tuzs.sut.ru/jour/article/view/645</self-uri><abstract><p>Рассматривается задача уменьшения размерности исходных массивов данных для улучшения эффективности обработки трафика мобильных приложений. Актуальность исследования обусловлена необходимостью оптимизации объемов передаваемых и хранимых данных при работе в условиях ограниченных вычислительных ресурсов, а также повышения скорости и качества аналитических операций. Для решения поставленной задачи применяются многослойные автокодировщики, способные формировать компактные представления исходных данных с минимальными потерями в их информативности. Подход базируется на идее обучения нейросетевых моделей, извлекающих наиболее существенные признаки из исходных массивов и способных восстанавливать их с заданным уровнем точности.</p><sec><title>Используемые методы</title><p>Используемые методы. В ходе экспериментов применялись различные архитектуры многослойных автокодировщиков, отличающиеся количеством слоев и размерностями скрытых представлений. Исследования проводились на реальных наборах данных, собранных из мобильных приложений широкого спектра функционала. Анализ осуществлялся путем варьирования внутренних параметров сетей и оценки результатов через интегральный статистический показатель, отражающий степень сжатия. Данный показатель позволяет выявить, насколько сильно изменяется разброс атрибутов при пропускании данных через автокодировщик.</p></sec><sec><title>Результаты</title><p>Результаты. Для оценки фильтрующих свойств многослойных автокодировщиков предложен интегральный показатель сжатия, характеризующий изменение разброса атрибутов мобильных приложений при пропускании их через автокодировщик заданной структуры. Показатель рассчитывается как отношение среднеквадратического отклонения атрибутов на входе и на выходе, что позволяет оценить степень сжатия данных и степень сохранности информации после обработки. Показано, что увеличение интегрального показателя сжатия свидетельствует о более значительном сжатии исходных данных. Установлено, что фильтрация практически не зависит от типа приложения и лежит в пределах 10-20 % для автокодировщиков с тремя слоями, тогда как для пятислойных автокодировщиков предпочтение отдается кодировщикам с минимальной размерностью внутреннего слоя. Основная новизна работы заключается в разработке интегрального статистического показателя, который не только отражает степень сжатия данных мобильных приложений, но и учитывает сохранность исходной информационной структуры. В отличие от существующих подходов, данный показатель позволяет проводить систематическое сравнение различных архитектур автокодировщиков с учетом не только уменьшения размерности, но и качества восстановления исходной информации. Это создает основу для более объективной оценки эффективности многослойных автокодировщиков в конкретных прикладных условиях. Практическая значимость. Предложенная методология может быть полезна разработчикам и исследователям, работающим над оптимизацией систем сбора, хранения и обработки данных мобильных приложений. В условиях ограниченных вычислительных ресурсов, характерных для мобильных устройств и встроенных систем, использование многослойных автокодировщиков, настроенных на достижение заданного баланса между сжатием и сохранением информации, обеспечивает существенное сокращение объема передаваемых данных. Результаты исследования могут быть внедрены в существующие аналитические платформы, системы мониторинга и классификации мобильных приложений.</p></sec></abstract><trans-abstract xml:lang="en"><p>The problem of reducing the dimension of the initial data arrays to improve the efficiency of mobile application traffic processing is considered. The relevance of the study is due to the need to optimize the volume of transmitted and stored data when working in conditions of limited computing resources, as well as to increase the speed and quality of analytical operations. To solve this problem, multi-layer autoencoders are used, capable of forming compact representations of the source data with minimal losses in their informativeness. The approach is based on the idea of training neural network models that extract the most significant features from the source arrays and are able to restore them with a given level of accuracy. Methods used. During the experiments, various architectures of multilayer autocoders were used, differing in the number of layers and dimensions of hidden representations. The research was conducted on real data sets collected from mobile applications with a wide range of functionality. The analysis was carried out by varying the internal parameters of the networks and evaluating the results through an integral statistical indicator reflecting the degree of compression. This indicator allows you to identify how much the spread of attributes changes when passing data through the autoencoder. </p><sec><title>Results</title><p>Results. To evaluate the filtering properties of multilayer autoencoders, an integral compression indicator is proposed that characterizes the change in the spread of attributes of mobile applications when passing them through an autoencoder of a given structure. The indicator is calculated as the ratio of the standard deviation of the attributes at the input and at the output, which allows you to assess the degree of data compression and the degree of information preservation after processing. It is shown that an increase in the integral compression index indicates a more significant compression of the initial data. It was found that filtering is practically independent of the type of application and lies within 10-20 % for three-layer autoencoders, whereas for five-layer auto-encoders, preference is given to encoders with a minimum dimension of the inner layer. The main novelty of the work lies in the development of an integral statistical indicator that not only reflects the degree of compression of mobile application data, but also takes into account the preservation of the original information structure. Unlike existing approaches, this indicator allows for a systematic comparison of various architectures of autoencoders, taking into account not only the reduction in dimension, but also the quality of recovery of the original information. This creates the basis for a more objective assessment of the effectiveness of multilayer autoencoders in specific application conditions. </p></sec><sec><title>Practical significance</title><p>Practical significance. The proposed methodology may be useful for developers and researchers working on optimizing systems for collecting, storing and processing mobile application data. In conditions of limited computing resources, which are typical for mobile devices and embedded systems, the use of multilayer autoencoders aimed at achieving a given balance between compression and preservation of information provides a significant reduction in the volume of transmitted data. The results of the study can be implemented into existing analytical platforms, monitoring systems and classification of mobile applications.</p></sec></trans-abstract><kwd-group xml:lang="ru"><kwd>нейронные сети</kwd><kwd>классификация</kwd><kwd>приложения</kwd><kwd>атрибуты</kwd><kwd>фильтрация</kwd><kwd>статистические характеристики</kwd></kwd-group><kwd-group xml:lang="en"><kwd>neural networks</kwd><kwd>classification</kwd><kwd>applications</kwd><kwd>attributes</kwd><kwd>filtering</kwd><kwd>statistical characteristics</kwd></kwd-group></article-meta></front><back><ref-list><title>References</title><ref id="cit1"><label>1</label><citation-alternatives><mixed-citation xml:lang="ru">Goodfellow I., Bengio Y., Courville A. Deep Learning. The MIT Press, 2016. 800 p.</mixed-citation><mixed-citation xml:lang="en">Goodfellow I., Bengio Y., Courville A. Deep Learning. The MIT Press, 2016. 800 p.</mixed-citation></citation-alternatives></ref><ref id="cit2"><label>2</label><citation-alternatives><mixed-citation xml:lang="ru">Hinton G.E., Osindero S., Teh Y.W. A Fast Learning Algorithm for Deep Belief Nets // Neural Computation. 2006. Vol. 18. Iss. 7. PP. 1527–1554. DOI:10.1162/neco.2006.18.7.1527</mixed-citation><mixed-citation xml:lang="en">Hinton G.E., Osindero S., Teh Y.W. A Fast Learning Algorithm for Deep Belief Nets. Neural Computation. 2006;18(7): 1527–1554. DOI:10.1162/neco.2006.18.7.1527</mixed-citation></citation-alternatives></ref><ref id="cit3"><label>3</label><citation-alternatives><mixed-citation xml:lang="ru">Salakhutdinov R., Hinton G.E. Deep Boltzmann Machines // Proceedings of the Twelfth International Conference on Artificial Intelligence and Statistics (Clearwater Beach, USA). Proceedings of Machine Learning Research. 2009. Vol. 5. PP. 448–455.</mixed-citation><mixed-citation xml:lang="en">Salakhutdinov R., Hinton G.E. Deep Boltzmann Machines. Proceedings of the Twelfth International Conference on Artificial Intelligence and Statistics (Clearwater Beach, USA). Proceedings of Machine Learning Research, vol.5. 2009. p.448–455.</mixed-citation></citation-alternatives></ref><ref id="cit4"><label>4</label><citation-alternatives><mixed-citation xml:lang="ru">Кузьмина М.Г. Многослойные сети-автоэнкодеры в задачах анализа и обработки гиперспектральных изображений // Препринты ИПМ им. М. В. Келдыша. 2021. № 28. 21 с. DOI:10.20948/prepr-2021-28</mixed-citation><mixed-citation xml:lang="en">Kuzmina М.G. Multilayered autoencoders in problems of hyperspectral image analysis and processing. Preprint M.V. Keldysh IAM. 2021;28:21. DOI:10.20948/prepr-2021-28</mixed-citation></citation-alternatives></ref><ref id="cit5"><label>5</label><citation-alternatives><mixed-citation xml:lang="ru">Kramer M.A. Nonlinear principal component analysis using autoassociative neural networks // AIChE Journal. 1991. Vol. 37. Iss. 2. PP. 233‒243. DOI:10.1002/aic.690370209</mixed-citation><mixed-citation xml:lang="en">Kramer M.A. Nonlinear principal component analysis using autoassociative neural networks. AIChE Journal. 1991;37(2) 233‒243. DOI:10.1002/aic.690370209</mixed-citation></citation-alternatives></ref><ref id="cit6"><label>6</label><citation-alternatives><mixed-citation xml:lang="ru">Bengio Y., Lamblin P., Popovici D., Larochelle H. Greedy Layer-Wise Training of Deep Networks // In: Advances in Neural Information Processing Systems (B. Schölkopf, J. Platt, T. Hoffman (eds.). Cambridge, 2007. PP. 153–160.</mixed-citation><mixed-citation xml:lang="en">Bengio Y., Lamblin P., Popovici D., Larochelle H. Greedy Layer-Wise Training of Deep Networks. In: Advances in Neural Information Processing Systems (B. Schölkopf, J. Platt, T. Hoffman (eds.). Cambridge; 2007. p.153–160.</mixed-citation></citation-alternatives></ref><ref id="cit7"><label>7</label><citation-alternatives><mixed-citation xml:lang="ru">Windrim L., Ramakrishnan R., Melkumyan A., Murphy R.J., Chlingaryan A. Unsupervised feature-learning for hyper-spectral data with autoencoders // Remote Sensing. 2019. Vol. 11. Iss. 7. P. 864. DOI:10.3390/rs11070864</mixed-citation><mixed-citation xml:lang="en">Windrim L., Ramakrishnan R., Melkumyan A., Murphy R.J., Chlingaryan A. Unsupervised feature-learning for hyper-spectral data with autoencoders. Remote Sensing. 2019;11(7):864. DOI:10.3390/rs11070864</mixed-citation></citation-alternatives></ref><ref id="cit8"><label>8</label><citation-alternatives><mixed-citation xml:lang="ru">Шелухин О.И., Барков В.В., Симонян А.Г. Обнаружение дрейфа концепта при классификации мобильных приложений с использованием автокодировщиков // Наукоемкие технологии в космических исследованиях Земли. 2023. Т. 15. № 3. С. 20–29. DOI:10.36724/2409-5419-2023-15-3-20-29. EDN:KBWOOG</mixed-citation><mixed-citation xml:lang="en">Sheluhin O.I. Barkov V.V. Simonyan A.G. Concept Drift Detection in Mobile Applications Classification Using Autoencoders. H&amp;ES Research. 2023;15(3):20–29. (in Russ.) DOI:10.36724/2409-5419-2023-15-3-20-29. EDN:KBWOOG</mixed-citation></citation-alternatives></ref><ref id="cit9"><label>9</label><citation-alternatives><mixed-citation xml:lang="ru">Шелухин О.И., Барков В.В., Маторин Ф.А. Повышение эффективности классификации противоправных и нежелательных приложений в условиях фонового трафика с помощью автокодировщиков // Вестник Санкт-Петербургского государственного университета технологии и дизайна: Серия 1. Естественные и технические науки. 2023. № 3. С. 159–165. DOI:10.46418/2079-8199_2023_3_25. EDN:RLBDBM</mixed-citation><mixed-citation xml:lang="en">Sheluhin O.I. Barkov V.V. Matorin F.A. Improving the classification of illegal and unwanted applications under back-ground traffic conditions using autoencoders. Bulletin of the St. Petersburg State University of Technology and Design: Series 1. Natural and technical sciences. 2023;3:159–165 (in Russ.) DOI:10.46418/2079-8199_2023_3_25. EDN:RLBDBM</mixed-citation></citation-alternatives></ref><ref id="cit10"><label>10</label><citation-alternatives><mixed-citation xml:lang="ru">Ososkov G., Goncharov P. Shallow and deep learning for image classification // Optical Memory and Neural Networks. 2017. Vol. 26. Iss. 4. PP. 221–248. DOI:10.3103/S1060992X1704004X</mixed-citation><mixed-citation xml:lang="en">Ososkov G., Goncharov P. Shallow and deep learning for image classification. Optical Memory and Neural Networks. 2017;26(4):221–248. DOI:10.3103/S1060992X1704004X</mixed-citation></citation-alternatives></ref><ref id="cit11"><label>11</label><citation-alternatives><mixed-citation xml:lang="ru">Sheluhin O.I., Zegzhda D.P., Rakovsk, D.I., Samari, N.N., Aleksandrova E.B. Intelligent Technologies of Information Security. Moscow: Goryachaya Liniya – Telecom Publ.; 2023. 384 p. (in Russ.)</mixed-citation><mixed-citation xml:lang="en">Sheluhin O.I., Zegzhda D.P., Rakovsk, D.I., Samari, N.N., Aleksandrova E.B. Intelligent Technologies of Information Security. Moscow: Goryachaya Liniya – Telecom Publ.; 2023. 384 p. (in Russ.)</mixed-citation></citation-alternatives></ref><ref id="cit12"><label>12</label><citation-alternatives><mixed-citation xml:lang="ru">Sheluhin O.I., Erokhin S.D., Barkov V.V. Creation of a Network Traffic Database for Automating the Classification of Mobile Applications under the Android Operating System. Neurocomputers: Development, Application. 2019;1:40–51. (in Russ.) DOI:10.18127/j19998554-201901-06. EDN:BDDXDT</mixed-citation><mixed-citation xml:lang="en">Sheluhin O.I., Erokhin S.D., Barkov V.V. Creation of a Network Traffic Database for Automating the Classification of Mobile Applications under the Android Operating System. Neurocomputers: Development, Application. 2019;1:40–51. (in Russ.) DOI:10.18127/j19998554-201901-06. EDN:BDDXDT</mixed-citation></citation-alternatives></ref><ref id="cit13"><label>13</label><citation-alternatives><mixed-citation xml:lang="ru">Sheluhin O.I., Barkov V.V. Experimental Studies and Creation of a Network Traffic Database of Mobile Devices under the Android Operating System. Fundamental Problems of Radio Electronic Instrument Engineeringю 2018;18(4):1011–1017. (in Russ.) EDN:ZABZMT</mixed-citation><mixed-citation xml:lang="en">Sheluhin O.I., Barkov V.V. Experimental Studies and Creation of a Network Traffic Database of Mobile Devices under the Android Operating System. Fundamental Problems of Radio Electronic Instrument Engineeringю 2018;18(4):1011–1017. (in Russ.) EDN:ZABZMT</mixed-citation></citation-alternatives></ref></ref-list><fn-group><fn fn-type="conflict"><p>The authors declare that there are no conflicts of interest present.</p></fn></fn-group></back></article>
