Семантичне індексування та кластерний аналіз документів з кібербезпеки

Автор(и)

  • Д. В. Ланде Інститут проблем реєстрації інформації НАН України, Україна
  • О. О. Рибак Національний технічний університет України «Київський політехнічний інститут імені Ігоря Сікорського», Україна

DOI:

https://doi.org/10.35681/1560-9189.2024.26.2.316711

Ключові слова:

семантичне індексування, кластерний аналіз, модулярність, великі мовні моделі (LLM), кібербезпека, аналіз тексту, семантичні мережі

Анотація

Розглянуто методи екстракції концептів із текстів та побудови семантичних мереж для аналізу даних у контексті кібербезпеки. Основна увага приділена використанню великих мовних моделей (LLM) для автоматизованого витягу сутностей і побудови мереж концептів. Це дозволяє визначати взаємозалежності та структурувати інформацію, формувати семантичні мережі. Такі мережі можна використовувати для подальшого кластерного аналізу, що дає можливість автоматично групувати вузли за схожістю та визначати нові закономірності в даних. Досліджено побудову мереж близькості документів, що дозволяє оцінювати ступінь схожості текстів на основі їхніх семантичних структур. Запропонований підхід дозволяє виявляти тематично споріднені документи, що можуть містити важливу інформацію для аналізу, а також визначати інформаційні ланцюжки та ключові тенденції у великих масивах текстових даних, ключові тенденції і загрози у сфері кібербезпеки.

Посилання

Cheng Xiang Zhai. Large Language Models and Future of Information Retrieval: Opportunities and Challenges. SIGIR ‘24: Proceedings of the 47th International ACM SIGIR Conference on Research and Development in Information Retrieval. Pages 481–490. DOI: 10.1145/3626772.365784.

H. Ambre Ayats. Knowledge graph construction from texts with an explainable, human-centered Artificial Intelligence. Artificial Intelligence [cs.AI]. Universite de Rennes, 2023. English. NNT: 2023URENS095.

Michael Zgurovsky, Dmitry Lande, Kostiantyn Yefremov, Oleh Dmytrenko, Andriy Boldak, Artem Soboliev. Extracting and Identifying Relationships of Key Phrases in Information Flows. Published in: 2022 IEEE 3rd International Conference on System Analysis & Intelligent Computing (SAIC) 04-07 October 2022. DOI: 10.1109/SAIC57818.2022.9923019.

Vinay Kumar Pant, Rupak Sharma, Shakti Kundu. An overview of Stemming and Lemmatization Techniques. In: Advances in Networks, Intelligence and Computing. CRC Press. 2024. ISBN: 9781003430421.

Ovalle, Anaelia, Ninareh Mehrabi, Palash Goyal, Jwala Dhamala, Kai-Wei Chang, Richard Zemel, Aram Galstyan, Yuval Pinter, and Rahul Gupta. Tokenization matters: Navigating data-scarce tokenization for gender inclusive language technologies. In Findings of the Association for Computational Linguistics: NAACL 2024, pp. 1739-1756. 2024.

Basra Jehangir, Saravanan Radhakrishnan, Rahul Agarwal. A survey on Named Entity Recognition — datasets, tools, and methodologies. Natural Language Processing Journal. Volume 3, June 2023, 100017. DOI: 10.1016/j.nlp.2023.100017

Lande D., Subach I., Puchkov A. System of Analysis of Big Data from Social Media. Information & Security: An International Journal 47, Iss. 1 (2020): 44-61. DOI: doi.org/10.11610/isij.4703.

Dmytro Lande, Leonard Strashnoy. GPT Semantic Networking: A Dream of the Semantic Web - The Time is Now. Kyiv: Engineering, 2023. 168 p. ISBN 978-966-2344-94-3.

Traag V.A., Waltman L., N. j. van Eck. From Louvain to Leiden: guaranteeing well-connected communities. Sci Rep 9, 5233 (2019). DOI: 10.1038/s41598-019-41695-z.

Wu F.Y. The Potts model. Rev. Mod. Phys. 54, 235. Published 1 January 1982.

Ken Cherven. Mastering Gephi Network Visualization. Packt Publishing, 2015. 378 p.

##submission.downloads##

Опубліковано

2024-11-19

Номер

Розділ

Інформаційно-аналітичні системи обробки даних