Побудова направлених зважених мереж термінів із застосуванням Part-of-speech tagging

Автор(и)

  • О. О. Дмитренко Інститут проблем реєстрації інформації НАН України

DOI:

https://doi.org/10.35681/1560-9189.2020.22.4.225914

Ключові слова:

текстовий корпус, обробка природньої мови, Part-ofspeech (PoS) tagging, термінологічна онтологія, мережа термінів

Анотація

Розглянуто новий метод побудови термінологічних онтологій у вигляді мереж із ключових термінів (ключових слів і словосполучень) текстів, що змістовно пов’язані з певною предметною галуззю. Виокремлення ключових слів і словосполучень з тематичних текстових потоків і подальша побудова направленої зваженої мережі термінів здійснюються на основі застосування більш широкої обробки природної мови, що базується на розбитті на частини мови (Part-of-speech tagging). Комп’ютерну обробку текстових корпусів і побудову направлених зважених мереж термінів представлено у вигляді цілісної методики. У статті показано апробацію запропонованої методики на прикладі відомої народної європейської казки «Little Red Cap» і побудовано направ-лену зважену мережу зі слів і словосполучень, які відповідають окремим ключовим поняттям у досліджуваному творі.

Посилання

Nykonenko A.O. Ohlyad kompyuterno-linhvistychnykh metodiv obrobky pryrodnomovnykh tekstiv. Shtuchnyy intelekt. 2011. No. 3. P. 174–181.

Lande D.V., Dmytrenko O.O. Creating the Directed Weighted Network of Terms Based on Analysis of Text Corpora. 2020 IEEE 2nd International Conference on System Analysis & Intelligent Computing (SAIC) (5–9 Oct. 2020, Kyiv). DOI: doi.org/10.1109/SAIC51296.2020.9239182

Manning C.D., Raghavan P., & Schutze H. An Introduction to Information Retrieval. Cambridge University Press, 2009. Р. 22–36.

Steven Bird, Ewan Klein, Edward Loper. Natural Language Processing with Python. O'Reilly Media, 2009. ISBN 0-596-51649-5.

Brill. E. A simple rule-based part of speech tagger. In Proceedings of the third conference on Applied natural language processing (ANLC '92). Association for Computational Linguistics, Stroudsburg, PA, USA, 1992. Р. 152–155. DOI: doi:10.3115/974499.974526

Extract Custom Keywords using NLTK POS tagger in python. URL: https://thinkinfi.com/ extract-custom-keywords-using-nltk-pos-tagger-in-python/ (Last accessed 24.10.2020).

Lande D., Dmytrenko O., Radziievska O. Determining the Directions of Links in Undirected Networks of Terms. In: CEUR Workshop Proceedings (ceur-ws.org). Vol-2577 urn:nbn:de:0074-2318-4. Selected Papers of the XIX International Scientific and Practical Conference «Information Technologies and Security» (ITS 2019). 2019. Vol. 2577. Р. 132–145. ISSN 1613-0073 [http://ceur-ws.org/Vol-2577/paper11.pdf]

Ramos J. Using tf-idf to determine word relevance in document queries. In Proceedings of the first instructional conference on machine learning. 2003. Vol. 242. P. 133–142.

Google Code Archive: Stop-words. URL: https://code.google.com/archive/p/stop-words/ downloads (Last accessed 24.10.2020).

Text Fixer: Common English Words List. URL: http://www.textfixer.com/tutorials/ commonenglishwords.php (Last accessed 24.10.2020).

Luque B., Lacasa L., Ballesteros F., & Luque J. Horizontal visibility graphs: Exact results for random time series. Physical Review E. 2009. 80(4). DOI: doi.org/10.1103/PhysRevE.80.046103.

Lande D.V., Snarskii A.A., Yagunova E.V., & Pronoza E.V. The use of horizontal visibility graphs to identify the words that define the informational structure of a text. In: 2014 12th Mexican International Conference on Artificial Intelligence. 2014. P. 209–215. DOI: doi.org/10.1109/MICAI.2013.33

Li Wentian. Random texts exhibit Zipf's-law-like word frequency distribution. IEEE Transactions on information theory. 38.6, 1842-1845 (1992).

Little Red Cap. URL: http://www.pitt.edu/~dash/type0333.html#grimm

Gephi. URL: https://gephi.org (Last accessed 02.12.2020).

##submission.downloads##

Опубліковано

2020-12-29

Номер

Розділ

Інформаційно-аналітичні системи обробки даних