Метод розрахунку когерентності українського тексту

Автор(и)

  • S. D. Pogorilyy Київський національний університет імені Тараса Шевченка, Україна
  • A. A. Kramov Київський національний університет імені Тараса Шевченка, Україна

DOI:

https://doi.org/10.35681/1560-9189.2018.20.4.178945

Ключові слова:

обробка природної мови, когерентність тексту, граф семантичної схожості, нейронна мережа, модель Doc2Vec, семантична міра схожості речень

Анотація

Проаналізовано основні методи автоматизованої оцінки когерент-ності тексту, який написано природною мовою. Запропоновано вдосконалення методу графа семантичної схожості за допомогою поперед-ньої підготовки моделі, а саме здійснення навчання нейронної мережі векторного представлення речень. Проведено експериментальну перевірку роботи методу графа семантичної схожості та його модифікованих версій на множині україномовних статей наукових журналів різ-ної тематики. Ефективність роботи методу та його модифікацій розраховано за допомогою вирішення типових задач оцінки когерентності тексту: задач розрізнення документів і вставки. На основі отриманих результатів визначено найбільш ефективні модифікацію та параметри методу графа семантичної схожості для оцінки когерентності україномовних текстів.

Посилання

Raymond E.S. The new hacker's dictionary. Mit Press, 1996. 568 p.

Publications — The Stanford Natural Language Processing Group. URL: https://nlp.stanford.edu/ pubs (data zvernennya: 08.12.2018).

Publications — Google AI. URL: https://ai.google/research/pubs data zvernennya: 08.12.2018).

Homepage: lang-uk. URL: http://lang.org.ua (data zvernennya: 02.12.2018).

Lyednik O.S. Koheziya ta koherentnist' yak katehoriyi zv"yaznoho tekstu. Naukovyy chasopys Natsional'noho pedahohichnoho universytetu imeni M. P. Drahomanova. Seriya 10: Problemy hramatyky i leksykolohiyi ukrayins'koyi movy. 2010. Vyp. 6. C. 119–123.

Barzilay R., Lapata M. Modeling local coherence: An entity-based approach. Computational Linguistics. 2008. Vol. 34, No 1. P. 1–34.

Guinaudeau C., Strube M. Graph-based local coherence modeling. Proceedings of the 51st An-nual Meeting of the Association for Computational Linguistics. 2013. Vol. 1. P. 93–103.

Li J., Hovy E. A model of coherence based on distributed sentence representation. Proceedings of the 2014 Conference on Empirical Methods in Natural Language Processing (EMNLP). 2014.

P. 2039–2048.

Cui B., Li Y., Zhang Y., Zhang Z. Text Coherence Analysis Based on Deep Neural Network. Proceedings of the 2017 ACM on Conference on Information and Knowledge Management. 2017.

P. 2027–2030.

Putra J.W.G., Tokunaga T. Evaluating text coherence based on semantic similarity graph. Pro-ceedings of TextGraphs-11: the Workshop on Graph-based Methods for Natural Language Processing. 2017. P. 76–85.

Le Q., Mikolov T. Distributed representations of sentences and documents. International Con-ference on Machine Learning. 2014. P. 1188–1196.

Pohorilyy S.D., Kramov A.A. Avtomatyzovana ekstraktsiya strukturovanoyi informatsiyi z mnozhyny veb-storinok. Problemy prohramuvannya. 2018. No 2–3. S. 149–158.

Pogorilyy S., Kramov A. Automated extraction of structured information from a variety of web pages. Proceedings of the 11th International Conference of Programming UkrPROG 2018. Kyiv, 2018. P. 149–158.

Science Parse Server. URL: https://github.com/allenai/science-parse/blob/master/server/ README.md (data zvernennya: 08.12.2018).

gensim: Topic modelling for humans. URL: https://radimrehurek.com/gensim (data zvernennya: 08.12.2018).

##submission.downloads##

Опубліковано

2019-11-04

Номер

Розділ

Інформаційно-аналітичні системи обробки даних