Автоматичне реферування китайської правової інформації

Автор(и)

  • Dmytro Lande Інститут проблем реєстрації інформації НАН України, Україна https://orcid.org/0000-0003-3945-1178
  • Yang Zijiang Information Research Institute of Shandong Academy of Sciences, Китай
  • Zhu Shiwei Information Research Institute of Shandong Academy of Sciences, Китай
  • Guo Jianping Information Research Institute of Shandong Academy of Sciences, Китай
  • Wei Moji Information Research Institute of Shandong Academy of Sciences, Китай

DOI:

https://doi.org/10.35681/1560-9189.2018.20.3.158214

Ключові слова:

автоматичне реферування, правова інформація, китайська мова, косинусна міра, відстань Дженсена-Шеннона

Анотація

Роботу присвячено методу автоматичного реферування правової інформації, що представ-лено китайською мовою. Розглянуто модель реферату та процедуру його формування. Запропоно-вано два підходи, а саме, для визначення рівня важливості речень — перейти до визначення ваго-вих значень окремих ієрогліфів, а не слів у тексті документів і рефератів. Також запропоновано розгляд моделі документів як мережі із речень для виявлення найбільш важливих речень за пара-метрами цієї мережі. Реалізовано та випробувано різні методи автоматичного реферування. Пока-зано застосування двох оцінок якості реферату без участі експертів — косинусної міри і відстані Дженсена-Шеннона (Jensen-Shannon). Реферування на основі запропонованої мережевої моделі документа виявилося кращим за критеріями косинусної міри та відстані Дженсена-Шеннона для рефератів, обсяг яких перевищує 2 речення. Запропонований підхід з урахуванням невеликих змін може використовуватися для текстів довільної тематики, зокрема, науково-технічної та новинної інформації.

Посилання

Luhn Hans Peter. The automatic creation of literature abstracts. IBM Journal of research and development. 1958. N 2. P. 159–165.

Zhang C. Automatic Keyword Extraction from Documents using Conditional Random Fields. Journal of Computational Information Systems. 2008. 4(3). P. 1169–1180.

Ramos J. Using tf-idf to determine word relevance in document queries. Proceedings of the first instructional conference on machine learning, 2003. P. 1–4.

Bhart, Santosh Kumar, Babu Korra Sathya, Pradhan, Anima. Automatic Keyword Extraction for Text Summarization in Multi-document e-Newspapers Articles. European Journal of Advances in Engineering and Technology. 2017. 4(6). P. 410–427.

Chien L.-F. Pat-tree-based keyword extraction for Chinese information retrieval. ACM SIGIR Forum. 31, ACM, 1997. P. 50–58.

Salton G., Buckley C. Term-weighting approaches in automatic text retrieval. Information Processing & Management. 1998. 24(5). P. 513–523.

Lande D.V., Snarskii A.A, Yagunova E.V., Pronoza E.V. The Use of Horizontal Visibility Graphs to Identify the Words that Define the Informational Structure of a Text. 12th Mexican International Conference on Artificial Intelligence. 2013. P. 209–215. DOI: 10.1109/MICAI.2013.33.

Yatsko V.A. Symmetric Summarization: Thematic Foundations and Methods. Nauchno-Tekh. Inf., 2002. Ser. 2. N 5. P. 18–28.

Cherven Ken. Network Graph Analysis and Visualization with Gephi. Packt Publishing, 2013. ISBN: 9781783280131.

Kleinberg J. Navigation in a small world. Nature. 2000. 406(6798). 845 p. DOI: 10.1038/35022643.

Langville Amy N., Meyer Carl D. Google's PageRank and beyond: the science of search engine rankings. Princeton university press, 2011. ISBN: 9780691152660.

Louis Annie, Nenkova Ani. Automatic Summary Evaluation without Human Models. In First Text Analysis Conference (TAC’08). Gaithersburg, MD, Etats-Unis, 17–19 November, 2008.

Kullback S. Information Theory and Statistics. John Wiley & Sons, 1959. Republished by Do-ver Publications in 1968; reprinted in 1978: ISBN 0-8446-5625-9.

Kullback S., Leibler R.A. On information and sufficiency. Annals of Mathematical Statistics, 1951. 22(1). P. 79–86. DOI: 10.1214/aoms/1177729694.

Schütze Hinrich, Manning Christopher D. Foundations of Statistical Natural Language Processing. Cambridge, Mass: MIT Press, 1999. 304 p. ISBN 0-262-13360-1.

Dagan Ido, Lillian Lee, Fernando Pereira. Similarity-Based Methods For Word Sense Disam-biguation. Proc. Of the Thirty-Fifth Annual Meeting of the Association for Computational Linguistics and Eighth Conference of the European Chapter of the Association for Computational Linguistics. 1997. P. 56–63. DOI: 10.3115/979617.979625.

Endres D.M., Schindelin J.E. A new metric for probability distributions. IEEE Trans. Inf. Theo-ry, 2003. 49(7). P. 1858–1860. DOI: 10.1109/TIT.2003.813506.

Fuglede Bent, Topse Flemming. Jensen-Shannon divergence and Hilbert space embedding. Proc. Of International Symposium on Information Theory, ISIT 2004. P. 31.

Lin J. Divergence measures based on the shannon entropy. IEEE Transactions on Information Theory, 1991. 37(1). P. 145–151. DOI:10.1109/18.61115.

Berezin Boris A., Lande Dmitry V., Pavlenko Oleh Y. Development, Evaluation and Usage of Word Segmentation Algorithm for National Internet Resources Monitoring Systems. CEUR Workshop Proceedings, 2017. Selected Papers of the XVII International Scientific and Practical Conference on Information Technologies and Security (ITS 2017). 2017. P. 16–22.

##submission.downloads##

Опубліковано

2018-09-18

Номер

Розділ

Інформаційно-аналітичні системи обробки даних