DOI: https://doi.org/10.35681/1560-9189.2017.19.4.142917

Алгоритм сегментації слів на основі пошуку найкоротшого шляху в графі

D. V. Lande, B. A. Berezin, O. Yu. Pavlenko

Анотація


Розглянуто особливості алгоритмів сегментації слів з текстів, які не містять роздільників. Представлено новий алгоритм сегментації слів на основі пошуку найкоротшого шляху. Наведено оцінки якості сегментації. Показано можливості використання наведеного алгоритму в задачах пошуку інформації у національних доменах мережі Інтернет. Реалізацію алгоритму сегментації слів використано для створення узагальненої моделі предметної області на базі моніторингу ресурсів китайського сегменту Інтернет.

Ключові слова


сегментація слів; сегментатор; якість сегментації слів; моніторинг; пошук найкоротшого шляху; хвильовий алгоритм

Повний текст:

PDF (Русский)

Посилання


Lande D.V., Berezin B.A., Dodonov V.A. Obzor osobennostej i vozmozhnosti kontent-monitoringa nacionalnogo segmenta seti Internet. Reyestratsiya, zberihannya i obrobka danykh. 2016. T. 18. # 3. S. 20–38.

Lande D., Berezin B., Pavlenko O. Postroenie modeli informacionnogo servisa na baze nacionalnogo segmenta Internet. Informacionnye tehnologii i bezopasnost. Materialy XVI Mezhdunarodnoj nauchno-prakticheskoj konferencii ITB-2016. Kiev: IPRI NAN Ukrainy, 2017. S. 48–57.

Boisen S., Crystal M., Peterson E., Weischedel R., Broglio J., Callan J., Okurowski M.E. Chinese information extraction and retrieval. Proc. of a workshop on held at Vienna. Virginia. Association for Computational Linguistics, 1996. P. 109–119.

Zagibalov T.E. Avtomaticheskij analiz tekstov na kitajskom jazyke. Problema vybora bazovoj edinicy. Trudy mezhdunarodnoj konferencii «Dialog», 2005. S. 31–37.

Durrani N., Hussain S. Urdu word segmentation. Human Language Technologies: The 2010 Annual Conference of the North American Chapter of the Association for Computational Linguistics. Association for Computational Linguistics, 2010. P. 528–536.

Zhao H., Utiyama M., Sumita E., Lu B. L. An empirical study on word segmentation for chinese machine translation. International Conf. on Intelligent Text Processing and Computational Linguistics. Springer Berlin Heidelberg, 2013. P. 248–263.

Jia Z., Wang P., Zhao H. Graph model for Chinese spell checking. Proceedings of the 7th SIGHAN Workshop on Chinese Language Processing (SIGHAN’13), 2013. P. 88–92.

Antonova, A.Ju., Solovev A.N. Metod uslovnyh sluchajnyh polej v zadachah obrabotki russkojazychnyh tekstov. Informacionnye tehnologii i sistemy. Trudy mezhdunarodnoj nauchnoj konferencii. Kaliningrad, 2013. S. 321–325.

Zhang M.Y., Lu Z.D., Zou C.Y. A Chinese word segmentation based on language situation in processing ambiguous words. Information Sciences. 2004. 162(3). P. 275–285.

Liu C. Research on words segmentation technology in Chinese full text retrieval system. Applied Mechanics and Materials. Trans Tech Publications. 2013. Vol. 411. P. 313–316.

Xu L.X., Fu X.L., Zhang C.H. Research on Full-text Retrieval based on Lucene in Enterprise Content Management System. Applied Mechanics and Materials. Trans Tech Publications. 2014. Vol. 644. P. 1950–1953.

Yang M., Li J., Gou X. The research of Chinese word segmentation strategy in educational re-sources search engine based on lucene. Advanced Intelligence and Awareness Internet (AIAI 2011). In-ternational Conf. on IET, 2011. P. 136–140.

Peterson Erik. A Chinese named entity extraction system. Proc. of the 8th Annual Conf. of the International Association of Chinese Linguistics, Melbourne (Australia), 1999. P. 47–58.

Lande D.V., Berezin B.A., Pavlenko O.Ju. Razrabotka algoritma segmentacii slov dlja sistem monitoringa nacionalnyh internet-resursov. Mizhnarodna naukovo-praktychna konferentsiya «Intelektualni tekhnolohiyi linhvistychnoho analizu»: Tezy dopovidey. Kyiv: NAU, 2017. S. 11.

Berezin B., Lande D., Pavlenko O. Razrabotka, ocenka i ispolzovanie algoritma segmentacii slov dlja sistem monitoringa nacionalnyh internet-resursov // Informacionnye tehnologii i bezopasnost. Materialy XVII Mezhdunarodnoj nauchno-prakticheskoj konferencii ITB-2017. Kiev: OOO «Inzhiniring», 2017. C. 22–31.

Rubin F. The Lee path connection algorithm. IEEE Transactions on Computers. 1974. P. 907–914.

Izotova T.Ju. Obzor algoritmov poiska kratchajshego puti v grafe. Novye informacionnye tehnologii v avtomatizirovannyh sistemah. 2016. # 19. C. 341–344.

Alekseev V.E., Talanov V.A. Grafy. Modeli vychislenij. Struktury dannjah. Nizhnij Novgorod: Izd-vo NNGU, 2005. 169 s.

Kormen T., Lejzerson Ch., Rivest R., Shtajn K. Algoritmy. Postroenie i analiz. Moskva: Izdatelskij dom Viljams, 2009. 637 s.

Fung R., Bigi B. Automatic word segmentation for spoken Cantonese. Oriental COCOSDA held jointly with 2015 Conf. on Asian Spoken Language Research and Evaluation (O-COCOSDA/ CASLRE). International Conf. IEEE. 2015. P. 196–201.

Chea V., Thu Y.K., Ding C., Utiyama M. Khmer word segmentation using conditional random fields. Khmer Natural Language Processing. 2015. Р. 62–69.

Peng H., Cambria E., Hussain A. A review of sentiment analysis research in chinese language. Cognitive Computation. 2017. P. 1–13.

Li-guo D., Peng D., Ai-ping L. A new naive Bayes text classification algorithm. Indonesian Journal of Electrical Engineering and Computer Science. 2014. 12(2). P. 947–952.