Дослідження візуально непомітних помилок введення та їхнього впливу на якість і пошукову доступність бібліографічних даних

Автор(и)

  • М. В. Петренко Відкритий міжнародний університет розвитку людини «Україна», Україна

DOI:

https://doi.org/10.35681/1560-9189.2021.23.2.239252

Ключові слова:

помилки введення, виправлення помилок, вплив помилок, кирилиця, латиниця, бібліографічні дані, дедублікація, пошукова доступність, автоматизована бібліотечна інформаційна система

Анотація

Статтю присвячено дослідженню особливого класу помилок при введенні бібліографічних даних до автоматизованої бібліотечної інформаційної системи, який є непомітним для користувача, але впливає на функціонування системи електронних каталогів. Причиною проблеми є помилкове введення візуально подібних символів латиниці замість символів кирилиці та навпаки. Дослідження відбувалося на основі бібліографічних даних зі 141 публічної бібліотеки м. Києва за період з 1993 року до початку 2021 року (отримано з двох джерел). Описано особливості помилок, метод автоматичної ідентифікації помилок, розпов-сюдженість помилок, вплив на пошукову доступність і пошук дублів, розподіл помилок за символами. Надано рекомендації щодо профілактики та усунення проблеми.

Посилання

Yarmolyuk R.S. Osnovni typy ta dzherela pomylok u zapysakh elektronnoho katalohu. Visnyk Natsionalnoho Universytetu "Lvivska politekhnika" Informatsiyni systemy ta merezhi, 2010. Iss. 689. pp. 348–357.

Genzel D. HMM-based Script Identification for OCR. Proceedings of the 4th International Workshop on Multilingual OCR. 2013. P. 1–5.

Ringlstetter C. The same is not the same-postcorrection of alphabet confusion errors in mixed-alphabet OCR recognition. Eighth International Conference on Document Analysis and Recognition (ICDAR'05). IEEE, 2005. P. 406–410.

Kakkonen T., Mozgovoy M. Hermetic and web plagiarism detection systems for student essays — an evaluation of the state-of-the-art. Journal of Educational Computing Research. 2010. P. 135–159.

Hu H. Assessing Browser-level Defense against IDN-based Phishing. 30th Security Symposium Security 21, 2021.

Rahma A., Bhaya W., Al-Nasrawi D. Text steganography based on unicode of characters in multilingual. International Journal of Engineering Research and Applications. 2013. 3.4. P. 1153–1165.

Elektronnyy kataloh biblioteky im. Lesi Ukrayinky (publichni biblioteky dlya doroslykh m. Kyeva). URL: http://ecatalog.kiev.ua

Elektronnyy kataloh biblioteky im. Tarasa Shevchenka dlya ditey (publichni biblioteky dlya ditey m. Kyeva). URL: http://zra.kiev.ua:8081/MarcWeb

##submission.downloads##

Опубліковано

2021-06-29

Номер

Розділ

Системи збереження і масового розповсюдження даних