Узагальнена методологія розпізнавання мови жестів на відеопотоках на основі нейронних мереж і трансформерів

Автор(и)

  • Н. В. Кузнєцова Національний технічний університет України «Київський політехнічний інститут імені Ігоря Сікорського», Україна
  • С. С. Смірнов Національний технічний університет України «Київський політехнічний інститут імені Ігоря Сікорського», Україна

DOI:

https://doi.org/10.35681/1560-9189.2023.25.2.300527

Ключові слова:

системна методологія, системний аналіз, нейронні мережі, трансформери, мова жестів, розпізнавання, рекурентні нейронні мережі, згорткові нейронні мережі

Анотація

Представлено узагальнену методологію для розпізнавання мови жестів на відеопотоках, яка базується на спільному використанні нейронних мереж та трансформерів. Запропонована методологія використовує глибокі нейронні мережі для автоматичного виявлення та розпізнавання жестів у реальному часі. Для досягнення високої точності та швидкості обробки відеопотоків, використовуються трансформери  моделі штучного інтелекту, які ефективно моделюють довгострокові залежності в послідовностях даних. Запропонована методологія поєднує декілька областей знань, такі як комп’ютерний зір та обробка природної мови. Проаналізовано слабкі сторони запропонованої узагальненої методології, майбутні виклики щодо її впровадження та застосування до реальних даних.

Посилання

Krak Yu.V., Barchukova Yu.V., Trotsenko B.A. Pobudova modeley daktylem dlya syntezu daktyl'noyi informatsiyi. Shtuchnyy intelekt. 2011. No. 3. S. 147–155.

Sri Lakshmi Murali R., Ramayya L.D., & Anil Santosh V. Sign Language Recognition System Using Convolutional Neural Network And Computer Vision. International Journal of Engineering Innovations in Advanced Technology. 2022. 4(4). 137.

Kadhim R.A., & Khamees MA Real-Time American Sign Language Recognition System using Convolutional Neural Network for Real Datasets. TEM Journal. 2020. 9(3). Р. 937–943.

S. He. Research of a Sign Language Translation System Based on Deep Learning. 2019 International Conference on Artificial Intelligence and Advanced Manufacturing (AIAM), Dublin, Ireland, 2019. Р. 392–396. doi: 10.1109/AIAM48774.2019.00083.

Yin K. (2020, April 1). Sign Language Translation with Transformers. arXiv:2004.00588v.

Camgoz N.C., Koller O., Hadfield S., & Bowden R. Sign Language Transformers: Joint End-to-End Sign Language Recognition and Translation. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). 2020. Р. 10023–10033.

Masood S., Srivastava A., Thuwal H. C. and Ahmad M. Real-time sign language gesture (word) recognition from video sequences using CNN and RNN. In Intelligent Engineering Informatics. Springer, 2018. Р. 623–632.

Shivashankara S., & Srinath S. American Sign Language Recognition System: An Optimal Approach. I.J. Image, Graphics and Signal Processing. 2018. 8. Р. 18–30. https://doi.org/10.5815/ijigsp. 2018.08.03.

Ronchetti F., Quiroga F., Estrebou C., Lanzarini L., and Rosete A. LSA64: A Dataset of Argentinian Sign Language. In XXII Congreso Argentino de Ciencias de la Computacion (CACIC). 2016.

Ronchetti F., Quiroga F., Lanzarini L., & Estrebou C. Handshape Recognition for Argentinian Sign Language using ProbSom. Journal of Computer Science and Technology. 2016. 16(1). Р. 1–5. ISSN 1666-6038.

Ni B., Peng H., Chen M., Zhang S., Meng G., Fu J., Xiang S., & Ling H. (2022). Expanding Language-Image Pretrained Models for General Video Recognition. Accepted by ECCV2022, Oral. arXiv preprint arXiv:2208.02816 [cs.CV]. https://doi.org/10.48550/arXiv.2208.02816.

Xu Z., Gong L., Ke G., He D., Zheng S., Wang L., Bian J., & Liu T.-Y. (2020). MC-BERT: Efficient Language Pre-Training via a Meta Controller. arXiv preprint arXiv:2006.05744 [cs.CL]. https://doi.org/10.48550/arXiv.2006.05744.

Nataliia Kuznietsova, Serhii Smirnov, Application of Vision Transformers and 3D Convolutional Neural Networks for Sign Language Cluster Recognition. CEUR Workshop Proceeding (ISSN 1613-0073). 2023. Vol. 3392, CMIS 2023. Р. 151–163. http://ceur-ws.org/Vol-3392/

Manel BEN ABDALLAH, AMENI Sessi, MOHAMED Kallel, M.S.BOUHLEL. Different Techniques of Hand Segmentation in the Real Time. International Journal of Computer Applications & Information Technology. 2013, January. Vol. II, Issue I. ISSN: 2278-7720.

##submission.downloads##

Опубліковано

2023-12-19

Номер

Розділ

Системи збереження і масового розповсюдження даних