Метод редукції мажоритарного класу в незбалансованих вибірках

Автор(и)

  • D. A. Kavrin
  • S. A. Subbotin

DOI:

https://doi.org/10.35681/1560-9189.2018.20.1.142902

Ключові слова:

вибірка, екземпляр, класифікація, метрика якості, мажоритарний клас, міноритарний клас, семплінг

Анотація

Розглянуто проблему формування навчальних вибірок для побудови діагностичних і розпізнавальних моделей за прецедентами в умовах незбалансованості класів. Запропоновано метод автоматизації формування навчальних вибірок з вихідних незбалансованих вибірок великого розміру. Метод дозволяє значно скоротити розмір вихідної вибірки зі збереженням важливих топологічних властивостей шляхом редукції мажоритарного класу та відновити кількісний баланс класів. Розроблено програмне забезпечення, що реалізує запропонований метод, яке було використано при виконанні обчислювальних експериментів на синтетичних і реальних даних. Проведені експерименти підтвердили працездатність та ефективність запропонованого методу та програмного забезпечення, що його реалізує.

Посилання

Weiss G.M., He H., Ma Y. Foundations of Imbalanced Learning. Imbalanced Learning: Foundations, Algorithms, and Applications. Hoboken. NJ, USA: John Wiley & Sons, 2013. P. 13–42. DOI: 10.1002/9781118646106.ch2.

Fernandez-Delgado M, E. Cernadas S., Barro D. Amorim Do we Need Hundreds of Classifiers to Solve Real World Classification Problems Journal of Machine Learning Research. 2014. Vol. 15. P. 3133–3181.

Sun Y., Wong A.K.C., Kamel M.S. Classification of imbalanced data: a review. International Journal of Pattern Recognition and Artificial Intelligence. 2009. Vol. 23. Issue 4. P. 687–719. DOI: 10.1142/S0218001409007326.

Beyan C., Fisher R. Classifying imbalanced data sets using similarity based hierarchical decom-position. Pattern Recognition. 2015. Vol. 48, Issue 5. P. 1653–1672. DOI: 10.1016/j.patcog.2014.10.032.

Batista G.E.A.P.A., Prati R.C., Monard M.C. A study of the behavior of several methods for ba-lancing machine learning training data. SIGKDD Explorations. 2004. Vol. 6. Issue 1. P. 20–29. DOI: 10.1145/1007730.1007735.

He H., Garcia E.A. Learning from Imbalanced Data. IEEE Transactions on Knowledge and Data Engineering. 2009. Vol. 21. P. 1263–1284. DOI: 10.1109/TKDE.2008.239.

Hart P. The condensed nearest neighbor rule. IEEE Transactions on Information Theory. 1968. Vol. 14. Issue 3. P. 515–516. DOI: 10.1109/TIT.1968.1054155.

Elkan C. The foundations of cost-sensitive learning. 17th Internation. joint Conf. on Artificial intelligence, Seattle, 4-10 August 2001: proceedings. San Francisco: Morgan Kaufmann Publishers Inc. 2001. Vol. 2. P. 973–978.

Fawcett T. An Introduction to ROC Analysis. Pattern Recognition Letters. 2006. Vol. 27. Issue 8. P. 861–874. DOI: 10.1016/j.patrec.2005.10.010.

Zagoruyko N.G. Prikladnyye metody analiza dannykh i znaniy. Novosibirsk: IIM, 1999. 270 s.

Cover T., Hart P. Nearest neighbor pattern classification. IEEE Transactions on Information Theory. 1967. Vol. 13. Issue 1. P. 21–27. DOI: 10.1109/TIT.1967.1053964.

Kokren U. Metody vyborochnogo issledovaniya. Moskva: Statistika, 1976. 440 s.

Lyon R.J. HTRU2. URL: https://figshare.com/articles/HTRU2/3080389/1. DOI: 10.6084/m9. figshare.3080389.v1.

Subbotin S.O., Kavrin D.A. Avtomatyzovana systema vidboru optymalnoho metodu vidnovlennya balansu klasiv pry formuvanni navchalnoyi vybirky. Informatyka, upravlinnya ta shtuchnyy intelekt. Materialy chetvertoyi mizhnarodnoyi naukovotekhnichnoyi konferentsiyi studentiv, mahistriv ta aspirantiv. Kharkiv: NTU «KHPI», 2017. S. 94.

##submission.downloads##

Опубліковано

2018-04-03

Номер

Розділ

Technical facilities of information registration and processing