БАГАТОШАРОВА НЕЙРОМЕРЕЖА З ОПТИМІЗАЦІЙНИМ МЕТОДОМ НАВЧАННЯ AMSGrad

Serhiy Sveleba, I. Katerynchuk, I. Kunyo, O. Semotiuk, Ya. Shmyhelskyy, Serhiy Velhosh, V. Franiv

Анотація


В роботі з допомогою логістичної функції, що описує процес подвоєння кількості локальних мінімумів, та Фур’є спектрів функції похибки для багатошарової нейромережі, за умови застосування  оптимізаційного методу AMSGrad здійснена аналіз похибки навчання. Встановлено, що застосування оптимізаційного метода AMSGrad спричиняє появу блочної структури функції похибки в процесі навчання багатошарової нейромережі. Показано, що функція похибки навчання описується значною кількісті існуючих періодичностей, які виникають внаслідок перенавчанням окремо взятих нейронів. Збільшення кількості локальних мінімумів багатошарової нейромережі при підході до глобального мінімуму, зумовлене процесом перенавчанням нейронів, яке спричиняє появу періодичної поведінки функції похибки. Оскільки функція похибки нейромережі є симбіозом  від функції похибки кожного нейрону, то її поведінка буде характеризуватись спектром можливих періодичностей. В залежності від такого параметра як крок навчання alpha, функція похибки навчання нейромережі буде описувати як стаціонарним так і хаотичним режим навчання нейромережі. Стаціонарний режим навчання нейромережі описується  перенавчанням незначної кількості нейронів, а функція похибки є періодичною функцією і описується кількома періодичнстями. За цих умові функція похибки описується існуванням кількох локальних мінімумів. При збільшенні кроку навчання alpha, внаслідок подвоєння кількості локальних мінімумів нейромережа переходить в хаотичний режим навчання. Показано, що даному режимі навчання функція похибки нейромережі характеризується спектром існуючих періодичностей, а середній хвильовий вектор по такому ансамблю може приймати неспівмірне значення.

Встановлено, що контроль експоненціальної швидкості спаду середніх градієнтів і квадрату градієнта цільової функції похибки в оптимізаційному методі AMSGrad приводить до зменшення кількості нейронів що перенавчаються. Тобто корекціє швидкості навчання кожного нейрона, знімає виродженість даної системи шляхом запобігання процесам перенавчання нейронів. Особливо яскраво це проявляється при збільшенні кількості ітерацій і кількості прихованих шарів. Показано, що оптимізаційний метод AMSGrad в багатошарових нейромережах, за умови неоднорідності вхідного масиву, спричиняє появу блочної структури функції похибки навчання, яка засвідчує про неоднорідність процесу навчання нейронів в прихованих шарах. Збільшення вкладу квадрата градієнта проходить до вирівнювання процесу навчання нейронів, що супроводжується зменшенням кількості нейронів які перенавчаються.

Ключові слова: багатошарова нейронна мережа, метод AMSGrad, локальні мінімуми, блочна структура


Повний текст:

PDF (English)

Посилання


  1. Engelbrecht A. Computational intelligence: an introduction – Sidney: John Wiley & Sons, 2007. – 597 p. DOI: 10.1002/9780470512517
  2. Hart P. E. The condensed nearest neighbor rule. IEEE Transactions on Information Theory. – 1968. – Vol. 14. – P. 515–516. DOI: 10.1109/TIT.1968.1054155
  3. Cummins H.Z. Experimental Studies of structurally incommensurate crystal phases. Physics Reports. – 1990. – Vol.185, N 5,6. P. 211–409.
  4. N. Jankowski, M. Grochowski. Comparison of instance selection algorithms I. Algorithms survey. Artificial Intelligence and Soft Computing: 7th International Conference ICAISC-2004, Zakopane, 7–11 June, 2004: proceedings. – Berlin: Springer, 2004. – P. 598–603. – (Lecture Notes in Computer Science, Vol. 3070). DOI: 10.1007/978-3-540-24844-6_90
  5. Reinartz T. A unifying view on instance selection / T. Reinartz. Data Mining and Knowledge Discovery. – 2002. – № 6. – P. 191–210. DOI: 10.1023/A:1014047731786
  6. S. Sveleba, I. Katerynchuk, I. Kunyo, O. Semotiuk, Ya. Shmyhelskyy, N. Sveleba. Electronics and Information Technologies, 2021, Vol. 16, P. 20-35. DOI: https://doi.org/10.30970/eli.16.3
  7. Tran Thi Phuong, Le Trieu Phong. On the Convergence Proof of AMSGrad and a New Version [Submitted on 7 Apr 2019 (v1), last revised 31 Oct 2019 (this version, v4)] 1904.03590.pdf (arxiv.org).
  8. S. Sveleba, I. Katerynchuk, I. Kunyo, O. Semotiuk, Ya. Shmyhelskyy, N. Sveleba. Electronics and Information Technologies, 2022, 17. – P. 36–53. DOI: https://doi.org/10.30970/eli.16.3
  9. Yu. Taranenko. Information entropy of chaos URL: https://habr.com/ru/post/447874/




DOI: http://dx.doi.org/10.30970/eli.25.4

Посилання

  • Поки немає зовнішніх посилань.