АНАЛІЗ ФУНКЦІЇ ПОХИБКИ ЗА УМОВИ ЗАСТОСУВАННЯ АЛГОРИТМУ ОПТИМІЗАЦІЇ AMSGrad

Serhiy Sveleba, I. Katerynchuk, I. Kuno, O. Semotyuk, Ya. Shmygelsky, S. Velgosh, A. Kopach, V. Stakhura

Анотація


В роботі з допомогою логістичної функції, яка описує процес подвоєння, та Фур’є спектрів функції похибки було проведено тестування стохастичного методу оптимізації AMSGrad.

Реалізація алгоритму оптимізації градієнтного спуску за допомогою AMSGrad було здійснено для простої двовимірної функції, яка зводить у квадрат вхідні дані кожного виміру та визначає діапазон допустимих вхідних даних від -1,0 до 1,0.

Встановлено, що процес перенавчання супроводжується зміною швидкості цільової функції похибки, а Фур’є спектрам притаманна поява гармоніки. Показано, що при незначному наборі вхідних даних, коли значення beta2 близьке до 1, а beta1 = 0.9 спостерігається нестабільність в навчанні, яка зумовлена процесом перенавчання.

Ключові слова: оптимізаційні методи, функція похибки, AMSGrad, швидкість навчання, діаграми розгалуження.


Повний текст:

PDF

Посилання


  1. Mykel J. Kochenderfer, Tim A. Wheeler Algorithms for Optimization/ Mykel J. Kochenderfer, Tim A. Wheeler – The MIT Press.– 2019. – 520p.
  2. Jason Brownlee. Optimization for Machine Learning. Finding Function Optima with Python – The MIT Press. – 2021. – 403 p.
  3. Diederik P. Adam: a method for stochastic optimization / Diederik P. Kingma, Jimmy Lei Ba – Published as a conference paper at ICLR 2015. – 2015. – P. 1-15. DOI: 10.48550/arXiv.1904.09237
  4. Sashank J.On the Convergence of Adam and Beyond /Sashank J. Reddi, Satyen Kale, Sanjiv Kumar .– Published as a conference paper at ICLR 2018. – 2019. – P. 1-23.
  5. Yu. Taranenko Information entropy of chaos. URL: https://habr.com/ru/post/447874/
  6. Tieleman, T. Lecture 6.5-rmsprop: Divide the Gradient by a Running Average of Its Recent Magnitude. / Tieleman, T. and Hinton, G. COURSERA: Neural Networks for Machine Learning. – 2012. – V.4. – P.26-31.
  7. Kingma, Diederik P Auto-Encoding Variational Bayes / Kingma, Diederik P, Welling, Max. – In The 2nd International Conference on Learning Representations (ICLR) – 2013. – V.11. – P. 1-14. DOI: 10.48550/arXiv.1312.6114




DOI: http://dx.doi.org/10.30970/eli.23.6

Посилання

  • Поки немає зовнішніх посилань.