ШВИДКІСТЬ НАВЧАННЯ ЗГОРТКОВИХ НЕЙРОННИХ МЕРЕЖ НА GPU ТА CPU ДЛЯ ВИЯВЛЕННЯ СИНТЕЗОВАНОЇ МОВИ ЗА ДОПОМОГОЮ СПЕКТРОГРАМ

L. Demkiv

Анотація


Розвиток алгоритмів машинного навчання та синтезу людського мовлення дав поштовх сфері створення так званих “deepfake”. Діпфейк – це штучно створене відео, звукозапис, фото, які копіюють голос і зовнішній вигляд інших людей для того щоб ввести глядача в оману. Зазвичай діпфейки створюються за допомогою алгоритмів машинного навчання. Інструменти для створення діпфейків постійно вдосконалюються і стають дедалі небезпечнішими. Серед них дуже небезпечними є аудіо діпфейки тому, що їх дуже важко розпізнати людині на відміну від відео. Також дедалі популярнішими стають системи з голосовим керуванням, які дозволяють ідентифікувати користувача за допомогою голосу. Саме такі системи є особливо вразливими до аудіо діпфейків. Алгоритми і системи, які дозволяють виявити синтезовані звукозаписи становлять велику цінність для подальшого існування голосової комунікації через мережу інтернет.  

В роботі розроблено і натреновано згорткову нейронну мережу для детектування і класифікації синтезованого мовлення. Hейронну мережу побудовано з декількох шарів згортки, шарів максимальної і усередненої підвибірки. На виході нейронної мережі розміщено шар з одним нейроном із сигмоїдальною функцією активації для визначення типу мовлення.  Розроблено скрипт для генерації мел-спектрограм з вхідного аудіосигналу. Візуальний аналіз та співставлення спектрограм природнього та синтезованого мовлення показує відсутність чітких візуальних ознак за якими можна було б чітко сказати до якого типу мовлення (природнього чи синтезованого) відносяться ці спектрограми. Отримана нейронна мережа володіє високими показниками точності розпізнавання мовлення, яке є представлене за допомогою спектрограм. Проведено порівняння швидкості навчання нейронних мереж на GPU і CPU. Використано інструмент для моніторингу і профілювання процесу навчання нейронних  мереж TensorBoard. Встановлено  що  60%  часу  навчання  мережі витрачається на операції роботи з пам’яттю. Досліджено вплив параметра нейронної мережі batch_size на точність мережі і на швидкість процесу навчання. Для реалізації проекту використано мову програмування Python, бібліотеку TensorFlow у поєднанні з високорівневим API Keras, CUDA та базу звукозаписів ASVspoof 2019 у форматі flac.

Ключові слова: аудіо діпфейк, мел-частотні спектрограми звуку, згорткові нейронні мережі, швидкість навчання нейромереж.


Повний текст:

PDF (English)

Посилання


[1] Nguyen T. Deep Learning for Deepfakes Creation and Detection: A Survey/ T.Nguyen, Q.Nguyen// Cornell Univer. arXivLabs: Computer Vision and Pattern Recognition arXiv:1909.11573

[2] Masood M. Deepfakes Generation and Detection: State-of-the-art, open challenges, countermeasures, and way forward/ M.Masood, M.Nawaz, K.Malik, A.Javed, A.Irtaza // Cornell Univer. Cryptography and Security arXivLabs: arXiv:2103.00484

[3] Almars A. Deepfakes Detection Techniques Using Deep Learning: A Survey / A.Almars //Journal of Computer Science and Engineering 2021, Vol.9 N.5 DOI: 10.4236/jcc.2021.95003

[4] Giudice O. Fighting deepfakes by detecting GAN DCT anomalies/ O.Guidece, L.Guarnera, S.Battiato// Cornell Univer. arXivLabs: Journal Imaging 2021, 7(8), 128 DOI: 10.3390/jimaging7080128/

[5] Ogihara A. Discrimination Method of Synthetic Speech Using Pitch Frequency against Synthetic Speech Falsification / A. Ogihara, U. Hitoshi, A.Shiozaki// Iejce Trans. Fundamentals, Vol. E88–A, N.1 2005. P.280-286 DOI:10.1093/ietfec/E88-A.1.280

[6] Sarasola X. Application of Pitch Derived Parameters to Speech and Monophonic Singing Classification/ X.Sarasola, E.Navas, D.Tavarez, L.Serrano, I.Saratxaga// Applied Science; Basel Vol.9, Iss.15. 2019. DOI: 10.3390/app9153140

[7] Mittal T. Emotions Don’t Lie: An Audio-Visual Deepfake Detection Method Using Affective Cues / T.Mittal, U.Bhattacharya, R.Chandra, A.Bera, D.Manocha // Cornell Univer. arXivLabs: Computer Vision and Pattern Recognition arXiv:2003.06711

[8] Todisco M. ASVspoof 2019: Future Horizons in Spoofed and Fake Audio Detection / M. Todisco, X. Wang, V. Vestman, Md Sahidullah, H. Delgado, A. Nautsch, J. Yamagishi, N. Evans, T. Kinnunen, K. Lee // Cornell Univer. arXivLabs: experimental projects with community collaborators. – 2019. arXiv:1904.05441

[9] Abadi M. TensorFlow: Large_Scale Machine Learning on Heterogeneous Distributed Systems/ M.Abadi, A.Agarwal, Barham P., Brevo E. // Cornell Univer. arXivLabs: Distibuted, Parallel, and Cluster Computing arXiv:1603.04467

[10] Chetlur S. cuDNN: Efficient Priitives for Deep Learning /S.Chetlur, C.Woolley, P.Vandermersch, J.Cohen, J.Tran, Catanzaro, Shelhamer E.// Cornell Univer. arXivLabs: Neural and Evolutionary Computing arXiv:1410.0759




DOI: http://dx.doi.org/10.30970/eli.16.1

Посилання

  • Поки немає зовнішніх посилань.