Міжмовна аудіотранскрипція з використанням рекурентних нейронних мереж

Софія Андріївна Матвіїв, Юрій Анатолійович Музичук

Анотація


У даній статті розглядається задача міжмовної аудіотранскрипції — автоматичного перетворення аудіозапису мовлення однією мовою на текст іншою мовою. Основна мета  полягає у розробці системи для транскрибування аудіо за допомогою рекурентних нейронних мереж (RNN). У роботі аналізуються сучасні підходи до вирішення даної задачі, включаючи використання нейромереж типу LSTM для покращення точності розпізнавання мовлення. Було проведено чисельні експерименти з використанням датасету LibriSpeech та оцінено ефективність моделі за допомогою метрик точності, Word Error Rate (WER) та BLEU для перекладу. Отримані результати свідчать про високу точність моделі та можливість її подальшого вдосконалення для покращення якості транскрипції й перекладу мовлення.

Повний текст:

PDF

Посилання


https://arxiv.org/pdf/2212.04356

https://venturebeat.com/ai/how-will-openais-whisper-model-impact-ai-applications

https://research.nvidia.com/publication/2019-04_jasper-end-end-convolutional-neural-acoustic-model

https://github.com/mozilla/DeepSpeech

https://whisperui.com/blog/how-openai-whisper-works

https://www.researchgate.net/publication/12292425_Learning_to_Forget_Continual_Prediction_with_LSTM

https://paperswithcode.com/dataset/librispeech

https://colah.github.io/posts/2015-08-Understanding-LSTMs

https://www.ibm.com/topics/recurrent-neural-networks




DOI: http://dx.doi.org/10.30970/vam.2024.32.12428

Посилання

  • Поки немає зовнішніх посилань.