Міжмовна аудіотранскрипція з використанням рекурентних нейронних мереж
Анотація
У даній статті розглядається задача міжмовної аудіотранскрипції — автоматичного перетворення аудіозапису мовлення однією мовою на текст іншою мовою. Основна мета полягає у розробці системи для транскрибування аудіо за допомогою рекурентних нейронних мереж (RNN). У роботі аналізуються сучасні підходи до вирішення даної задачі, включаючи використання нейромереж типу LSTM для покращення точності розпізнавання мовлення. Було проведено чисельні експерименти з використанням датасету LibriSpeech та оцінено ефективність моделі за допомогою метрик точності, Word Error Rate (WER) та BLEU для перекладу. Отримані результати свідчать про високу точність моделі та можливість її подальшого вдосконалення для покращення якості транскрипції й перекладу мовлення.
Повний текст:
PDFПосилання
https://arxiv.org/pdf/2212.04356
https://venturebeat.com/ai/how-will-openais-whisper-model-impact-ai-applications
https://research.nvidia.com/publication/2019-04_jasper-end-end-convolutional-neural-acoustic-model
https://github.com/mozilla/DeepSpeech
https://whisperui.com/blog/how-openai-whisper-works
https://www.researchgate.net/publication/12292425_Learning_to_Forget_Continual_Prediction_with_LSTM
https://paperswithcode.com/dataset/librispeech
https://colah.github.io/posts/2015-08-Understanding-LSTMs
https://www.ibm.com/topics/recurrent-neural-networks
DOI: http://dx.doi.org/10.30970/vam.2024.32.12428
Посилання
- Поки немає зовнішніх посилань.
