Векторні представлення слів для української мови
DOI: http://dx.doi.org/10.30970/uam.2019.27.1062
Анотація
У статті розглянуто питання векторного представлення слів (word
embedding). Векторні представлення – це основний спосіб подан-
ня слів у сучасних системах опрацювання природної мови. Для
української мови розроблення векторних представлень слів та їхнє до-
слідження залишається актуальним завданням. У статті подано загаль-
новідомий опис поняття векторного представлення та наведено коротку
характеристику технологій його створення. Першою технологією для об-
числення векторних представлень була word2vec. На прикладі word2vec
показано сучасні підходи до таких обчислень з використанням нейронних
мереж. Наведено перелік реалізацій методів та алгоритмів для побудови
векторних представлень. Подальшим розвитком технології word2vec ста-
ла модель FastText, у статті описано, чим відрізняється модель FastText від
word2vec та наведено переваги цієї моделі.
Векторні представлення стали застосовувати у розв’язанні більшости
практичних завдань опрацювання природної мови, а одним із останніх
таких застосувань є спосіб автоматичної побудови перекладних словни-
ків. Попередній аналіз побудованого в такий спосіб перекладного словни-
ка для української мови засвідчив, що більшість слів англо-українського
словника відсутня в словнику української мови ВЕСУМ. Для української
мови відомі векторні представлення на основі word2vec, Glove, lex2vec,
FastText. Для демонстрації можливостей обчислених моделей було вико-
ристано бібліотеку gensim та наведено результати повторення відомих
обчислювальних експериментів.
Відзначено, що для української мови не підтверджується гіпотеза про
наявність упереджень та стереотипів у таких моделях мови. Оцінка яко-
сті векторних представлень залишається актуальним завданням. Наве-
дено результати оцінювання векторних представлень на основі тестів аналогій та запропоновано здійснити адаптацію даних з українського
асоціятивного словника для побудови набору даних для оцінювання яко-
сти векторних представлень. Зроблено висновок про потребу в розвитку
досліджень у галузі створення та використання векторних представлень
для української мови та наведено перелік актуальних завдань, над якими
доцільно працювати.
Ключові слова: опрацювання природної мови, векторне представлення
слова, word2vec, FastText.
embedding). Векторні представлення – це основний спосіб подан-
ня слів у сучасних системах опрацювання природної мови. Для
української мови розроблення векторних представлень слів та їхнє до-
слідження залишається актуальним завданням. У статті подано загаль-
новідомий опис поняття векторного представлення та наведено коротку
характеристику технологій його створення. Першою технологією для об-
числення векторних представлень була word2vec. На прикладі word2vec
показано сучасні підходи до таких обчислень з використанням нейронних
мереж. Наведено перелік реалізацій методів та алгоритмів для побудови
векторних представлень. Подальшим розвитком технології word2vec ста-
ла модель FastText, у статті описано, чим відрізняється модель FastText від
word2vec та наведено переваги цієї моделі.
Векторні представлення стали застосовувати у розв’язанні більшости
практичних завдань опрацювання природної мови, а одним із останніх
таких застосувань є спосіб автоматичної побудови перекладних словни-
ків. Попередній аналіз побудованого в такий спосіб перекладного словни-
ка для української мови засвідчив, що більшість слів англо-українського
словника відсутня в словнику української мови ВЕСУМ. Для української
мови відомі векторні представлення на основі word2vec, Glove, lex2vec,
FastText. Для демонстрації можливостей обчислених моделей було вико-
ристано бібліотеку gensim та наведено результати повторення відомих
обчислювальних експериментів.
Відзначено, що для української мови не підтверджується гіпотеза про
наявність упереджень та стереотипів у таких моделях мови. Оцінка яко-
сті векторних представлень залишається актуальним завданням. Наве-
дено результати оцінювання векторних представлень на основі тестів аналогій та запропоновано здійснити адаптацію даних з українського
асоціятивного словника для побудови набору даних для оцінювання яко-
сти векторних представлень. Зроблено висновок про потребу в розвитку
досліджень у галузі створення та використання векторних представлень
для української мови та наведено перелік актуальних завдань, над якими
доцільно працювати.
Ключові слова: опрацювання природної мови, векторне представлення
слова, word2vec, FastText.
Повний текст:
PDFПосилання
- Поки немає зовнішніх посилань.