Векторні представлення слів для української мови

Andriy ROMANYUK


DOI: http://dx.doi.org/10.30970/uam.2019.27.1062

Анотація


У  статті розглянуто питання векторного представлення слів (word
embedding). Векторні представлення – це основний спосіб подан-
ня  слів  у  сучасних  системах  опрацювання  природної  мови.  Для
української мови розроблення векторних представлень слів та їхнє до-
слідження залишається актуальним завданням. У статті подано загаль-
новідомий опис поняття векторного представлення та наведено коротку
характеристику технологій його створення. Першою технологією для об-
числення векторних представлень була word2vec. На прикладі word2vec
показано сучасні підходи до таких обчислень з використанням нейронних
мереж. Наведено перелік реалізацій методів та алгоритмів для побудови
векторних представлень. Подальшим розвитком технології word2vec ста-
ла модель FastText, у статті описано, чим відрізняється модель FastText від
word2vec та наведено переваги цієї моделі.
Векторні представлення стали застосовувати у розв’язанні більшости
практичних завдань опрацювання природної мови, а одним із останніх
таких застосувань є спосіб автоматичної побудови перекладних словни-
ків. Попередній аналіз побудованого в такий спосіб перекладного словни-
ка для української мови засвідчив, що більшість слів англо-українського
словника відсутня в словнику української мови ВЕСУМ. Для української
мови відомі векторні представлення на основі word2vec, Glove, lex2vec,
FastText. Для демонстрації можливостей обчислених моделей було вико-
ристано  бібліотеку  gensim  та  наведено  результати  повторення  відомих
обчислювальних експериментів.
Відзначено, що для української мови не підтверджується гіпотеза про
наявність упереджень та стереотипів у таких моделях мови. Оцінка яко-
сті векторних представлень залишається актуальним завданням. Наве-
дено  результати  оцінювання  векторних  представлень  на  основі  тестів аналогій  та  запропоновано  здійснити  адаптацію  даних  з  українського
асоціятивного словника для побудови набору даних для оцінювання яко-
сти векторних представлень. Зроблено висновок про потребу в розвитку
досліджень у галузі створення та використання векторних представлень
для української мови та наведено перелік актуальних завдань, над якими
доцільно працювати.
Ключові слова: опрацювання природної мови, векторне представлення
слова, word2vec, FastText.

Повний текст:

PDF

Посилання

  • Поки немає зовнішніх посилань.