ВИКОРИСТАННЯ МЕТОДІВ МАШИННОГО НАВЧАННЯ ТА СЕМАНТИЧНИХ ОЗНАК В ІНТЕЛЕКТУАЛЬНОМУ АНАЛІЗІ ТЕКСТОВИХ ДАНИХ

Bohdan Pavlyshenko

Анотація


У роботі досліджено використання семантичних ознак в інтелектуальному аналізі текстових даних, зокрема у класифікації текстових документів. Як семантичні ознаки, розглянуто семантичні та тематичні поля, складові сингулярного розкладу матриці TF-IDF та складові латентного розміщення Діріхле. Класифікаційний аналіз здійснено за допомогою алгоритму Random Forest та алгоритмів глибинного навчання нейромереж із різною структурою із використанням двонаправлених шарів  із  довгою короткочасною пам’яттю (LSTM). Використання широкого класу семантичних ознак у задачах інтелектуального аналізу диверсифікує аналітичні підходи і збільшує простір ознак в аналітичних задачах, що є важливим при невеликій кількості даних та при аналізі нестаціонарних процесів.

Ключові слова: аналіз текстів, семантичні ознаки текстів, класифікація текстів, нейронні мережі.

Повний текст:

PDF


DOI: http://dx.doi.org/10.30970/eli.13.1

Посилання

  • Поки немає зовнішніх посилань.