Квантові розподіли і дослідження текстів: температура та література
DOI: http://dx.doi.org/10.30970/uam.2019.27.1061
Анотація
Ранґово-частотні розподіли слів у текстах мають низку спільних рис
із розподілами частинок за енерґіями, які відомі у статистичній фі-
зиці. Це дає можливість на підставі аналогії з фізичними системами
запропонувати новий набір параметрів, за допомогою якого можна здійс-
нювати атрибуцію текстів, що є прикладами складних систем. Зокрема,
вийшло показати зв’язок цих параметрів із типологічною класифікацією
мов за рівнем аналітичности та проілюструвати еволюцію в межах кіль-
кох мовних «родоводів».
Запропоновані параметри розраховано за частотними даними слів,
які рідко трапляються в текстах. Виявляється, що цю частину ранґо-
во-частотного розподілу характеризує стабільніша поведінка, на відмі-
ну від високочастотної лексики, яку використовували деякі інші автори
в подібних дослідженнях.
Один із параметрів, використаних у класифікації, є аналогом темпера-
тури у фізиці. Його менші значення відповідають мовам із вищим рівнем
аналітичности (менш розвиненою словозміною, яку фактично заміняє
більша кількість допоміжних слів та фіксованість порядку слів у речен-
нях). Частка рідковживаної лексики в таких мовах є іншою порівняно
з мовами, в яких добре розвинена словозміна.
Наш підхід продемонстровано на прикладі перекладів новели-казки
Антуана де Сент-Екзюпері «Маленький принц» та Євангелія від Івана.
Перший твір, який належить до текстів секулярного (світського) ха-
рактеру, перекладено понад 200 мовами, із яких ми аналізуємо близько
40. Євангеліє взято для вивчення розвитку мови в історичному розрізі,
оскільки саме релігійні тексти можна знайти в перекладах, віддалених
у часі на кілька століть.
Одержані результати показують нові виміри раніше відомих понять.
Їх розглянуто в ширшому контексті лігвостатистичних та лінгвофіло-
софських досягнень Вільгельма фон Гумбольдта, Морріса Сводеша, Джо-
зефа Ґрінберґа, Ґабріеля Альтмана, Райнгарда Кьолера.
Ключові слова: закон Ціпфа, ранґово-частотний розподіл, атрибуція тек-
стів, «температура» тексту, еволюція мов.
із розподілами частинок за енерґіями, які відомі у статистичній фі-
зиці. Це дає можливість на підставі аналогії з фізичними системами
запропонувати новий набір параметрів, за допомогою якого можна здійс-
нювати атрибуцію текстів, що є прикладами складних систем. Зокрема,
вийшло показати зв’язок цих параметрів із типологічною класифікацією
мов за рівнем аналітичности та проілюструвати еволюцію в межах кіль-
кох мовних «родоводів».
Запропоновані параметри розраховано за частотними даними слів,
які рідко трапляються в текстах. Виявляється, що цю частину ранґо-
во-частотного розподілу характеризує стабільніша поведінка, на відмі-
ну від високочастотної лексики, яку використовували деякі інші автори
в подібних дослідженнях.
Один із параметрів, використаних у класифікації, є аналогом темпера-
тури у фізиці. Його менші значення відповідають мовам із вищим рівнем
аналітичности (менш розвиненою словозміною, яку фактично заміняє
більша кількість допоміжних слів та фіксованість порядку слів у речен-
нях). Частка рідковживаної лексики в таких мовах є іншою порівняно
з мовами, в яких добре розвинена словозміна.
Наш підхід продемонстровано на прикладі перекладів новели-казки
Антуана де Сент-Екзюпері «Маленький принц» та Євангелія від Івана.
Перший твір, який належить до текстів секулярного (світського) ха-
рактеру, перекладено понад 200 мовами, із яких ми аналізуємо близько
40. Євангеліє взято для вивчення розвитку мови в історичному розрізі,
оскільки саме релігійні тексти можна знайти в перекладах, віддалених
у часі на кілька століть.
Одержані результати показують нові виміри раніше відомих понять.
Їх розглянуто в ширшому контексті лігвостатистичних та лінгвофіло-
софських досягнень Вільгельма фон Гумбольдта, Морріса Сводеша, Джо-
зефа Ґрінберґа, Ґабріеля Альтмана, Райнгарда Кьолера.
Ключові слова: закон Ціпфа, ранґово-частотний розподіл, атрибуція тек-
стів, «температура» тексту, еволюція мов.
Повний текст:
PDFПосилання
- Поки немає зовнішніх посилань.