ЗАКОНИ ЦІПФА І ГІПСА ДЛЯ ПРИРОДНОГО ТЕКСТУ ТА ДЕЯКИХ РАНДОМНИХ ТЕКСТІВ НА ЙОГО ОСНОВІ

Oleh Kushnir, V. Buryi, S. Grydzhan, L. Ivanitskyi, Serhiy Rykhlyuk

Анотація


На основі вихідного природного тексту згенеровано рандомізовані тексти Хомського і рандомні тексти “мавпи Міллера”. Рандомні тексти створено за таким алгоритмом: усі літери мають однакову наперед задану ймовірність, а ймовірність розділювача поміж словами (пробілу) задається незалежно від них. Вивчено залежності ранг–частота, розподіли кумулятивної ймовірності Парето, розподіли ймовірності частоти слів і залежності кількості різних слів (словники) від кількості всіх слів як функції довжини тексту. Під рандомними текстами Хомського розуміємо природний текст, рандомізований так, що “слова” в ньому є довільними послідовностями літер і пробілів між найближчими появами деякої наперед визначеної літери (наприклад, i). Виконано порівняння показників степенів, які фігурують у різних степеневих законах, що описують статистику слів для природного тексту і рандомного тексту, а також проаналізовано, наскільки теоретичні співвідношення між цими степенями дотримано на практиці. Згадані співвідношення дещо нагадують аналоги так званих співвідношень універсальності поміж степенями різних критичних параметрів у фізиці критичних явищ. Емпірично доведено, що показники α і β законів Ціпфа і розподілу ймовірності слів для рандомних текстів Хомського обмежені нерівностями α < 1 і β > 1, тоді як показник закону Гіпса для словника повинен становити η ≈ 1. Ці результати порівняно з даними для текстів мавпи Міллера. З’ясовано, що словник текстів Хомського багатший, ніж словник текстів мавпи Міллера. Виявлено, що закон Гіпса для рандомних текстів Хомського виконується з винятковою точністю, схоже до рандомних текстів, генерованих згідно з процесом “intermittence silence”. Це дещо відмінне від ситуації для достатньо довгих природних текстів, які виявляють дещо “випуклу” залежність словника від довжини тексту, побудовану в подвійному логарифмічному масштабі.

Ключові слова: рандомні тексти, рандомізовані тексти, тексти мавпи Міллера, рандомізація Хомського, степеневі закони, закон Ціпфа, розподіл Парето, розподіл імовірності частоти слів, закон Гіпса


Повний текст:

PDF (English)


DOI: http://dx.doi.org/10.30970/eli.9.94

Посилання

  • Поки немає зовнішніх посилань.