ЗАКОНИ ЦІПФА І ГІПСА ДЛЯ ПРИРОДНОГО ТЕКСТУ ТА ДЕЯКИХ РАНДОМНИХ ТЕКСТІВ НА ЙОГО ОСНОВІ
Анотація
На основі вихідного природного тексту згенеровано рандомізовані тексти Хомського і рандомні тексти “мавпи Міллера”. Рандомні тексти створено за таким алгоритмом: усі літери мають однакову наперед задану ймовірність, а ймовірність розділювача поміж словами (пробілу) задається незалежно від них. Вивчено залежності ранг–частота, розподіли кумулятивної ймовірності Парето, розподіли ймовірності частоти слів і залежності кількості різних слів (словники) від кількості всіх слів як функції довжини тексту. Під рандомними текстами Хомського розуміємо природний текст, рандомізований так, що “слова” в ньому є довільними послідовностями літер і пробілів між найближчими появами деякої наперед визначеної літери (наприклад, i). Виконано порівняння показників степенів, які фігурують у різних степеневих законах, що описують статистику слів для природного тексту і рандомного тексту, а також проаналізовано, наскільки теоретичні співвідношення між цими степенями дотримано на практиці. Згадані співвідношення дещо нагадують аналоги так званих співвідношень універсальності поміж степенями різних критичних параметрів у фізиці критичних явищ. Емпірично доведено, що показники α і β законів Ціпфа і розподілу ймовірності слів для рандомних текстів Хомського обмежені нерівностями α < 1 і β > 1, тоді як показник закону Гіпса для словника повинен становити η ≈ 1. Ці результати порівняно з даними для текстів мавпи Міллера. З’ясовано, що словник текстів Хомського багатший, ніж словник текстів мавпи Міллера. Виявлено, що закон Гіпса для рандомних текстів Хомського виконується з винятковою точністю, схоже до рандомних текстів, генерованих згідно з процесом “intermittence silence”. Це дещо відмінне від ситуації для достатньо довгих природних текстів, які виявляють дещо “випуклу” залежність словника від довжини тексту, побудовану в подвійному логарифмічному масштабі.
Ключові слова: рандомні тексти, рандомізовані тексти, тексти мавпи Міллера, рандомізація Хомського, степеневі закони, закон Ціпфа, розподіл Парето, розподіл імовірності частоти слів, закон Гіпса
Повний текст:
PDF (English)DOI: http://dx.doi.org/10.30970/eli.9.94
Посилання
- Поки немає зовнішніх посилань.