Про ефективність одгого методу пошуку у великих масивах даних
DOI: http://dx.doi.org/10.30970/vam.2026.36.14058
Анотація
У роботі пропонується та обґрунтовується вдосконалений метод пошуку інформації у великих масивах даних, ключовою особливістю якого є безпосереднє врахування апріорного розподілу ймовірностей звертання до окремих елементів масиву. Актуальність дослідження зумовлена постійним зростанням обсягів неструктурованих даних, де класичні підходи не завжди забезпечують оптимальну швидкість доступу при нерівномірній частоті запитів.
Авторами розроблено алгоритмічну модель, що адаптує структуру пошуку відповідно до статистичних характеристик вхідного потоку запитів. Основна увага приділена дослідженню ефективності запропонованого методу в порівнянні з традиційними інструментами: методом послідовного перегляду та класичним двійковим пошуком. Математичне моделювання та серія чисельних експериментів проводилися для різних сценаріїв розподілу ймовірностей, зокрема для рівномірного розподілу, специфічного “бінарного” закону та емпіричного закону Ціпфа, що описує реальні процеси звернення до інформаційних ресурсів.
Результати порівняльного аналізу демонструють, що для розподілів з високою нерівномірністю (таких як закон Ціпфа) запропонований метод дозволяє суттєво скоротити середню кількість порівнянь, необхідних для знаходження цільового елемента. Встановлено критичні межі ефективності, за яких адаптивний підхід випереджає двійковий пошук. Теоретично доведено, що врахування статистичної природи запитів дозволяє мінімізувати математичне сподівання часу пошуку, що є критично важливим для систем опрацювання великих даних (Big Data) та високонавантажених баз даних. Отримані дані можуть бути використані при проектуванні інтелектуальних систем пошуку та оптимізації структур зберігання даних у сучасних інформаційних комплексах.
Повний текст:
PDFПосилання
Кормен Томас. Г., Лейзерсон Чарлз Е., Рівест Роналд Л., Стайн Кліфорд. Вступ до алгоритмів: Переклад з англійської третього видання. -- К : К.І.С., 2023. -- 1288с.
Мельничин А. В. Ефективність методу двійкового пошуку інформації у файлах баз даних для різних законів розподілу ймовірностей звертання до записів / А. В.Мельничин, Г. Г. Цегелик // Вісн. Львів. ун-ту. Сер. прикл. математика та інформатика. -- 2006. -- Вип. 11. -- С. 213--218.
Філяк М. І. Порівняльний аналіз ефективності методу послідовного перегляду для різних законів розподілу ймовірностей звертання до записів / М. І. Філяк, Г. Г. Цегелик, Х. С. Дороцька // Вісн. НУ “Львівська політехніка”. Сер. Інформаційні системи та мережі. -- 2000. -- №406. -- С. 226--231.
Цегелик Г.Г. Метод пошуку інформації у файлах баз даних, який враховує розподіл імовірностей звертання до записів / Г. Г. Цегелик, А. В. Мельничин // Фізико-математичне моделювання та інформаційні технології. -- 2006. -- Вип. 4. -- С. 169--177
Посилання
- Поки немає зовнішніх посилань.
