Про підготовку даних до аналізу у соціально-економічних дослідженнях
Анотація
Анотація. Соціально-економічні дослідження охоплюють питання рівня та якості життя, економічної активності, доступності та якості соціальних послуг, освіти тощо. Крім населення, об’єктом соціально-економічних досліджень є діяльність підприємств, регіональний і муніципальний розвиток, суспільна діяльність державних та громадських організацій тощо.
Для проведення будь-якого дослідження потрібні певні джерела інформації – дані. Від правильно сформованої бази даних залежить не тільки легкість подальшої роботи, а й зміст кінцевих результатів. Під час аналізу даних відбуваються такі процеси: отримання даних, опрацювання, аналіз та інтерпретація результатів. Саме на опрацювання вхідних даних аналітик витрачає найбільше часу, адже це один із найважливіших і найбільш трудомістких процесів.
Отже, було поставлене питання, чи впливає попереднє опрацювання даних на поліпшення змісту та надійності статистичних звітів на підставі цих даних. Таке дослідження провели, щоб визначити етапи перетворення мікроданих вибіркового обстеження домогосподарств та узагальнити статистичні методи підготовки «сирих» даних у технічно коректні дані, які придатні до аналізу. Для цього застосовано різні способи очищення та опрацювання даних, зокрема методи виявлення та усунення нетипових значень, коректного імпорту даних, сортування рядків, модифікації типів даних та їхніх якісних складових. У статті описано технічні та предметні аспекти очищення даних. Для безпосереднього опрацювання даних використано мову програмування R, що є одним з найкращих інструментів для статистичних обчислень, аналізу та зображення даних у графічному вигляді. Технічні аспекти охоплюють зчитування даних, перетворення типів даних, зіставлення рядків і різні маніпуляції. Аспекти, які пов’язані з предметом, охоплюють такі теми: перевірка даних, локалізація помилок та імпутація значень.
За результатами дослідження сформульовано висновки, що такі дії, як видалення непотрібних значень, їх фільтрування, групування чи заміна некоректних даних, суттєво впливають на результати статистичного аналізу, адже опрацювання даних безпосередньо спрямоване на поліпшення змісту та надійності статистичних звітів на підставі цих даних.
Ключові слова: перетворення даних, очищення даних, статистичний аналіз, опрацювання даних, методи підготовки даних.
Повний текст:
PDFПосилання
- Поки немає зовнішніх посилань.