Що таке впорядковані дані?

Впорядковані дані або охайні дані (англ. Tidy Data) – це добре структуровані дані, які не потребують додаткової очистки та маніпуляцій для їхньої обробки машиночитним способом. Такі набори даних організовані так, що кожна змінна є стовпчиком, а кожне спостереження є рядком. 

Хедлі Вікхем у “Журналі статичного програмного забезпечення” перефразовує Льва Толстого і зазначає: “Всі впорядковані набори даних схожі, натомість кожен брудний набір брудний по-своєму”. Автор також наводить досить популярну статистику: “80% аналізу даних – це час витрачений на їхню підготовку”. Саме тому важливо забезпечити не лише наявність інформації, але й високу якість та структурованість даних.

Безумовно усі набори даних відрізняються, бо несуть різну інформацію. Проте відомий дата-вчений Джефф Лік у своїй книзі “Елементи аналітичного стилю даних” підсумовує чотири головні характеристики будь-яких чистих даних:

  1. Кожна змінна (variable), яку ви вимірюєте, повинна бути в одному стовпці.
  2. Кожне окреме спостереження (observation) цієї змінної – в окремому рядку.
  3. Для кожного “виду” змінної має бути одна таблиця.
  4. Якщо у вас є декілька таблиць – вони повинні включати стовпець (ідентифікатор) у таблиці, завдяки якому їх можна поєднати.

https://lh3.googleusercontent.com/Xc4QyzMtyk7EPJC6Cc0RZBgUwS-5fYzD9O3MbPNnJWUA4-0Ivufjd-2MFfxiVW1mJFzjwTb1oym9f5kzuE26N2CDoU3Bn0C6lfIJASiqTg-1wk0xmgltXQXY6H3k2RJtjNeXei-r4DnL90SGTA

У простому розумінні, значна частина даних – це таблиці. Таблиця – це впорядкована сукупність стовпчиків та рядків. 

Один рядок таблиці – це одна одиниця Ваших даних, мовою статистики, одне спостереження

Один стовпчик – це одна змінна, тобто значення, яке змінюється від рядка до рядка.

Як приклад впорядкованих даних, можемо розглянути інформацію про студентів університету. Кожен студент – це окреме спостереження, яке має свої унікальні характеристики – це і є змінні. Такими змінними можуть виступати ім’я, стать, вік, колір волосся, дата народження, гастрономічні смаки тощо.

Тобто, стандарт охайних даних розроблений того, щоб полегшити початкове сприйняття даних та їхній подальший аналіз, а також для спрощення розвитку інструментів аналізу даних, які добре працюють в сукупності.