02 Data Tidying#
Подреждане и Почистване
Подреждане
Клетка = едно наблюдение на една променлива
Подредени данни
Dataset = Множество от данни. Множество означава че всички наблюдения са уникални.
Неструктурирани данни
Pew
Осева таблица = pivot table Удобна за преглеждане, но
Melting = процес да превърнем от осева към подредена таблица
Pivot = обратното на мелтинг
NaN = Попринцип 0 / 0, но в контекста на данни означава липсващи данни
Индексиране със списък df[[“iso2”, “year”…] ]
Запълване на данни - imputations
2ро ниво на индекс
Селекция = филтриране редове (filtering)
Проекция = филтриране колони (feature selection)
Агрегираща функция = взима много стойноси и връща една стойност. Примери: min, man, count, std, mean, median…
Булева фунция = предикат = mask
Опознавателен анализ
Средното не е представително за данните
Feature eng = измислям си нови колони на базата на това което знам за данните
Относителна влажност (RH)
Средна темп по изчисление
Честота на срещане