02 Data Tidying

02 Data Tidying#

Подреждане и Почистване

Подреждане

Клетка = едно наблюдение на една променлива

Подредени данни

Dataset = Множество от данни. Множество означава че всички наблюдения са уникални.

Неструктурирани данни

Pew

Осева таблица = pivot table Удобна за преглеждане, но

Melting = процес да превърнем от осева към подредена таблица

Pivot = обратното на мелтинг

NaN = Попринцип 0 / 0, но в контекста на данни означава липсващи данни

Индексиране със списък df[[“iso2”, “year”…] ]

Запълване на данни - imputations

2ро ниво на индекс

Селекция = филтриране редове (filtering)

Проекция = филтриране колони (feature selection)

Агрегираща функция = взима много стойноси и връща една стойност. Примери: min, man, count, std, mean, median…

Булева фунция = предикат = mask

Опознавателен анализ

Средното не е представително за данните

Feature eng = измислям си нови колони на базата на това което знам за данните

Относителна влажност (RH)

Средна темп по изчисление

Честота на срещане