03 Data Visualization

03 Data Visualization#

Анализ на данни с цел изледване

Хистограмите показват разпределени на едномерни данни

Честота има 2 значения: - n/m - Брой на опитите, Number, count

Кръгови диаграми (pie charts)

Обновяване в реално време

Коеф на заглаждане

Често графикте са за сравнение

Loglog plot - Когато и двете променливи имат големи диапазони

Порядък 1, порядък 10, порядък 1000

Това в хистограмата е х, е по y в Box plot-а

5num summary = с.describe()

Разпределението ми е изнесено в долната част

На повече от 1.5 интерквартилно разстояние

Квартил = кварта = четвърт

Барчарт - число спрямо категория, оригинална категорийна променлива

То хистграмата прави от непрекъснатата променлива кофи

Данните да са готови преди визуализацията, да са запазени в променлива

При lineplot позлваме коато искаме да покажем връзка между точките

Scatter, 2 приложения: - Корелация, връзката между 2 неща - Зависима спрямо независима променлива

Ако слагам линии, да се питам дали има смисъл интерполацията м/у точките

За лайн плот данните трябва да бъдат подредени спрямо х

Анализ на данни Обосновка Какво искам Правя го Резултати заключение

Radar plot - при циклични категорийна променлива по х ос

Отклонения - да покажем разлика от средното

Exploratory data analysis ЕДА - закономерности и правила в данните Първоначални заключения за данните

Да моделирам границата с права линия

Първична компонента

Линейна комбинация която описва 95 % - PCA