06 Regression#

3 вида статистика: описателна (описваме какво виждаме от данните), прогнозна (предвиждане за бъдещето), предписателна (взимаме решение)

data analytics != data science analytics: показване на метрики, science: feature selection / extraction / engineering,

Регресионни модели#

всеки процес може да се опише като функция с вход и изход схоластична = случайна

СЛУЧАЙНА ПРОМЕНЛИВА случайна променлива = има случайни елементи, които и влияят пример: разстоянието от забитата стреличка дартс до центъра на дъската случайната пром няма фиксирани стойности всяка стойност която мерим е всъщност разпределение, т.е. вероятности да е някакви интервали

правим проучване -> формулираме хипотеза -> правим експеримент (контролираме входните данни) ->

МОДЕЛ model = опростена версия на реалното важно е да върши работа, да е достат добър има предположения, има опростявания

Machine leaning = автоматизирано

Модел != алгоритъм

интерполация != апроксимация (задължително през точките) != (най-близо до разпределенията на всички точки)

точките на графиката не са фиксирани (error bars)

РЕГРЕСИЯ С/У КЛАСИФИКАЦИЯ регресионни задачи и задачи за класификация 2те най-използвани класове задачи с който предсказваме Р = предсказваме непрекъсната пром - колко ще е темп утре К = предсказваме категория - дали на снимка е котка или не

както извадката показва за съвкупност, така модела показва за реалността

независими = входни данни зависими = изходни данни

често между входните данни има зависимости

автокорелация = пример: корелация на променлива сама със себе си в time series между два последователни дни

периодичност, цикличност, повтаряемост също се нарича сезонност (не задължително периода да е сезон)

ще искаме да моделираме правата линия с нейното уравнение

данните са y, Модела е y_tilda (за да различим от y) това е нашата хипотеза за изхода a,b = коеф които търсим

функция = Моделираща функция

модели на данните:

ортогонална регресия

за да сметне общото разстояние от точките до правата, компютърът ползва сивите отсечки, а не червените причината: по-бързо е за смятане

Errors#

mean sq error MSE error - защото е разлика между измерени и предсказани точки mean - защото е средно аритметично измисляме метрика за разстоянието Която ни е удобна да смятаме - в случея MSE това е Loss фунцкията МСЕ е индикация дали модела ни е добър, може да сравняваме 2 модела (2 линии)

квадратични разлики

total cost func loss func

mean abs error

Минимизират функцията

Градиентен метод#

Градиентен метод = gradient descent

descent = слизане gradient на функция = вектор от всички нейни частни първи производни del = \partial

вектор = насочена отсечка вектор = масив от числа

градиентът са стрелките долу

Градиентът сочи накъде расте най-много (посоката) и с колко расте (големината)

Г се държи като производна

ако искаме да видим накъде намаляваме най-бързо -

ползваме Г за да: - за да открием кои параметри на cost фунцкията тя е в минимум, я минимизират - да намерим линия която е най-близо до измерените точки

Нp.random.seed(4242) reproducibility възпроизводимост на проучването - random генераторите ще дават един и също резултат при стартиране

reshape(-1,1) -1 означава колкото дойде - толкова редове

Градиентният метод се ползва НАВСЯКЪДЕ освен при лин регресия

генерализиран линеен модел GLM

обличаме нормалната лин регресия в нова ф-я