02 Linear and Logistic Regression

02 Linear and Logistic Regression#

корелацията може да се използва за да се моделира

казва се логистичната регресия, но прави класификация

Linear Regression#

регресия - да предсказваме непрекъснати target променливи

ако категориина променлива има подредба, например рейтинг от 1 до 5, може вместо класификация да използваме регресия

навсякъде където имаме вектори, по конвенция те са вектор-стълбове. Така не се занимаваме с транспониране.

a, w = тегловни коефициенти

y_tilda = Xa = w^T * X^T второто с w e Кофти защото записите в Х са по колони, което не съвпада с data science конвенцията

Параметри, които се променят по време на GD. a_0 са се умножава по колоната b

функция на грешката = total cost function Мярка за разстояние

средно квадратична грешка (MSE)

математическо очакване за разликите от квадратите на разстоянията между предсказано и реално

MSE е метрика която ползваме за регресия, за моделиране

крос ентропия е метриката, която най-често ползваме за класификация

моделиращата функция

градиент = вектор от производни всички наредени частни производни

правим стъпка в посока обратна на градиента (т.е. да слезем)

Когато правим нова стъпка, тя е спрямо градиента в текущата позиция (а не в първоначалната)

алгоритми, които се опитват с оптимални стъпки - greedy (алчни)

Модел “заседнал” в локален минимум може все пак да е достатъчно добър

процес по оптимизация = GD = Минимизиране G

силна корелация

по коефициентите долу може да кажем коя променлива е най-значима за модела

scaler = MinMaxScaler() scaler.fit_transofrm(attribute_data) scaler.inverse_transform()

резултатите от scoring оценяваме на модела са случайни променливи т.е. имат разпределение, не са фиксирани стойности

heteroscedasticity - дисперсията на данните е различна

мултиколиеарност - входните променливи имат корелация помежду си, например площ на апартамент и брой стай

автокорелация - променлива, която корелира сама със себе си, най-често за time series - стойността днес зависи много от стойността вчера

Контролиран експеримент - променяме само една променлива, контролна проба ни е предния резултат

RANSAC Random sample consensus

напр 13 променливи ->, 14 параметъра на моделиращата ф-я -> започваме само със 14 точки (записа)

идеята е моделираме / описваме само inlier-ите след като премахнем outlier-Ите

интересна употреба: търсим равнина на снимка (plane detection) -> даваме 3 точки от равнината и пускаме RANSAC - той ще ти открие всички останали точки

Много е полезен ако знаем че имаме оутлайири и искаме да видим каква част са от всички записи

Extensions: Polynomial Regression

Logistic regression