02 Linear and Logistic Regression#
корелацията може да се използва за да се моделира
казва се логистичната регресия, но прави класификация
Linear Regression#
регресия - да предсказваме непрекъснати target променливи
ако категориина променлива има подредба, например рейтинг от 1 до 5, може вместо класификация да използваме регресия
навсякъде където имаме вектори, по конвенция те са вектор-стълбове. Така не се занимаваме с транспониране.
a, w = тегловни коефициенти
y_tilda = Xa = w^T * X^T второто с w e Кофти защото записите в Х са по колони, което не съвпада с data science конвенцията
Параметри, които се променят по време на GD. a_0 са се умножава по колоната b
функция на грешката = total cost function Мярка за разстояние
средно квадратична грешка (MSE)
математическо очакване за разликите от квадратите на разстоянията между предсказано и реално
MSE е метрика която ползваме за регресия, за моделиране
крос ентропия е метриката, която най-често ползваме за класификация
моделиращата функция
градиент = вектор от производни всички наредени частни производни
правим стъпка в посока обратна на градиента (т.е. да слезем)
Когато правим нова стъпка, тя е спрямо градиента в текущата позиция (а не в първоначалната)
алгоритми, които се опитват с оптимални стъпки - greedy (алчни)
Модел “заседнал” в локален минимум може все пак да е достатъчно добър
процес по оптимизация = GD = Минимизиране G
силна корелация
по коефициентите долу може да кажем коя променлива е най-значима за модела
scaler = MinMaxScaler() scaler.fit_transofrm(attribute_data) scaler.inverse_transform()
резултатите от scoring оценяваме на модела са случайни променливи т.е. имат разпределение, не са фиксирани стойности
heteroscedasticity - дисперсията на данните е различна
мултиколиеарност - входните променливи имат корелация помежду си, например площ на апартамент и брой стай
автокорелация - променлива, която корелира сама със себе си, най-често за time series - стойността днес зависи много от стойността вчера
Контролиран експеримент - променяме само една променлива, контролна проба ни е предния резултат
RANSAC Random sample consensus
напр 13 променливи ->, 14 параметъра на моделиращата ф-я -> започваме само със 14 точки (записа)
идеята е моделираме / описваме само inlier-ите след като премахнем outlier-Ите
интересна употреба: търсим равнина на снимка (plane detection) -> даваме 3 точки от равнината и пускаме RANSAC - той ще ти открие всички останали точки
Много е полезен ако знаем че имаме оутлайири и искаме да видим каква част са от всички записи
Extensions: Polynomial Regression
Logistic regression