01 Intro to ML#
Термини#
входна променлива - explanatory feature, attribute
изходна променлива - target variable, output
анотация - class,
индикаторна променлива = dummy / indicator variable
1-hot encoding
Въведение#
Алгоритми за моделиране на данни
Mерки за добро представяне на модел
Kачество на данни влизащи в модела
Научен метод = искаме да отговорим на въпроси по начин, който може да бъде проверен и евентуално отхвърлен
Обучаване и избор на модели
1 клас: линейни и генерилизирани алг
2 клас: дървета
SVM = Метод на опорните вектори
supervised ML = обучение с учител
Unsupervised
Клъстериране
Клъстериране с Outliers
Dim red - основа цел е по-малко колони -> по-бързо
time sseries - времеви редове, фунцкии от времето
МЛ#
task = задачи
мета данни = данни за самите данни
3 цели на МЛ работата:
да описва (descriptive work)
infer / forecasting work: предвиждане (т.е. напред във времето) или моделиране (от извадка за съвупността)
предложим едно или друго
целта и на трите горе е една:
на база на данните да намерим подходяща моделираща ф-я която ги описва добре
целта е да опиваме съвкупността по-добре
да проверим грешките от модела, има ли закономерности
опитваме се да наподобим процеса -> това се нарича апроксимация на ф-я или модел
y tilda = предсказан изход
не знаем какво е близък резултат
трябва ни метрика = ф-я на подобие например ф-я за разстояние
observed - estimated = d
как става подобряването? като минимизиране грешката!
параметри на модела - weights, Beta, Thita
ЦЕЛ: търсим аргументите w при които се минимизира cost fn J
всяка една задача може да бъде оптимизирана с GD, но за някои (напр дървета) е по-бързо да ползваме друг метод
МОДЕЛИРАНЕ
имена на променливи - НЕ какво правят (Напр Attribytes, features, target), а какво ПРЕДСТАВЛЯВАТ (addimissions_in_hospital)
dummy vars = 1-hot encoding = indicator vars
GD работи по-добре ако при нормализация запази отношенията между големината на променливите
размах = диапазон
fit() = научи