01 Intro to ML

01 Intro to ML#

Термини#

  • входна променлива - explanatory feature, attribute

  • изходна променлива - target variable, output

  • анотация - class,

  • индикаторна променлива = dummy / indicator variable

  • 1-hot encoding

Въведение#

Алгоритми за моделиране на данни

Mерки за добро представяне на модел

Kачество на данни влизащи в модела

Научен метод = искаме да отговорим на въпроси по начин, който може да бъде проверен и евентуално отхвърлен

Обучаване и избор на модели

1 клас: линейни и генерилизирани алг

2 клас: дървета

SVM = Метод на опорните вектори

supervised  ML = обучение с учител

Unsupervised

  • Клъстериране

  • Клъстериране с Outliers

Dim red - основа цел е по-малко колони -> по-бързо

time sseries - времеви редове, фунцкии от времето

arxiv.org

papers with code

paperswithcode.com

codewars.com

projecteuler.net

exercism.org

hackerrank.com

datacamp.com

МЛ#

task = задачи

мета данни = данни за самите данни

3 цели на МЛ работата:

  • да описва (descriptive work)

  • infer / forecasting work: предвиждане (т.е. напред във времето) или моделиране (от извадка за съвупността)

  • предложим едно или друго

целта и на трите горе е една:

на база на данните да намерим подходяща моделираща ф-я която ги описва добре

целта е да опиваме съвкупността по-добре

да проверим грешките от модела, има ли закономерности

опитваме се да наподобим процеса -> това се нарича апроксимация на ф-я или модел

y tilda = предсказан изход

не знаем какво е близък резултат

трябва ни метрика = ф-я на подобие например ф-я за разстояние

observed - estimated = d

как става подобряването? като минимизиране грешката!

параметри на модела - weights, Beta, Thita

ЦЕЛ: търсим аргументите w при които се минимизира cost fn J

всяка една задача може да бъде оптимизирана с GD, но за някои (напр дървета) е по-бързо да ползваме друг метод

МОДЕЛИРАНЕ

имена на променливи - НЕ какво правят (Напр Attribytes, features, target), а какво ПРЕДСТАВЛЯВАТ (addimissions_in_hospital)

dummy vars = 1-hot encoding = indicator vars

GD работи по-добре ако при нормализация запази отношенията между големината на променливите

размах = диапазон

fit() = научи