04 Images and Text#

Images#

Структурираните данни имат модел - колконите им, feature-ите им

Да подготвим данните и да изкараме от тах feature-и - това се нарича data mining

Морфология на изображения

Къде има ъгли, ръбове, граници между обект и фон, да махнем шум (лоу-пас филтър)

Анализ на честоти (колко пъти се среща дума в текст)

Библиотеки за чтене на изображения = Python Image Library PIL, opencv2 (cv2), skimage

Размерите при изображ - обратно

Пространствени размери и 3ти размер - канали

Синя компонента

8битови (256)

Хистограма на изобр

Хистограма = честототно разпределиение - как са разпределени стойностите

Np.hist()

Типичо разстояние колко далече е всяка една от т

Пиково отношение сигнал - шум = max() / std()

Отношение сигнал - шум = mean()/std()

Циан, магента, жълто

Гамакорекция - начин да направим изображение адекватно на нашето зрение

Конволюция#

Конволюция = Крос-корелация в математиката = смесване

Да смесим изображението (матрица с 1 канал) с една нова

Тегловни коефициенти

Kernal-а ни помага да прегедлим пикселите около нашия централен

Прилагаме филтъра и получаваме ново число

Ядро, филтър = kernal, filter

Ното изобр трябва да е -2 пиксела по късо и тясно

На всеки пиксел да присвоим средното от околните пиксели

Обикновено избираме нечетен пиксел

Малка матрица по наш избор

Морфология#

Морфология = Търсене на форма

Цветното изоб. Не е нищо повече от 3 черно бели едно върху друго

Thresholding - заменяне на пикселите само с бели (0) или черни (255)

Виждаме свързаните пиксели - всички бели са свързани

Искам да пмахна области

Стуктурен елемент

Голямо значени има коя операция правим първа

Аритметика#

Аритметика с изображения

Норамлизирано, стандартизирано изобр

Приложили сме z-score

Трансформация на изображението - за да го коригираме

Преоразмеряване = resize

Да композираме ттансформациите

Natural language processing#

Текстови данни

Дали едно ревю е - sentiment analysis

Групиране - clustering клъстеризация - търсене ан подобни текстове

1 . Коя е най-малката единица? Най-често - думи

Collections Counter

Разпределение на парето

1 По символите мога да разпозная езика.

2 по честотата на срещане, мога да разбера че е свободен текст и от кой език е (напр кирилица -> монголски)

Token = сруктурна единица (символ, дума..)

Tokenization

Регулярен израз = regex

re.split(“$asd/(”, text)

Малка ентропия = еднообразие, не е интерсно = the and

Голяма ентропия = alphabebitacally, ..

Nltk.corpus.stopwords

Удобно е да превърнем в множество Set( списъка )

Честотен анализ на ниво думи

Stemming = корена на думата вместо различните форми на глагол или съществително

Да класифицираме текст

Token Normalize Stopwords Stem

Лематизация = прехвърляне в основна форма

Sparse matrix = оскъднa матрица, в която повечето от елементите са нула

Кондензирана