04 Images and Text#
Images#
Структурираните данни имат модел - колконите им, feature-ите им
Да подготвим данните и да изкараме от тах feature-и - това се нарича data mining
Морфология на изображения
Къде има ъгли, ръбове, граници между обект и фон, да махнем шум (лоу-пас филтър)
Анализ на честоти (колко пъти се среща дума в текст)
Библиотеки за чтене на изображения = Python Image Library PIL, opencv2 (cv2), skimage
Размерите при изображ - обратно
Пространствени размери и 3ти размер - канали
Синя компонента
8битови (256)
Хистограма на изобр
Хистограма = честототно разпределиение - как са разпределени стойностите
Np.hist()
Типичо разстояние колко далече е всяка една от т
Пиково отношение сигнал - шум = max() / std()
Отношение сигнал - шум = mean()/std()
Циан, магента, жълто
Гамакорекция - начин да направим изображение адекватно на нашето зрение
Конволюция#
Конволюция = Крос-корелация в математиката = смесване
Да смесим изображението (матрица с 1 канал) с една нова
Тегловни коефициенти
Kernal-а ни помага да прегедлим пикселите около нашия централен
Прилагаме филтъра и получаваме ново число
Ядро, филтър = kernal, filter
Ното изобр трябва да е -2 пиксела по късо и тясно
На всеки пиксел да присвоим средното от околните пиксели
Обикновено избираме нечетен пиксел
Малка матрица по наш избор
Морфология#
Морфология = Търсене на форма
Цветното изоб. Не е нищо повече от 3 черно бели едно върху друго
Thresholding - заменяне на пикселите само с бели (0) или черни (255)
Виждаме свързаните пиксели - всички бели са свързани
Искам да пмахна области
Стуктурен елемент
Голямо значени има коя операция правим първа
Аритметика#
Аритметика с изображения
Норамлизирано, стандартизирано изобр
Приложили сме z-score
Трансформация на изображението - за да го коригираме
Преоразмеряване = resize
Да композираме ттансформациите
Natural language processing#
Текстови данни
Дали едно ревю е - sentiment analysis
Групиране - clustering клъстеризация - търсене ан подобни текстове
1 . Коя е най-малката единица? Най-често - думи
Collections Counter
Разпределение на парето
1 По символите мога да разпозная езика.
2 по честотата на срещане, мога да разбера че е свободен текст и от кой език е (напр кирилица -> монголски)
Token = сруктурна единица (символ, дума..)
Tokenization
Регулярен израз = regex
re.split(“$asd/(”, text)
Малка ентропия = еднообразие, не е интерсно = the and
Голяма ентропия = alphabebitacally, ..
Nltk.corpus.stopwords
Удобно е да превърнем в множество Set( списъка )
Честотен анализ на ниво думи
Stemming = корена на думата вместо различните форми на глагол или съществително
Да класифицираме текст
Token Normalize Stopwords Stem
Лематизация = прехвърляне в основна форма
Sparse matrix = оскъднa матрица, в която повечето от елементите са нула
Кондензирана