найти метрику

mrgloom · November 19, 2012

Допустим у нас есть наблюдение 1 и наблюдение 2 и мы думаем, что эти два наблюдения связаны(или похожи), но мы не знаем как, т.е. не можем сформировать чёткий математический критерий.

Мы можем выделить из наблюдения вектор его характеристик(на самом деле мы незнаем какие характеристики нужно выделять поэтому как предполагается мы берем довольно много всего лишнего, т.е. это не шум, а просто скорее всего лишние данные).

Таких пар у нас есть много штук и мы хотим выделить из этого какой то закон- метрику, по которой мы могли бы потом найти пару для нового наблюдения, т.е. потом у нас есть N наблюдений и мы для каждого хотим найти для него ближайшее по этой обученной метрике.

как это можно сделать?

возможно это называется metric learning, но я не уверен.

п.с. можно в раздел с ии и нейросетями еще добавить машинное обучени и матстат или выделить как отдельное.

Smorodov · November 19, 2012

Думается здесь, подход должен быть такой:

1) находим средние и дисперсии по каждому из параметров для каждого класса.

2) вычисляем "качество" каждого из параметров. При помощи, например такого, правила:

Чем больше расстояние между средними значениями - тем лучше, чем больше дисперсия внутри классов - тем хуже. (Где-то это я уже видел.)

3) выбираем несколько с наилучшим качеством.

По поводу нового раздела, подумаю. Материала накопилось уже достаточно.

mrgloom · November 20, 2012

Ну у меня 1 класс.

1) находим средние и дисперсии по каждому из параметров для каждого класса.
2) вычисляем "качество" каждого из параметров. При помощи, например такого, правила:
Чем больше расстояние между средними значениями - тем лучше, чем больше дисперсия внутри классов - тем хуже. (Где-то это я уже видел.)
3) выбираем несколько с наилучшим качеством.

вы описали что то типа кластеризации, пункт. 3 не понял, выбираем несколько чего? переменных в векторе по которым лучше всего разделяется?

Smorodov · November 20, 2012

Я просто посчитал, что "похожесть", подразумевает еще и "не похожесть".

Поэтому и представил задачу в таком виде.

Есть еще задача поиска аномалий, можно провести такой анализ и отсеять свойства в по которым выборки имеют много аномалий.

Про 3 пункт, да несколько свойств объекта.

mrgloom · November 21, 2012

Я просто посчитал, что "похожесть", подразумевает еще и "не похожесть".

не понял что значит "не похожесть", если похожесть выражать цифрой(которая берется из метрики), то непохожесть как бы противоположна похожести.

Есть еще задача поиска аномалий, можно провести такой анализ и отсеять свойства в по которым выборки имеют много аномалий.

аномалия это когда сэмпл сильно выделяется из кластера? и мы хотим убрать некоторые признаки из вектора признаков чтобы всё было в кластере без аномалий?

вообщем идея то такая.

определить похожести лиц, т.е. человек увидив 2 лица может сказать похожи они или нет(если лица сильно похожи), или например хотя бы 1-5 проранжировать лица по похожести(ну это уже сомнительная задача) т.е. получается чёткого ответа нет и нету чёткого выражения в цифрах, но есть примеры.

т.е. нет чёткого математического объяснения что такое "похожесть", но есть примеры и мы хотим это выцепить из данных.

есть сайт pictriev, но там довольно слабо определяется похожесть, не знаю какой там алгоритм.

есть сайт likelyness(или как то так) я так понимаю он наполняется людьми(и там лица действительно похожи),т.е. это примеры для нашей задачи.

так вот мы выделяем признаки из примеров и ищем взаимосвязь.

затем на основе примеров пытаемся либо каким либо образом используя knnsearch(и какую то новую определённую метрику) найти например к(=10) ближайших соседей в базе или же пытаемся всё спроецировать на 2д и посмотреть как сэмплы-точки расположатся на плоскости(соответсвенно расстояние между точками, тоже должно показывать похожесть).

Smorodov · November 21, 2012

Я думаю, что человек, видевший за свою жизнь множество лиц, может выделить переменные которые в пределах этого множества меняются сильнее всего (подсознательно выделяет главные компоненты).

Похожи люди или нет, определяется по расстоянию Махаланобиса между двумя экземплярами лиц.

mrgloom · November 21, 2012

даже пусть и по Махаланобису, только тогда вопрос состоит в том как выделить из сырых данных вектор признаков, такой чтобы для примеров которые считаются похожими разница по Махаланобису давала минимум.

Smorodov · November 21, 2012

Если примеры считаются похожими, то для выделения признаков, нам нужно задать степень похожести численно.

А затем, видимо, найти корреляцию между параметрами и степенью похожести по каждому из параметров.

Выделить параметры с максимальной корреляцией, это и будет то, что мы ищем.

mrgloom · November 21, 2012

Если примеры считаются похожими, то для выделения признаков, нам нужно задать степень похожести численно.

вот именно что мы степень похожести не знаем.

А затем, видимо, найти корреляцию между параметрами и степенью похожести по каждому из параметров.
Выделить параметры с максимальной корреляцией, это и будет то, что мы ищем.

вот это уже ближе к теме. как это обычно делается? что то типа корреляции или регрессии?

mrgloom · November 21, 2012

distance metric learning

K Nearest Neighbor (KNN), heavily
rely on the distance metric for the input data patterns. Distance Metric learning
is to learn a distance metric for the input space of data from a given collection
of pair of similar/dissimilar points that preserves the distance relation among the
training data.

http://www.cs.cmu.edu/~liuy/frame_survey_v2.pdf

http://cui.unige.ch/AI-group/teaching/dmc/09-10/cours/dm16-ml.pdf

вот кстати там на слайде 10 еще используют растояние махаланобиса и матрицу ковариации.

http://www.cs.cmu.edu/~liuy/distlearn.htm

Войти

найти метрику

Recommended Posts

mrgloom 242

Поделиться сообщением

Ссылка на сообщение

Поделиться на других сайтах

Smorodov 579

Поделиться сообщением

Ссылка на сообщение

Поделиться на других сайтах

mrgloom 242

Поделиться сообщением

Ссылка на сообщение

Поделиться на других сайтах

Smorodov 579

Поделиться сообщением

Ссылка на сообщение

Поделиться на других сайтах

mrgloom 242

Поделиться сообщением

Ссылка на сообщение

Поделиться на других сайтах

Smorodov 579

Поделиться сообщением

Ссылка на сообщение

Поделиться на других сайтах

mrgloom 242

Поделиться сообщением

Ссылка на сообщение

Поделиться на других сайтах

Smorodov 579

Поделиться сообщением

Ссылка на сообщение

Поделиться на других сайтах

mrgloom 242

Поделиться сообщением

Ссылка на сообщение

Поделиться на других сайтах

mrgloom 242

Поделиться сообщением

Ссылка на сообщение

Поделиться на других сайтах

Создайте учётную запись или войдите для комментирования

Создать учётную запись

Войти

Сейчас на странице 0 пользователей

Навигация

Последняя активность