Перейти к содержимому
Compvision.ru
mrgloom

найти метрику

Recommended Posts

Допустим у нас есть наблюдение 1 и наблюдение 2 и мы думаем, что эти два наблюдения связаны(или похожи), но мы не знаем как, т.е. не можем сформировать чёткий математический критерий.

Мы можем выделить из наблюдения вектор его характеристик(на самом деле мы незнаем какие характеристики нужно выделять поэтому как предполагается мы берем довольно много всего лишнего, т.е. это не шум, а просто скорее всего лишние данные).

Таких пар у нас есть много штук и мы хотим выделить из этого какой то закон- метрику, по которой мы могли бы потом найти пару для нового наблюдения, т.е. потом у нас есть N наблюдений и мы для каждого хотим найти для него ближайшее по этой обученной метрике.

как это можно сделать?

возможно это называется metric learning, но я не уверен.

п.с. можно в раздел с ии и нейросетями еще добавить машинное обучени и матстат или выделить как отдельное.

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах

Думается здесь, подход должен быть такой:

1) находим средние и дисперсии по каждому из параметров для каждого класса.

2) вычисляем "качество" каждого из параметров. При помощи, например такого, правила:

Чем больше расстояние между средними значениями - тем лучше, чем больше дисперсия внутри классов - тем хуже. (Где-то это я уже видел.)

3) выбираем несколько с наилучшим качеством.

По поводу нового раздела, подумаю. Материала накопилось уже достаточно.

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах

Ну у меня 1 класс.

1) находим средние и дисперсии по каждому из параметров для каждого класса.

2) вычисляем "качество" каждого из параметров. При помощи, например такого, правила:

Чем больше расстояние между средними значениями - тем лучше, чем больше дисперсия внутри классов - тем хуже. (Где-то это я уже видел.)

3) выбираем несколько с наилучшим качеством.

вы описали что то типа кластеризации, пункт. 3 не понял, выбираем несколько чего? переменных в векторе по которым лучше всего разделяется?

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах

Я просто посчитал, что "похожесть", подразумевает еще и "не похожесть".

Поэтому и представил задачу в таком виде.

Есть еще задача поиска аномалий, можно провести такой анализ и отсеять свойства в по которым выборки имеют много аномалий.

Про 3 пункт, да несколько свойств объекта.

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах
Я просто посчитал, что "похожесть", подразумевает еще и "не похожесть".

не понял что значит "не похожесть", если похожесть выражать цифрой(которая берется из метрики), то непохожесть как бы противоположна похожести.

Есть еще задача поиска аномалий, можно провести такой анализ и отсеять свойства в по которым выборки имеют много аномалий.

аномалия это когда сэмпл сильно выделяется из кластера? и мы хотим убрать некоторые признаки из вектора признаков чтобы всё было в кластере без аномалий?

вообщем идея то такая.

определить похожести лиц, т.е. человек увидив 2 лица может сказать похожи они или нет(если лица сильно похожи), или например хотя бы 1-5 проранжировать лица по похожести(ну это уже сомнительная задача) т.е. получается чёткого ответа нет и нету чёткого выражения в цифрах, но есть примеры.

т.е. нет чёткого математического объяснения что такое "похожесть", но есть примеры и мы хотим это выцепить из данных.

есть сайт pictriev, но там довольно слабо определяется похожесть, не знаю какой там алгоритм.

есть сайт likelyness(или как то так) я так понимаю он наполняется людьми(и там лица действительно похожи),т.е. это примеры для нашей задачи.

так вот мы выделяем признаки из примеров и ищем взаимосвязь.

затем на основе примеров пытаемся либо каким либо образом используя knnsearch(и какую то новую определённую метрику) найти например к(=10) ближайших соседей в базе или же пытаемся всё спроецировать на 2д и посмотреть как сэмплы-точки расположатся на плоскости(соответсвенно расстояние между точками, тоже должно показывать похожесть).

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах

Я думаю, что человек, видевший за свою жизнь множество лиц, может выделить переменные которые в пределах этого множества меняются сильнее всего (подсознательно выделяет главные компоненты).

Похожи люди или нет, определяется по расстоянию Махаланобиса между двумя экземплярами лиц.

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах

даже пусть и по Махаланобису, только тогда вопрос состоит в том как выделить из сырых данных вектор признаков, такой чтобы для примеров которые считаются похожими разница по Махаланобису давала минимум.

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах

Если примеры считаются похожими, то для выделения признаков, нам нужно задать степень похожести численно.

А затем, видимо, найти корреляцию между параметрами и степенью похожести по каждому из параметров.

Выделить параметры с максимальной корреляцией, это и будет то, что мы ищем.

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах
Если примеры считаются похожими, то для выделения признаков, нам нужно задать степень похожести численно.

вот именно что мы степень похожести не знаем.

А затем, видимо, найти корреляцию между параметрами и степенью похожести по каждому из параметров.

Выделить параметры с максимальной корреляцией, это и будет то, что мы ищем.

вот это уже ближе к теме. как это обычно делается? что то типа корреляции или регрессии?

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах

distance metric learning

K Nearest Neighbor (KNN), heavily

rely on the distance metric for the input data patterns. Distance Metric learning

is to learn a distance metric for the input space of data from a given collection

of pair of similar/dissimilar points that preserves the distance relation among the

training data.

http://www.cs.cmu.edu/~liuy/frame_survey_v2.pdf

http://cui.unige.ch/AI-group/teaching/dmc/09-10/cours/dm16-ml.pdf

вот кстати там на слайде 10 еще используют растояние махаланобиса и матрицу ковариации.

http://www.cs.cmu.edu/~liuy/distlearn.htm

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах

Создайте учётную запись или войдите для комментирования

Вы должны быть пользователем, чтобы оставить комментарий

Создать учётную запись

Зарегистрируйтесь для создания учётной записи. Это просто!

Зарегистрировать учётную запись

Войти

Уже зарегистрированы? Войдите здесь.

Войти сейчас


  • Сейчас на странице   0 пользователей

    Нет пользователей, просматривающих эту страницу

×