mrgloom 242 Report post Posted November 19, 2012 Допустим у нас есть наблюдение 1 и наблюдение 2 и мы думаем, что эти два наблюдения связаны(или похожи), но мы не знаем как, т.е. не можем сформировать чёткий математический критерий. Мы можем выделить из наблюдения вектор его характеристик(на самом деле мы незнаем какие характеристики нужно выделять поэтому как предполагается мы берем довольно много всего лишнего, т.е. это не шум, а просто скорее всего лишние данные). Таких пар у нас есть много штук и мы хотим выделить из этого какой то закон- метрику, по которой мы могли бы потом найти пару для нового наблюдения, т.е. потом у нас есть N наблюдений и мы для каждого хотим найти для него ближайшее по этой обученной метрике. как это можно сделать? возможно это называется metric learning, но я не уверен. п.с. можно в раздел с ии и нейросетями еще добавить машинное обучени и матстат или выделить как отдельное. Share this post Link to post Share on other sites
Smorodov 578 Report post Posted November 19, 2012 Думается здесь, подход должен быть такой: 1) находим средние и дисперсии по каждому из параметров для каждого класса. 2) вычисляем "качество" каждого из параметров. При помощи, например такого, правила: Чем больше расстояние между средними значениями - тем лучше, чем больше дисперсия внутри классов - тем хуже. (Где-то это я уже видел.) 3) выбираем несколько с наилучшим качеством. По поводу нового раздела, подумаю. Материала накопилось уже достаточно. Share this post Link to post Share on other sites
mrgloom 242 Report post Posted November 20, 2012 Ну у меня 1 класс. 1) находим средние и дисперсии по каждому из параметров для каждого класса. 2) вычисляем "качество" каждого из параметров. При помощи, например такого, правила: Чем больше расстояние между средними значениями - тем лучше, чем больше дисперсия внутри классов - тем хуже. (Где-то это я уже видел.) 3) выбираем несколько с наилучшим качеством. вы описали что то типа кластеризации, пункт. 3 не понял, выбираем несколько чего? переменных в векторе по которым лучше всего разделяется? Share this post Link to post Share on other sites
Smorodov 578 Report post Posted November 20, 2012 Я просто посчитал, что "похожесть", подразумевает еще и "не похожесть". Поэтому и представил задачу в таком виде. Есть еще задача поиска аномалий, можно провести такой анализ и отсеять свойства в по которым выборки имеют много аномалий. Про 3 пункт, да несколько свойств объекта. Share this post Link to post Share on other sites
mrgloom 242 Report post Posted November 21, 2012 Я просто посчитал, что "похожесть", подразумевает еще и "не похожесть". не понял что значит "не похожесть", если похожесть выражать цифрой(которая берется из метрики), то непохожесть как бы противоположна похожести. Есть еще задача поиска аномалий, можно провести такой анализ и отсеять свойства в по которым выборки имеют много аномалий. аномалия это когда сэмпл сильно выделяется из кластера? и мы хотим убрать некоторые признаки из вектора признаков чтобы всё было в кластере без аномалий? вообщем идея то такая. определить похожести лиц, т.е. человек увидив 2 лица может сказать похожи они или нет(если лица сильно похожи), или например хотя бы 1-5 проранжировать лица по похожести(ну это уже сомнительная задача) т.е. получается чёткого ответа нет и нету чёткого выражения в цифрах, но есть примеры. т.е. нет чёткого математического объяснения что такое "похожесть", но есть примеры и мы хотим это выцепить из данных. есть сайт pictriev, но там довольно слабо определяется похожесть, не знаю какой там алгоритм. есть сайт likelyness(или как то так) я так понимаю он наполняется людьми(и там лица действительно похожи),т.е. это примеры для нашей задачи. так вот мы выделяем признаки из примеров и ищем взаимосвязь. затем на основе примеров пытаемся либо каким либо образом используя knnsearch(и какую то новую определённую метрику) найти например к(=10) ближайших соседей в базе или же пытаемся всё спроецировать на 2д и посмотреть как сэмплы-точки расположатся на плоскости(соответсвенно расстояние между точками, тоже должно показывать похожесть). Share this post Link to post Share on other sites
Smorodov 578 Report post Posted November 21, 2012 Я думаю, что человек, видевший за свою жизнь множество лиц, может выделить переменные которые в пределах этого множества меняются сильнее всего (подсознательно выделяет главные компоненты). Похожи люди или нет, определяется по расстоянию Махаланобиса между двумя экземплярами лиц. Share this post Link to post Share on other sites
mrgloom 242 Report post Posted November 21, 2012 даже пусть и по Махаланобису, только тогда вопрос состоит в том как выделить из сырых данных вектор признаков, такой чтобы для примеров которые считаются похожими разница по Махаланобису давала минимум. Share this post Link to post Share on other sites
Smorodov 578 Report post Posted November 21, 2012 Если примеры считаются похожими, то для выделения признаков, нам нужно задать степень похожести численно. А затем, видимо, найти корреляцию между параметрами и степенью похожести по каждому из параметров. Выделить параметры с максимальной корреляцией, это и будет то, что мы ищем. Share this post Link to post Share on other sites
mrgloom 242 Report post Posted November 21, 2012 Если примеры считаются похожими, то для выделения признаков, нам нужно задать степень похожести численно. вот именно что мы степень похожести не знаем. А затем, видимо, найти корреляцию между параметрами и степенью похожести по каждому из параметров. Выделить параметры с максимальной корреляцией, это и будет то, что мы ищем. вот это уже ближе к теме. как это обычно делается? что то типа корреляции или регрессии? Share this post Link to post Share on other sites
mrgloom 242 Report post Posted November 21, 2012 distance metric learning K Nearest Neighbor (KNN), heavily rely on the distance metric for the input data patterns. Distance Metric learning is to learn a distance metric for the input space of data from a given collection of pair of similar/dissimilar points that preserves the distance relation among the training data. http://www.cs.cmu.edu/~liuy/frame_survey_v2.pdf http://cui.unige.ch/AI-group/teaching/dmc/09-10/cours/dm16-ml.pdf вот кстати там на слайде 10 еще используют растояние махаланобиса и матрицу ковариации. http://www.cs.cmu.edu/~liuy/distlearn.htm Share this post Link to post Share on other sites