mrgloom 242 Жалоба Опубликовано November 2, 2015 допустим есть сервис How-Old.net который определяет возраст по картинке, и есть пользовательский инпут, который может быть очень шумный, т.е. на одну и ту же картинку разные пользователи могут дать разный ответ 30,32,34 и т.д., а кто то может пошутить и засабмитить 66. так вот допустим у нас есть небольшая выборка по которой мы изначально обучили нашу модель, но она предиктит довольно плохо и мы хотим улучшить наши результаты используя такие вот шумные данные, т.е. дообучить нашу изначальную модель. Как это можно сделать? ---- из того что нашел Training Deep Neural Networks on Noisy Labels with Bootstrapping http://arxiv.org/pdf/1412.6596v3.pdf On the Robustness of ConvNets to Training on Noisy Labels http://web.stanford.edu/~dzpenner/math/CNN.pdf Поделиться сообщением Ссылка на сообщение Поделиться на других сайтах
Smorodov 579 Жалоба Опубликовано November 2, 2015 Сеть будет стремиться минимизировать ошибку, путем нахождения закономерностей, ошибки обычно выходят за рамки таких закономерностей, и как мне кажется, при достаточном объеме выборки данных их можно считать шумом с равномерным распределением. Такой шум будет игнорироваться сетью(или другим классификатором) как не несущий информации, а вариации типа 30,32,34 будут усредняться (что-то вроде регрессии). Поделиться сообщением Ссылка на сообщение Поделиться на других сайтах
mrgloom 242 Жалоба Опубликовано November 3, 2015 Под шумом вы имеете ввиду 'жирные' аутлайеры типа 66?Раз уж мы заговорили про сети, то как сеть отнесется к неправильным лейблам - например классифицируем на 2 класса кошки и собаки, но допустим в сет с собаками затесалось сколько то кошек, я так понимаю всё не сломается глобально? и даже потом наверно можно будет запустить предикшн на тренировочных данных чтобы по откликам определить самые сложные примеры(они скорее всего и будут кошки).Изначально я имел ввиду что ответом может являться что то типа регрессии робастной к аутлайерам, но я такой пока не знаю. Поделиться сообщением Ссылка на сообщение Поделиться на других сайтах
Smorodov 579 Жалоба Опубликовано November 3, 2015 (изменено) Так регрессии основанные на распределениях с толстыми хвостами (Лаплас, Стьюдент), для того и используются вроде.http://papers.nips.cc/paper/3806-gaussian-process-regression-with-student-t-likelihood.pdfhttp://www.jmlr.org/papers/volume12/jylanki11a/jylanki11a.pdf Изменено November 3, 2015 пользователем Smorodov Поделиться сообщением Ссылка на сообщение Поделиться на других сайтах