Перейти к содержимому
Compvision.ru
mrgloom

Regression with noisy labels

Recommended Posts

допустим есть сервис How-Old.net который определяет возраст по картинке, и есть пользовательский инпут, который может быть очень шумный, т.е.

на одну и ту же картинку разные пользователи могут дать разный ответ 30,32,34 и т.д., а кто то может пошутить и засабмитить 66.

 

так вот допустим у нас есть небольшая выборка по которой мы изначально обучили нашу модель, но она предиктит довольно плохо и мы хотим улучшить наши результаты используя такие вот шумные данные, т.е. дообучить нашу изначальную модель.

Как это можно сделать?

 

 

----

из того что нашел

Training Deep Neural Networks on Noisy Labels with Bootstrapping

http://arxiv.org/pdf/1412.6596v3.pdf

On the Robustness of ConvNets to Training on Noisy Labels

http://web.stanford.edu/~dzpenner/math/CNN.pdf

 

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах

Сеть будет стремиться минимизировать ошибку, путем нахождения закономерностей, ошибки обычно выходят за рамки таких закономерностей, и как мне кажется, при достаточном объеме выборки данных их можно считать шумом с равномерным распределением. Такой шум будет игнорироваться сетью(или другим классификатором) как не несущий информации, а вариации типа 30,32,34 будут усредняться (что-то вроде регрессии).

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах

Под шумом вы имеете ввиду 'жирные' аутлайеры типа 66?

Раз уж мы заговорили про сети, то как сеть отнесется к неправильным лейблам - например классифицируем на 2 класса кошки и собаки, но допустим в сет с собаками затесалось сколько то кошек, я так понимаю всё не сломается глобально? и даже потом наверно можно будет запустить предикшн на тренировочных данных чтобы по откликам определить самые сложные примеры(они скорее всего и будут кошки).

Изначально я имел ввиду что ответом может являться что то типа регрессии робастной к аутлайерам, но я такой пока не знаю.

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах

Так регрессии основанные на распределениях с толстыми хвостами (Лаплас, Стьюдент), для того и используются вроде.

http://papers.nips.cc/paper/3806-gaussian-process-regression-with-student-t-likelihood.pdf

http://www.jmlr.org/papers/volume12/jylanki11a/jylanki11a.pdf

 

Изменено пользователем Smorodov

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах

Создайте учётную запись или войдите для комментирования

Вы должны быть пользователем, чтобы оставить комментарий

Создать учётную запись

Зарегистрируйтесь для создания учётной записи. Это просто!

Зарегистрировать учётную запись

Войти

Уже зарегистрированы? Войдите здесь.

Войти сейчас


  • Сейчас на странице   0 пользователей

    Нет пользователей, просматривающих эту страницу

×