Регуляризация

mrgloom · December 10, 2013

http://people.cs.umass.edu/~sheldon/teaching/2012fa/ml/files/lec7.pdf

непонятно в чём смысл регуляризации, почему модель с большими весами считается более сложной?

слайд 13-14

mrgloom · December 10, 2013

нашел такое объяснение не совсем в тему.

"Например, есть экспериментальные данные, которые предположительно можно описать полиномом. Полином Лежандра даст «абсолютную» точность, однако в промежуточных точках такая модель может дать просто безумно большие (по модулю) значения. Посмотрев на это безобразие, исследователь скажет: функция должна быть более гладкой! А гладкость, во многом, характеризуется второй производной. Регуляризация будут заключаться в добавлении (прибавлению) к критерию точности суммы квадратов вторых производных в некоторых выбранных точках. Точность пострадает, но зато подбираемая функция перестанет метаться то вверх, то вниз. Критерий гладкости и будет «внешним критерием регулярности». А коэффициент, с которым добавляется критерий гладкости в общий критерий, - тем самым подбираемым параметром регуляризации – он определит компромисс между точностью на экспериментальных данных и гладкостью."

только там в формуле у нас добавляется квадрат весов w.

непонятно, если у нас есть очень много данных, то по идее оверфитинг нам как раз на пользу? или просто сложность модели при этом будет тоже сильно расти?

Smorodov · December 10, 2013

Оверфиттинг никогда не идет на пользу. Он ухудшает обобщающую способность сети.

Мы можем сказать что получили переобучение, когда у нас на обучающем наборе данных точность с новыми итерациями улучшается, а на тестовом начинает падать. См. также "дилемма смещение-дисперсия" (bias variance trade off).

mrgloom · December 11, 2013

если у нас есть очень много данных(в пределе данные в любой точке), то должна ведь получиться точная модель или борьба с оверфитингом не сделает хуже(меньше точность) в любом случае?

ну вот например у меня есть данные и я пытаюсь использовать линейный классификатор, по идее мы хотим минимизировать кол-во неправильно классифицированных экземпляров(как раз получается МНК?), потом(после обучения) я на тех же данных прогоняю свой классификатор и получается например, что 18 из 10000 примеров классифицированы неправильно, т.е. я так понимаю это означает, что данные линейно не разделимы(и видимо используя линейный класификатор дальше продвинуться нельзя), но еще добавление новых данных всё равно может сделать модель лучше?

по bias variance, что то смысл я не понял, там как то пытаются разделить ошибку на 2 составляющие.

http://scott.fortmann-roe.com/docs/BiasVariance.html

Err(x)=E[(Y−f^(x))^2]

E это матожидание? по идее мы должны минимизировать сумму квадратов разностей же.

Smorodov · December 11, 2013

Про Bias-Variance лучше почитать Бишопа (Bishop "Pattern recognition and machine learning" ) 147 стр.

Моя лекция по мотивам Бишопа: http://www.compvision.ru/forum/index.php?app=core&module=attach&section=attach&attach_id=662

Если кратко, то матожидание и дисперсия появляются от того, что мы проверяем гипотезу на множестве поднаборов, сформированных случайной выборкой из основного набора данных.

На каждой подвыборке, мы будем иметь свою кривую/поверхность аппроксимирующую множество данных. Если модель страдает от переобучения, то различаться эти кривые будут сильно, что на множестве подвыборок даст большую дисперсию (Variance).

Если модель не достаточно гибкая, то разброс будет маленьким, но среднее значение (матожидание, о котором идет речь выше) будет сильно смещаться от того, что мы хотим получить (Bias).

Если данных очень много (это всегда чем больше, тем лучше), то и модель может быть очень гибкой, но мы всегда можем сделать еще более гибкую (ведь мы оперируем конечными величинами).

У более гибких моделей, с высокими степенями в полиноме есть еще одно плохое свойство - они заставляют нас оперировать очень большими или очень малыми величинами, что приводит в увеличению вычислительной погрешности.

mrgloom · January 20, 2014

еще про bias-variance

или наверно ближе это

http://en.wikipedia.org/wiki/Bias-variance_dilemma

имеется ввиду что у нас будут проблемы с variance(how sensitive the model is to small changes in training set) при переобучении?

но если примеров "бесконечно много" и они все правильные, то это же не проблема.

mrgloom · January 24, 2014

еще тут немного про линейную регрессию и регуляризацию

http://download.yandex.ru/company/experience/searchconf/Searchconf_Algoritm_MatrixNet_Gulin.pdf

http://justindomke.wordpress.com/2008/12/12/why-does-regularization-work/

еще

http://shad.yandex.ru/conference/genkin.xml

Войти

Регуляризация

Recommended Posts

mrgloom 242

Поделиться сообщением

Ссылка на сообщение

Поделиться на других сайтах

mrgloom 242

Поделиться сообщением

Ссылка на сообщение

Поделиться на других сайтах

Smorodov 579

Поделиться сообщением

Ссылка на сообщение

Поделиться на других сайтах

mrgloom 242

Поделиться сообщением

Ссылка на сообщение

Поделиться на других сайтах

Smorodov 579

Поделиться сообщением

Ссылка на сообщение

Поделиться на других сайтах

mrgloom 242

Поделиться сообщением

Ссылка на сообщение

Поделиться на других сайтах

mrgloom 242

Поделиться сообщением

Ссылка на сообщение

Поделиться на других сайтах

Создайте учётную запись или войдите для комментирования

Создать учётную запись

Войти

Сейчас на странице 0 пользователей

Навигация

Последняя активность