Перейти к содержимому
Compvision.ru
mrgloom

Регуляризация

Recommended Posts

http://people.cs.umass.edu/~sheldon/teaching/2012fa/ml/files/lec7.pdf

непонятно в чём смысл регуляризации, почему модель с большими весами считается более сложной?

слайд 13-14

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах

нашел такое объяснение не совсем в тему.

"Например, есть экспериментальные данные, которые предположительно можно описать полиномом. Полином Лежандра даст «абсолютную» точность, однако в промежуточных точках такая модель может дать просто безумно большие (по модулю) значения. Посмотрев на это безобразие, исследователь скажет: функция должна быть более гладкой! А гладкость, во многом, характеризуется второй производной. Регуляризация будут заключаться в добавлении (прибавлению) к критерию точности суммы квадратов вторых производных в некоторых выбранных точках. Точность пострадает, но зато подбираемая функция перестанет метаться то вверх, то вниз. Критерий гладкости и будет «внешним критерием регулярности». А коэффициент, с которым добавляется критерий гладкости в общий критерий, - тем самым подбираемым параметром регуляризации – он определит компромисс между точностью на экспериментальных данных и гладкостью."

только там в формуле у нас добавляется квадрат весов w.

непонятно, если у нас есть очень много данных, то по идее оверфитинг нам как раз на пользу? или просто сложность модели при этом будет тоже сильно расти?

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах

Оверфиттинг никогда не идет на пользу. Он ухудшает обобщающую способность сети.

Мы можем сказать что получили переобучение, когда у нас на обучающем наборе данных точность с новыми итерациями улучшается, а на тестовом начинает падать. См. также "дилемма смещение-дисперсия" (bias variance trade off).

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах

если у нас есть очень много данных(в пределе данные в любой точке), то должна ведь получиться точная модель или борьба с оверфитингом не сделает хуже(меньше точность) в любом случае?

ну вот например у меня есть данные и я пытаюсь использовать линейный классификатор, по идее мы хотим минимизировать кол-во неправильно классифицированных экземпляров(как раз получается МНК?), потом(после обучения) я на тех же данных прогоняю свой классификатор и получается например, что 18 из 10000 примеров классифицированы неправильно, т.е. я так понимаю это означает, что данные линейно не разделимы(и видимо используя линейный класификатор дальше продвинуться нельзя), но еще добавление новых данных всё равно может сделать модель лучше?

по bias variance, что то смысл я не понял, там как то пытаются разделить ошибку на 2 составляющие.

http://scott.fortmann-roe.com/docs/BiasVariance.html

Err(x)=E[(Y−f^(x))^2]

E это матожидание? по идее мы должны минимизировать сумму квадратов разностей же.

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах

Про Bias-Variance лучше почитать Бишопа (Bishop "Pattern recognition and machine learning" ) 147 стр.

Моя лекция по мотивам Бишопа: http://www.compvision.ru/forum/index.php?app=core&module=attach&section=attach&attach_id=662

Если кратко, то матожидание и дисперсия появляются от того, что мы проверяем гипотезу на множестве поднаборов, сформированных случайной выборкой из основного набора данных.

На каждой подвыборке, мы будем иметь свою кривую/поверхность аппроксимирующую множество данных. Если модель страдает от переобучения, то различаться эти кривые будут сильно, что на множестве подвыборок даст большую дисперсию (Variance).

Если модель не достаточно гибкая, то разброс будет маленьким, но среднее значение (матожидание, о котором идет речь выше) будет сильно смещаться от того, что мы хотим получить (Bias).

Если данных очень много (это всегда чем больше, тем лучше), то и модель может быть очень гибкой, но мы всегда можем сделать еще более гибкую (ведь мы оперируем конечными величинами).

У более гибких моделей, с высокими степенями в полиноме есть еще одно плохое свойство - они заставляют нас оперировать очень большими или очень малыми величинами, что приводит в увеличению вычислительной погрешности.

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах

YuksA.png

еще про bias-variance

или наверно ближе это

http://en.wikipedia.org/wiki/Bias-variance_dilemma

имеется ввиду что у нас будут проблемы с variance(how sensitive the model is to small changes in training set) при переобучении?

но если примеров "бесконечно много" и они все правильные, то это же не проблема.

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах

Создайте учётную запись или войдите для комментирования

Вы должны быть пользователем, чтобы оставить комментарий

Создать учётную запись

Зарегистрируйтесь для создания учётной записи. Это просто!

Зарегистрировать учётную запись

Войти

Уже зарегистрированы? Войдите здесь.

Войти сейчас


  • Сейчас на странице   0 пользователей

    Нет пользователей, просматривающих эту страницу

×