mrgloom 242 Жалоба Опубликовано December 10, 2013 http://people.cs.umass.edu/~sheldon/teaching/2012fa/ml/files/lec7.pdf непонятно в чём смысл регуляризации, почему модель с большими весами считается более сложной? слайд 13-14 Поделиться сообщением Ссылка на сообщение Поделиться на других сайтах
mrgloom 242 Жалоба Опубликовано December 10, 2013 нашел такое объяснение не совсем в тему. "Например, есть экспериментальные данные, которые предположительно можно описать полиномом. Полином Лежандра даст «абсолютную» точность, однако в промежуточных точках такая модель может дать просто безумно большие (по модулю) значения. Посмотрев на это безобразие, исследователь скажет: функция должна быть более гладкой! А гладкость, во многом, характеризуется второй производной. Регуляризация будут заключаться в добавлении (прибавлению) к критерию точности суммы квадратов вторых производных в некоторых выбранных точках. Точность пострадает, но зато подбираемая функция перестанет метаться то вверх, то вниз. Критерий гладкости и будет «внешним критерием регулярности». А коэффициент, с которым добавляется критерий гладкости в общий критерий, - тем самым подбираемым параметром регуляризации – он определит компромисс между точностью на экспериментальных данных и гладкостью." только там в формуле у нас добавляется квадрат весов w. непонятно, если у нас есть очень много данных, то по идее оверфитинг нам как раз на пользу? или просто сложность модели при этом будет тоже сильно расти? Поделиться сообщением Ссылка на сообщение Поделиться на других сайтах
Smorodov 579 Жалоба Опубликовано December 10, 2013 Оверфиттинг никогда не идет на пользу. Он ухудшает обобщающую способность сети. Мы можем сказать что получили переобучение, когда у нас на обучающем наборе данных точность с новыми итерациями улучшается, а на тестовом начинает падать. См. также "дилемма смещение-дисперсия" (bias variance trade off). Поделиться сообщением Ссылка на сообщение Поделиться на других сайтах
mrgloom 242 Жалоба Опубликовано December 11, 2013 если у нас есть очень много данных(в пределе данные в любой точке), то должна ведь получиться точная модель или борьба с оверфитингом не сделает хуже(меньше точность) в любом случае? ну вот например у меня есть данные и я пытаюсь использовать линейный классификатор, по идее мы хотим минимизировать кол-во неправильно классифицированных экземпляров(как раз получается МНК?), потом(после обучения) я на тех же данных прогоняю свой классификатор и получается например, что 18 из 10000 примеров классифицированы неправильно, т.е. я так понимаю это означает, что данные линейно не разделимы(и видимо используя линейный класификатор дальше продвинуться нельзя), но еще добавление новых данных всё равно может сделать модель лучше? по bias variance, что то смысл я не понял, там как то пытаются разделить ошибку на 2 составляющие. http://scott.fortmann-roe.com/docs/BiasVariance.html Err(x)=E[(Y−f^(x))^2] E это матожидание? по идее мы должны минимизировать сумму квадратов разностей же. Поделиться сообщением Ссылка на сообщение Поделиться на других сайтах
Smorodov 579 Жалоба Опубликовано December 11, 2013 Про Bias-Variance лучше почитать Бишопа (Bishop "Pattern recognition and machine learning" ) 147 стр. Моя лекция по мотивам Бишопа: http://www.compvision.ru/forum/index.php?app=core&module=attach§ion=attach&attach_id=662 Если кратко, то матожидание и дисперсия появляются от того, что мы проверяем гипотезу на множестве поднаборов, сформированных случайной выборкой из основного набора данных. На каждой подвыборке, мы будем иметь свою кривую/поверхность аппроксимирующую множество данных. Если модель страдает от переобучения, то различаться эти кривые будут сильно, что на множестве подвыборок даст большую дисперсию (Variance). Если модель не достаточно гибкая, то разброс будет маленьким, но среднее значение (матожидание, о котором идет речь выше) будет сильно смещаться от того, что мы хотим получить (Bias). Если данных очень много (это всегда чем больше, тем лучше), то и модель может быть очень гибкой, но мы всегда можем сделать еще более гибкую (ведь мы оперируем конечными величинами). У более гибких моделей, с высокими степенями в полиноме есть еще одно плохое свойство - они заставляют нас оперировать очень большими или очень малыми величинами, что приводит в увеличению вычислительной погрешности. Поделиться сообщением Ссылка на сообщение Поделиться на других сайтах
mrgloom 242 Жалоба Опубликовано January 20, 2014 еще про bias-variance или наверно ближе это http://en.wikipedia.org/wiki/Bias-variance_dilemma имеется ввиду что у нас будут проблемы с variance(how sensitive the model is to small changes in training set) при переобучении? но если примеров "бесконечно много" и они все правильные, то это же не проблема. Поделиться сообщением Ссылка на сообщение Поделиться на других сайтах
mrgloom 242 Жалоба Опубликовано January 24, 2014 еще тут немного про линейную регрессию и регуляризацию http://download.yandex.ru/company/experience/searchconf/Searchconf_Algoritm_MatrixNet_Gulin.pdf http://justindomke.wordpress.com/2008/12/12/why-does-regularization-work/ еще http://shad.yandex.ru/conference/genkin.xml Поделиться сообщением Ссылка на сообщение Поделиться на других сайтах