Главная
Новости
Статьи
Строительство
Ремонт
Дизайн и интерьер
Строительная теплофизика
Прочность сплавов
Основания и фундаменты
Осадочные породы
Прочность дорог
Минералогия глин
Краны башенные
Справочник токаря
Цементный бетон





















Яндекс.Метрика

Статистическая теория обучения


Статистическая теория обучения — это модель для обучения машин на основе статистики и функционального анализа. Статистическая теория обучения имеет дело с задачами нахождения функции предсказывания, основанной на данных. Статистическая теория обучения привела к успешным приложениям в таких областях, как компьютерное зрение, распознавание речи и биоинформатика.

Введение

Целью обучения является понимание и предвидение. Обучение распадается на несколько категорий, включая обучение с учителем, обучение без учителя, онлайновое обучение и обучение с подкреплением. С точки зрения статистической теории обучения обучение с учителем является наиболее понятным. Обучение с учителем вовлекает обучение с помощью тренировочного набора данных. Любой момент тренировки является парой вход/выход, где входное значение отображается в выходное. Задача обучения состоит в реконструкции функции, которая отображает входные значения в выходные так, что функция может быть использована для предсказания вывода при будущих вводах.

В зависимости от типа вывода, задачи обучения с учителем либо являются задачами регрессии, либо задачами классификации. Если вывод может принимать непрерывную область значений, это задача регрессии. Используя закон Ома в качестве примера, регрессия могла бы брать напряжение в качестве входа и выдавать ток как выход. Регрессия могла бы найти связь напряжения и тока как 1 R {displaystyle {frac {1}{R}}} , так что

I = 1 R V {displaystyle I={frac {1}{R}}V}

Задачи классификации — это те, для которых выводом будет элемент из набора меток. Классификация очень обычна для приложений обучения машин. В системе распознавания лиц, например, изображение лица будет входом, а выходом может быть фамилия человека. Вход может быть представлен как большой многомерный вектор, элементы которого представляют пиксели в изображении.

После обучения функция, основанная на тренировочном наборе данных, это функция проверяется на тестовом наборе данных, которые не появляются в тренировочном наборе.

Формальное описание

Пусть X {displaystyle X} будет векторным пространством всех возможных входных данных, а Y {displaystyle Y} — векторным пространством всех возможных выходов. Статистическая теория обучения предполагает, что имеется некоторое неизвестное распределение вероятности над произведением пространств Z = X × Y {displaystyle Z=X imes Y} , то есть существует некоторая неизвестная p ( z ) = p ( x → , y ) {displaystyle p(z)=p({vec {x}},y)} . Тренировочное множество состоит из n {displaystyle n} экземпляров этого распределения вероятности и обозначается

S = { ( x → 1 , y 1 ) , … , ( x → n , y n ) } = { z → 1 , … , z → n } {displaystyle S={({vec {x}}_{1},y_{1}),dots ,({vec {x}}_{n},y_{n})}={{vec {z}}_{1},dots ,{vec {z}}_{n}}}

Каждый x → i {displaystyle {vec {x}}_{i}} является входным вектором из тренировочных данных, а y i {displaystyle y_{i}} является выходом, соответствующим этому входному вектору.

В такой формализации задача вывода состоит в нахождении функции f : X → Y {displaystyle f:X o Y} , такой что f ( x → ) ∼ y {displaystyle f({vec {x}})sim y} . Пусть H {displaystyle {mathcal {H}}} — пространство функций f : X → Y {displaystyle f:X o Y} , которое называется пространством гипотез. Пространство гипотез — это пространство, которое алгоритм будет просматривать. Пусть V ( f ( x → ) , y ) {displaystyle V(f({vec {x}}),y)} будет функцией потерь, метрикой разницы между предсказанным значением f ( x → ) {displaystyle f({vec {x}})} и истинным значением y {displaystyle y} . Ожидаемый риск определяется как

I [ f ] = ∫ X × Y V ( f ( x → ) , y ) p ( x → , y ) d x → d y {displaystyle I[f]=displaystyle int _{X imes Y}V(f({vec {x}}),y),p({vec {x}},y),d{vec {x}},dy}

Целевая функция, лучшая функция f {displaystyle f} , которая может быть выбрана, это функция, удовлетворяющая условию

f = inf h ∈ H I [ h ] {displaystyle f=inf _{hin {mathcal {H}}}I[h]}

Поскольку распределение вероятности p ( x → , y ) {displaystyle p({vec {x}},y)} неизвестно, должны быть использованы косвенные показатели ожидаемого риска. Эти показатели основываются на тренировочном множестве, выборке из этого неизвестного распределения вероятности. Такой показатель называется эмпирическим риском: I S [ f ] = 1 n ∑ i = 1 n V ( f ( x → i ) , y i ) {displaystyle I_{S}[f]={frac {1}{n}}displaystyle sum _{i=1}^{n}V(f({vec {x}}_{i}),y_{i})} Алгоритм обучения, который выбирает функцию f S {displaystyle f_{S}} , минимизирующую эмпирический риск, называется минимизацией эмпирического риска.

Функции потерь

Выбор функции потерь — это определение определяющего фактора для функции f S {displaystyle f_{S}} , которая будет выбрана обучающим алгоритмом. Функция потерь влияет также на скорость сходимости алгоритма. Важно, чтобы функции потерь была выпуклой .

Используются разные функции потерь в зависимости от того, является задача регрессией или классификацией.

Регрессия

Наиболее употребительной функцией потерь для регрессии является квадратичная функция потерь (известная также как L2-норма). Эта знакомая функция потерь используется в обычном методе наименьших квадратов. Формула:

V ( f ( x → ) , y ) = ( y − f ( x → ) ) 2 {displaystyle V(f({vec {x}}),y)=(y-f({vec {x}}))^{2}}

Абсолютная величина потери (известная также как L1-норма) также иногда используется:

V ( f ( x → ) , y ) = | y − f ( x → ) | {displaystyle V(f({vec {x}}),y)=|y-f({vec {x}})|}

Классификация

В некотором смысле 0-1 индикаторная функция является наиболее естественной функцией потерь для задач классификации. Функция принимает значение 0, если предсказанный результат совпадает с верным значением и значение 1, если предсказанный результат не совпадает с верным значением. Для двоичной классификации Y = { − 1 , 1 } {displaystyle Y={-1,1}} это будет:

V ( f ( x → ) , y ) = θ ( − y f ( x → ) ) {displaystyle V(f({vec {x}}),y)= heta (-yf({vec {x}}))}

где θ {displaystyle heta } — функция Хевисайда.

Регуляризация

В задачах обучения машин главной проблемой становится переобучение. Поскольку обучение является задачей предсказания, целью является не поиск функции, которая наиболее близко подходит для (предварительно просмотренных) данных, а поиск функции, которая будет наиболее точно предсказывать выход из будущих входных данных. Минимизация эмпирического риска попадает в этот риск переобучения — нахождение функции, которая соответствует в точности данным, но не в состоянии предсказать будущее.

Переобучение является симптомом нестабильных решений — малые изменения в тренировочном наборе могут вызвать большие вариации в функции обучения. Можно показать, что стабильность решения может быть гарантирована. Регуляризация может решить проблему переобучения и обеспечить стабильность.

Регуляризация может быть осуществлена путём ограничения пространства гипотез H {displaystyle {mathcal {H}}} . Можно ограничить, например, H {displaystyle {mathcal {H}}} линейными функциями — это можно рассматривать как ограничение до стандартной задачи линейной регрессии. H {displaystyle {mathcal {H}}} можно ограничить до многочленов степени p {displaystyle p} , экспонент или ограниченных функций на L1. Ограничение на пространстве гипотез исключает переобучение ограничением вида потенциальных функций, что не даёт выбирать функции, дающие эмпирический риск произвольно близким нулю.

Одним из примеров регуляризации является регуляризация Тихонова. Она состоит в минимизации

1 n ∑ i = 1 n V ( f ( x → i , y i ) ) + γ ‖ f ‖ H 2 {displaystyle {frac {1}{n}}displaystyle sum _{i=1}^{n}V(f({vec {x}}_{i},y_{i}))+gamma |f|_{mathcal {H}}^{2}} ,

где γ {displaystyle gamma } фиксированный положительный параметр. Метод регуляризации Тихонова обеспечивает существование, единственность и стабильность решения.

Имя:*
E-Mail:
Комментарий: