Metoda gradientu prostego

Metoda gradientu prostego (ang. Gradient descent) – algorytm iteracyjny mający na celu znalezienie minimum lokalnego funkcji wielu zmiennych rzeczywistych o wartościach w zbiorze liczb rzeczywistych; zasadniczym elementem algorytmu jest obliczanie gradientu funkcji w punkcie startowym oraz w kolejnych punktach i przemieszczanie się w kierunku przeciwnym do wektora gradientu funkcji. To, które minimum lokalne zostanie znalezione, zależy od przyjętego punktu startowego algorytmu. Obliczanie gradientu wymaga, by funkcja była różniczkowalna. Problem znajdowania minimum funkcji występuje jako podstawowe zagadnienie problemów optymalizacji. Wtedy funkcją, dla której szuka się minimum, jest tzw. funkcji straty / funkcja kosztu.

Metoda gradientu prostego jest jedną z prostszych metod optymalizacyjnych. Rozszerzenie tej metody — tzw. metoda stochastycznego spadku gradientu — znajduje zastosowanie m. in. w uczeniu większości sieci neuronowych, w ramach tzw. metody propagacji wstecznej (backpropagation).

Sformułowanie metody spadku gradientowego jest zazwyczaj przypisywane Augustinowi-Louisowi Cauchy’emu, który jako pierwszy zasugerował ją w 1847 roku^[1]. Jacques Hadamard niezależnie zaproponował podobną metodę w 1907 roku^[2]^[3]. Problem zbieżności metody dla nieliniowych problemów optymalizacyjnych został po raz pierwszy zbadany przez Haskella Curry’ego w 1944 roku^[4], a metoda była coraz intensywniej badana i stosowana w kolejnych dekadach^[5].

Terminologia. Metoda gradientu prostego ze stałym współczynnikiem oraz ze współczynnikiem najszybszego spadku

Termin „gradient prosty” w polskiej literaturze matematycznej oznacza bazowy, klasyczny gradient i odróżnia go od bardziej złożonych metod (np. Newtona czy quasi-Newtona). Nie jest dosłownym tłumaczeniem angielskiego „Gradient descent”.

Słowo „prosty” nie odnosi się do łatwości doboru współczynnika kroku $\alpha$ w kolejnych iteracjach; w najprostszej wersji metoda używa stałej wartości $\alpha$ . W wariantach bardziej zaawansowanych $\alpha$ dobiera się w każdej iteracji, aby zwiększyć szybkość i skuteczność znalezienia minimum. W szczególności w metodzie gradientu prostego z maksymalnym spadkiem w każdym kroku (ang. maximal line search) znajduje się taką wartość $\alpha$ , aby przemieszczając się wzdłuż gradientu wybrać punkt, w którym funkcja maksymalnie obniża się.

Reasumując, w metodzie gradientu prostego mamy

krok w każdej iteracji jest skierowany przeciwnie do gradientu funkcji, wystawionego w aktualnym punkcie $x_{k}$ , tj. wzdłuż wektora $-\nabla f(\mathbf {x_{k}} )$
nowy punkt oblicza się ze wzoru $\mathbf {x_{k+1}} =\mathbf {x_{k}} -\alpha _{k}\nabla f(\mathbf {x_{k}} )$ , gdzie $\alpha _{k}$ - współczynnik, który można dobrać w każdym kroku indywidualnie
metoda stałego współczynnika: w najprostszym przypadku ustala się jako stałą wartość dla całej iteracji $\alpha _{k}=\alpha$
metoda maksymalnego spadku (ang. maximal line search) - to najbardziej optymalna metoda, gdzie $\alpha$ dobiera się tak, by w nowym punkcie $\mathbf {x_{k+1}}$ wartość funkcji była możliwie najmniejsza: $\alpha _{k}=\arg \min _{\eta >0}f(\mathbf {x_{k}} -\alpha \nabla f(\mathbf {x_{k}} ))$ ; każdy ruch jest maksymalnie efektywny, co przyspiesza zbieżność (szczególnie istotne dla funkcji kwadratowych lub o wydłużonych dolinach).
w innych wariantach stosuje się często przybliżone line search, jeśli maksymalne minimalizowanie byłoby kosztowne.

Metoda gradientu prostego funkcji dwóch zmiennych

f(x,y)\colon \mathbb {R} ^{2}\mapsto \mathbb {R}

: widać, że w zależności od punktu początkowego metoda prowadzi do znalezienia różnych minimów lokalnych Minimum globalne - to najmniejsze z minimów lokalnych.

Minimum lokalne vs minimum globalne

Jeżeli $f$ jest ściśle wypukła w badanej dziedzinie $D\subset \mathbb {R} ^{n}$ , to istnieje jedno globalne minimum i algorytm gradientu znajdzie to jedno minimum.
Jeżeli funkcja nie jest ściśle wypukła, to ma wiele minimów. Wtedy w metodzie gradientu zostanie znalezione jedno minimum lokalne, w zależności od doboru punktu startowego $\mathbf {x_{0}}$ . Aby znaleźć minimum globalne, trzeba poszukać wszystkich minimów, wybierając różne punkty startowe (np. zbadać, do jakich minimów prowadzą punkty startowe ulokowane w węzłach gęstej siatki, pokrywającej całą dziedzinę funkcji - por. animacja; lub posłużyć się metodą Metropolisa-Hastingsa, która pozwala efektywnie poszukiwać minimum globalnego w przestrzeniach wielowymiarowych). Minimum globalne - to najmniejsze ze znalezionych minimów lokalnych.

Algorytm

Założenia nt. funkcji

Metodę gradientu prostego stosuje się do znajdowania ekstremów funkcji $f$ wielu zmiennych rzeczywistych, mającej zbiór wartości rzeczywistych, tj.

f\colon D\mapsto \mathbb {R} ,

gdzie $D\subset \mathbb {R} ^{n},$ przy czym funkcja $f$ winna być klasy $\mathrm {C} ^{1}$ (funkcja ciągła i różniczkowalna).

Opis algorytmu

Na początku wybierany jest dowolny punkt startowy $\mathbf {x_{0}} \in D.$ W punkcie tym obliczany jest kierunek poszukiwań $\mathbf {d_{0}} \in D$ , taki że $\mathbf {d_{0}} =-\nabla f(\mathbf {x_{0}} )$ , tj. jest to antygradient funkcji w punkcie $\mathbf {x_{0}}$ czyli wektor wskazujący kierunek najszybszego spadku funkcji. Następnie obliczany jest nowy punkt $\mathbf {x_{1}} \in D$ według wzoru

\mathbf {x_{1}} =\mathbf {x_{0}} +\alpha _{0}\mathbf {d_{0}} ,

gdzie $\alpha _{0}$ - dowolnie wybrana liczba rzeczywista, ale taka, by odległość od poprzedniego punktu nie była zbyt duża. Następnie oblicza się kolejne punkty

\mathbf {x_{k+1}} =\mathbf {x_{k}} +\alpha _{k}\mathbf {d_{k}} ,\quad k=1,2,3,\dots

gdzie

\alpha _{k}

- dowolnie wybrane liczby rzeczywiste

\mathbf {d_{k}} =-\nabla f(\mathbf {x_{k}} )

aż kolejny punkt $\mathbf {x_{k}}$ spełni warunek stopu algorytmu (patrz dalej).

Określanie wielkości współczynników $\alpha _{k}$

Współczynniki $\alpha _{k}$ decydują o wielkości kolejnych kroków - im większe, tym większe kroki. Algorytm powinien być tak skonstruowany, aby znajdowane wartości funkcji malały w kolejnych krokach, tj.

f(\mathbf {x_{0}} )>\dots >f(\mathbf {x_{k}} )>f(\mathbf {x_{k+1}} )>\dots

(a) Jeżeli warunek ten nie jest w danym kroku spełniony, to należy powtórzyć krok z mniejszą wartością $\alpha _{k}.$

(b) W wielu przypadkach przyjmuje się jednakowe wartości $\alpha _{k}$ , tj.

\alpha _{k}=\alpha ={\textrm {const}},\quad k=1,2,3,\dots

(c) Jeśli $f$ jest funkcją kwadratową wielu zmiennych o dodatnio określonym hesjanie $H$ to można przyjąć:

0<\alpha <{\frac {1}{\lambda }},

gdzie $\lambda$ jest największą wartością własną macierzy $H.$

Kryterium stopu

W celu określenia, czy punkt w danym kroku dostatecznie dobrze przybliża minimum funkcji celu w metodzie gradientu prostego można użyć następujących kryteriów stopu (dla zadanej precyzji $\epsilon$ oraz normy $\|{\cdot }\|$ w przestrzeni $D\subset \mathbb {R} ^{n}$ ):

\|\nabla f(\mathbf {x_{k}} )\|\leqslant \epsilon \quad {}

- test stacjonarności gradientu

\|\mathbf {x_{k+1}} -\mathbf {x_{k}} \|\leqslant \epsilon

- test stacjonarności przemieszczania się punktu

Zbieżność

Metoda gradientu prostego jest metodą o zbieżności liniowej. Oznacza to, iż przy spełnieniu założeń metody, odległości pomiędzy kolejnymi przybliżeniami a minimum funkcji $\mathbf {x} ^{*}$ maleją liniowo:

\|\mathbf {x} ^{*}-\mathbf {x_{k+1}} \|\leqslant c\|\mathbf {x} ^{*}-\mathbf {x_{k}} \|.

Podsumowanie - schemat algorytmu

Algorytm gradientu prostego składa się z 4 etapów postępowania:

Wybierz punkt startowy $\mathbf {x_{0}} .$ Przyjmij $k=0$ . Ustal wartość $\alpha _{0}$ .
Oblicz $\mathbf {x_{k+1}} =\mathbf {x_{k}} -\alpha _{k}\cdot \nabla f(\mathbf {x_{k}} )$
Jeżeli $f(\mathbf {x_{k+1}} )\geqslant f(\mathbf {x_{k}} )$ to zmniejsz wartość $\alpha _{k}$ i powtórz punkt 2.
Sprawdź kryterium stopu:
1. jeśli nie jest spełnione, to przyjmij $k:=k+1$ , ustal wartość $\alpha _{k}$ , przejdź do punktu 2.
2. jeśli jest spełnione to funkcja ma minimum w punkcie $\mathbf {x_{k+1}}$ ; STOP.

Funkcja kwadratowa

W kontekście metod gradientowych, funkcja kwadratowa to funkcja wielu zmiennych o wartościach rzeczywistych, o postaci ogólnej:

f(\mathbf {x} )={\frac {1}{2}}\mathbf {x} ^{T}A\mathbf {x} -\mathbf {b} ^{T}\mathbf {x} +c

gdzie:

Trajektoria punktu $\mathbf {x_{k}} =(x_{k},y_{k})$ po dziedzinie funkcji $f_{(example)}$ wyznaczona metodą gradientu.
$\mathbf {x} \in \mathbb {R} ^{n}$ – wektor zmiennych zapisany w postaci kolumny,
$\mathbf {x} ^{T}\in \mathbb {R} ^{n}$ – wektor zmiennych transponowany (zapisany w postaci wiersza),
$A\in \mathbb {R} ^{n\times n}$ – macierz symetryczna i dodatnio określona,
$\mathbf {b} \in \mathbb {R} ^{n}$ – wektor,
$c\in \mathbb {R}$ – stała liczba.

Funkcja kwadratowa jest klasycznym przypadkiem testowym dla metod gradientowych, ponieważ gradient zależy liniowo od $x$ :

\nabla f(\mathbf {x} )=A\mathbf {x} -\mathbf {b}

Dzięki temu łatwo obliczyć optymalny krok. W przypadku funkcji kwadratowej z dodatnio określoną macierzą $A$ , metoda ta z dokładnym doborem kroku (exact line search) zbiega do minimum w skończonej liczbie kroków lub bardzo szybko.

Charakterystyka

Minimum funkcji kwadratowej jest jednoznaczne i wynosi $\mathbf {x} ^{*}=A^{-1}\mathbf {b}$ , gdzie $A^{-1}$ - macierz odwrotna do macierzy $A$ (wynika to z rozwiązania równania na zerowanie się gradientu: $\nabla f(\mathbf {x} )=0$ )

Wydłużone doliny (tzn. różne wartości własne macierzy $A$ ) pokazują, jak szybkość zbieżności zależy od doboru kroku
Funkcje kwadratowe są często używane do ilustrowania różnicy między metodą stałego kroku a line search.

Przykład

Rozważmy funkcję dwu zmiennych, o wartościach w dziedzinie rzeczywistej

f(x,y)_{(example)}=\sin \left({\frac {1}{2}}x^{2}-{\frac {1}{4}}y^{2}+3\right)\cdot \cos(2x+1-e^{y})

Funkcja ta jest ciągła, różniczkowalna, wypukła w otoczeniu wybranego punktu startowego. Stosując metodę gradientu wyznaczamy trajektorię punktu, która zmierza do lokalnego minimum (por. rysunki obok).

Zobacz też

Metody optymalizacji

1. szukanie minimum funkcji 1 zmiennej

metoda złotego podziału

2. szukanie minimum funkcji n zmiennych

Inne

optymalizacja

Przypisy

↑ Lemaréchal 2012 ↓, s. 251–254.
↑ Hadamard 1908 ↓, s. 251–254.
↑ Courant 1943 ↓, s. 1–23.
↑ Curry 1944 ↓, s. 258–261.
↑ Akilov, G. P.; Kantorovich, L. V. (1982). Functional Analysis (2nd ed.). Pergamon Press ↓, s. ..

Bibliografia

W języku polskim

Fortuna Z., Macukow B., Wąsowski J.: Metody numeryczne, Wydawnictwa Naukowo-Techniczne, 2006.
Stachurski A., Wierzbicki A.: Podstawy optymalizacji, Oficyna Wydawnicza Politechniki Warszawskiej, 1999.

W języku angielskim

Cauchy and the gradient method. W: C. Lemaréchal: Optimization Stories. T. 6. EMS Press, s. 251–254, seria: Documenta Mathematica Series. DOI: 10.4171/dms/6/27. ISBN 978-3-936609-58-5.
Jacques Hadamard. Mémoire sur le problème d'analyse relatif à l'équilibre des plaques élastiques encastrées. „Mémoires présentés par divers savants éstrangers à l'Académie des Sciences de l'Institut de France”, 1908.
R. Courant. Variational methods for the solution of problems of equilibrium and vibrations. „Bulletin of the American Mathematical Society”, s. 1–23, 1943. DOI: 10.1090/S0002-9904-1943-07818-4.
Haskell B. Curry. The Method of Steepest Descent for Non-linear Minimization Problems. „Quart. Appl. Math.”, s. 258–261, 1944. DOI: 10.1090/qam/10667.
Akilov, G. P.; Kantorovich, L. V. (1982). Functional Analysis (2nd ed.). Pergamon Press, ISBN 0-08-023036-9

Linki zewnętrzne

https://web.archive.org/web/20170815181749/http://www.isep.pw.edu.pl/~ambor/Pomoce/gradientowe.htm

[CITEREFLemaréchal2012251–254-1] Lemaréchal 2012 ↓, s. 251–254.

[CITEREFHadamard1908251–254-2] Hadamard 1908 ↓, s. 251–254.

[CITEREFCourant19431–23-3] Courant 1943 ↓, s. 1–23.

[CITEREFCurry1944258–261-4] Curry 1944 ↓, s. 258–261.

[CITEREFAkilov,_G._P.;_Kantorovich,_L._V._(1982)._Functional_Analysis_(2nd_ed.)._Pergamon_Press.-5] Akilov, G. P.; Kantorovich, L. V. (1982). Functional Analysis (2nd ed.). Pergamon Press ↓, s. ..

[1]

[2]

[3]

[4]

[5]

Paradygmaty	uczenie nadzorowane uczenie nienadzorowane uczenie przez wzmacnianie uczenie samonadzorowane
Zagadnienia	inferencja gramatyki inżynieria cech klasteryzacja klasyfikacja regresja redukcja wymiaru uczenie multimodalne uczenie (się) cech wykrywanie anomalii
Uczenie nadzorowane (Klasyfikacja, Regresja)	drzewa klasyfikacyjne uczenie zespołowe agregacja las losowy k najbliższych sąsiadów regresja liniowa naiwny klasyfikator bayesowski sieć neuronowa regresja logistyczna perceptron maszyna wektorów nośnych
Klasteryzacja	grupowanie hierarchiczne algorytm centroidów DBSCAN inferencja gramatyki
Redukcja wymiaru	analiza czynnikowa korelacja kanoniczna liniowa analiza dyskryminacyjna analiza głównych składowych
Sieć neuronowa	autoenkoder uczenie głębokie jednokierunkowa sieć neuronowa model dyfuzyjny rekurencyjna sieć neuronowa LSTM sieć generatywna GAN sieć Kohonena konwolucyjna sieć neuronowa transformer