
개요
경사하강법은 인공신경망을 학습시키는 방법 중의 하나입니다. 경사하강법을 정확히 이해하기 위해서는 다변수 미적분학을 이해해야 합니다.
경사하강법을 설명할 때 2~3차원을 예로 들어 설명하는데, 시중에 자료로 충분히 이해할 수 있으니 그 부분은 넘어가겠습니다. 참고 자료 확인 부탁드립니다. 설명 잘하는 사람이 세상엔 너무나 많습니다.
경사하강법 수식
경사하강법은 아래 수식을 통해 파라미터들을 조정하는 방법입니다.
θt+1 = θt − α ⋅∇θJ(θt)
- θJ : 손실함수
- ∇θJ(θt) : 손실함수 그래디언트, 손실함수의 파라미터 θt 에 대해 편미분한 것
- α : 학습률, ∇θJ(θt) 의 영향을 조절, 초기값을 0.01로 두고 점차 인위적으로 조절하도록 설계
- θt : 파라미터, 벡터 값으로 Weight 또는 Bias 의 벡터
- θt+1 : 파라미터, 위 경사하강법을 통해서 업데이트된 Weight 또는 Bias 의 벡터
위 수식을 통해 지속적으로 파라미터 업데이트 (학습)를 진행하면 손실함수의 output 이 적은 방향으로 학습됩니다. 물론 무적의 방법은 아니고 명확한 한계가 있습니다.
이 경사하강법에서 파생된 다양한 학습 방법들이 있습니다. (모멘텀 등..)
참고 자료
- 모델이 학습하는 방법 (1) - 손실함수(Loss function)와 경사하강법(Gradient Descent)
- AI가 궁금하다면 봐야할 기초영상 경사하강법 - DL2
- Gradient descent - Wikipedia
- 1609.04747
'컴퓨터공학 & 정보통신' 카테고리의 다른 글
| [인공지능] Swish 활성화 함수 이해하기 (0) | 2026.01.11 |
|---|---|
| [인공지능] 인공신경망 (ANN, Artificial Neural Network) 이해하기 (0) | 2025.10.11 |
| [알고리즘] 에라토스테네스의 체 (0) | 2024.09.28 |
| [알고리즘] 최소 신장 트리 MST (Minimum Spanning Tree) (1) | 2024.09.24 |
| [알고리즘] 비잔틴 장애 허용 (Byzantine Fault Tolerance) (1) | 2024.08.23 |