zero_grad 의미1 Gradient accumulation (그레디언트 누적) 요약Gradient Accumulation은 GPU 메모리 한계를 극복하면서 더 큰 배치(batch) 크기로 학습한 것과 동일한 효과를 내기 위해 사용하는 기법입니다. 문제: GPU 메모리 한계로 큰 배치를 한번에 학습할 수 없는 경우 발생해결방법작은 배치에서 계산된 loss을 gradient을 누적합니다. (=.backward()만 호출하면 gradient값이 더해집니다.)정해진 횟수(gradient accumulation step)만큼 누적되었다면 optimizer로 가중키를 업데이트 합니다.최종기울기가 큰 배치에서 한번에 처리한 결과와 동일하도록 각 loss을 gradient accumulation step만큼 나눠주어 스케일링합니다. 코드 스니펫아래와 같은 코드스니펫으로 사용될 수 있습니다. 주요.. 2025. 1. 22. 이전 1 다음