Data Parallelism
-
분산학습 대표 유형: DP vs MPAI/distributed 2022. 6. 12. 23:59
안녕하세요~! 오늘은 분산학습 시리즈 2번째로 분산학습의 대표 유형들에 대해 살펴보는 시간을 가지겠습니다. 분산학습을 잘 모르시는 분들을 위해 개괄적으로 설명할 예정으로 세부적인 개별 구현에 대해서 다루기보다는 각 유형의 컨셉에 대한 이해 그리고, 해당 기법과 관련된 용어들을 소개하는 것을 목적으로 하겠습니다. 지난 시간에 학습 데이터와 모델 사이즈가 점점 커지는 학습 트렌드를 설명하면서 여러 서버의 GPU들을 사용해 학습하는 분산학습(multi-node training)이 도래하게 되었다고 말씀드렸습니다. 하나의 GPU만 사용한다면, 모델이 logit을 계산하는 것부터 loss를 구하고 optimizer로 모델을 업데이트하기까지의 모든 metric 연산들은 GPU에 올려서 수행하기만 하면 됐습니다. ..