AI/distributed
-
분산학습 대표 유형: DP vs MPAI/distributed 2022. 6. 12. 23:59
안녕하세요~! 오늘은 분산학습 시리즈 2번째로 분산학습의 대표 유형들에 대해 살펴보는 시간을 가지겠습니다. 분산학습을 잘 모르시는 분들을 위해 개괄적으로 설명할 예정으로 세부적인 개별 구현에 대해서 다루기보다는 각 유형의 컨셉에 대한 이해 그리고, 해당 기법과 관련된 용어들을 소개하는 것을 목적으로 하겠습니다. 지난 시간에 학습 데이터와 모델 사이즈가 점점 커지는 학습 트렌드를 설명하면서 여러 서버의 GPU들을 사용해 학습하는 분산학습(multi-node training)이 도래하게 되었다고 말씀드렸습니다. 하나의 GPU만 사용한다면, 모델이 logit을 계산하는 것부터 loss를 구하고 optimizer로 모델을 업데이트하기까지의 모든 metric 연산들은 GPU에 올려서 수행하기만 하면 됐습니다. ..
-
분산 학습과 집합 통신AI/distributed 2022. 5. 29. 13:39
안녕하세요~ 오늘은 분산학습이 등장하게 된 배경과 정의 그리고 실제 분산학습에서 Gradient 전달을 위한 통신 흐름을 소개해보고자 합니다. 개인적으로 작년에 분산학습이 무엇인지 빠르게 배우고 적용해보는 시간들이 많았습니다만.. 올해 들어 그런 기회가 없어 블로그로 제가 배웠던 내용들을 한곳에 모아보려고 합니다. 소개해보려는 순서는 다음과 같습니다. 1편: 분산학습과 집합통신 2편: 분산학습 대표 유형 (DP, MP, PP, Zero Infinity…) 3편: 분산학습 테크닉과 디버깅 노하우 학습 트렌드 분산학습이 무엇인지 알기 전에 왜 분산학습이 필요하게 되었는지 그 연유부터 알아야겠죠? 이는 DL 학습 트렌드를 찾아보면 한눈에 이해할 수 있습니다. 해당 그래프는 2018년부터 2022년 최근까지 좋..