Ada가 1.5배 이상 체감나서... ada로 가는게 좋아보였는데 nvlink 없으면 애매하네요
다만 A6000이 너무 오래되긴했습니다... 새 라인이 빨리 좀 나와야할텐데
2025.04.01
GPU 8개 사용해서 돌릴 때 NVLink안돼도 A6000보다 6000 Ada가 빠르지 않을까요?
2025.04.01
누적 신고가 20개 이상인 사용자입니다.
큰 모델 한방에 넣고싶으신 것 같습니다
2025.04.01
큰 모델 넣어서 분산으로 돌릴때도 개별 GPU 성능이 워낙 좋으니 NVLINK없는 단점도 극복이 될 것 같아서요
2025.04.02
nvlink로 묶는다고 하나처럼 쓸수있는건 아니라서 fsdp나 deepspeed같은 텐서패러랠 라이브러리로 분산해주셔야 여러gpu에서 효율적으로 큰 모델 학습이 가능합니다. 그냥 transformers에서 device=auto로 로딩하시면 레이어별로 시퀀셜하게 처리되서 gpu1이 forward하는동안 gpu0은 놀게되요. nvlink를 달면 gpu0에 있는 텐서를 t.to('cuda:1)했을 때, 원래 pci버스를 통해 전송해야해서 느리던 걸 p2p통신으로 좀 더 빠르게 해주는 겁니다. 만약 큰모델 안쓰고 ddp로 학습하시면 nvlink 안달아도 gradient accumulation step 좀 늘려주면 속도저하 덜하게 학습가능합니다.
2025.04.01
대댓글 3개
2025.04.01
2025.04.01
2025.04.01
2025.04.01
대댓글 5개
2025.04.01
2025.04.01
2025.04.01
2025.04.01
2025.04.01
2025.04.02
대댓글 1개
2025.04.02
2025.04.02
2025.04.02