Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

DeepSpeed Ulysses: 긴 시퀀스 트랜스포머 모델 훈련을 위한 시스템 최적화 #44

Open
YeonwooSung opened this issue Aug 31, 2023 · 0 comments

Comments

@YeonwooSung
Copy link
Owner

DeepSpeen Ulysses

  • 기존 시스템보다 4배 더 긴 시퀀스 길이를 제공, 백만개 이상의 토큰이 포함된 시퀀스로 훈련 가능
  • 통신이 10배 이상 감소하여 처리량이 최대 2.5배 향상. 처리량이 175 TFlops/GPU 이상으로 유지
  • 완전히 general 하고 구현에 agnostic한 Attention (FlashAttention 2 같은 구현과도 동작)
  • 대규모 모델 훈련 지원: ZeRO-3 과 함께 작동하여 대규모 시퀀스/모델 크기를 지원
  • 사용하기 쉽고 이식성이 뛰어나 기존 프레임워크 변경 최소화
Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

1 participant