주요 컨텐츠로 이동
Page 1

엔비디아 H100 텐서 코어 GPU에서 정량화된 거대 언어 모델(LLM) 제공

정량화는 머신 러닝 모델을 더 작고 빠르게 만드는 기술입니다. 저희는 Llama2-70B-Chat을 정량화하여 초당 2.2배 더 많은 토큰을 생성하는 동등한 품질의 모델을 생성합니다. 언어...

LLM 추론 성능 엔지니어링: 모범 사례

(번역: Youngkyong Ko) Original Blog Post 이 블로그에서 MosaicML 엔지니어링 팀은 프로덕션용으로 널리 사용되는 오픈 소스 대규모 언어 모델(LLM)을 활용하는 방법에 대한 모범...