주요 컨텐츠로 이동

오픈 언어 모델 OLMo 출시 (powered by Databricks)

작성자: Jonathan Frankle

in


이 포스트 공유하기
graphic

(번역: Youngkyong Ko) Original Post

저는 데이터브릭스에서 수석 과학자(신경망)로서, 누구나 자신의 데이터로 AI 모델을 구축하고 미세 조정할 수 있는 능력을 제공하는 것을 목표로 연구팀을 이끌고 있습니다. 2020년에는 머신러닝 학자 및 업계 베테랑으로 구성된 소규모 그룹의 일원으로 MosaicML을 설립하였습니다. 우리는 항상 지식을 공유하고 커뮤니티에 도구를 제공하여 개방적인 과학적 탐구를 지원해왔습니다. 이러한 노력은 데이터브릭스에 합류한 이후에도 더욱 깊어졌습니다.

 

이 같은 정신을 바탕으로, 우리는 기술 지식 공유부터 오늘의 중요한 발표인 OLMo에 이르기까지 모든 분야에서 비영리 단체인 Allen AI 연구소(AI2)의 과학자들과 협력해왔습니다. 개방적이고 엄격한 과학적 연구를 바탕으로 AI2는 세계 최고의 NLP 연구소 중 하나로 인정받고 있습니다. 그들의 창의성과 헌신은 비영리 단체로서 커뮤니티에 도움이 되는 연구를 수행하고 있다는 면에서 공통적인 가치를 공유하고 있습니다.

 

오늘, AI2는 오픈 소스의 최첨단 대규모 언어 모델인 OLMo 7B를 출시합니다. OLMo(Open-source Large Language Model의 줄임말)는 Mosaic AI 모델 트레이닝 플랫폼을 사용하여 학습되었으며, AI2 팀은 모델 개발에 사용된 사전 학습 데이터와 학습 코드를 공유하고 있습니다 (이는 MosaicML LLM Foundry의 파생 모델입니다). 데이터브릭스는 이런 작업을 지원하는 역할을 하게 되어 자랑스럽게 생각합니다.

 

OLMo 프로젝트의 성공에 기여하게 되어 기쁘지만, 공로는 공로에 맞게 돌려야 합니다. 우리는 도구를 공유했지만, 그들이 모델을 구축하는데 어려운 작업을 했습니다 AI2의 수석 소프트웨어 엔지니어인 피트 월시는 "Mosaic은 OLMo를 개발하는 데 있어서 혁신적인 역할을 했습니다. 그들의 플랫폼 덕분에 우리는 훈련 및 생략 실험을 필요할 때 손쉽게 확장할 수 있었고, 명령줄 인터페이스를 통해 노트북에서 바로 멀티노드 작업을 시작하여 신속하게 반복할 수 있었습니다" 라고 말합니다. OLMo 7B 모델과 그 변형 모델에 대한 자세한 내용은 AI2의 블로그 게시물이나 Hugging Face의 모델 카드를 참고하시기 바랍니다.