인공지능(AI)의 가능성은 부인할 수 없지만, 그 엄청난 잠재력에는 막대한 책임도 따릅니다. 전 세계의 기업과 조직은 AI 사용을 가속화해야 한다는 경쟁적 압박을 느끼고 있으며, 동시에 이 기술을 제대로 사용하지 않을 경우 발생할 수 있는 문제로부터 보호해야 합니다.
기업이 AI를 도입할 때, 소규모 오픈 소스 모델에 의존하든 하이퍼스케일 독점 대규모 언어 모델(LLM)에 의존하든, 이 혁신적인 기술을 책임감 있게 사용할 수 있는 방법을 고민할 수 있도록 돕고자 합니다. 우리의 플랫폼을 통해 고객은 전사적인 데이터와 AI 개발을 신중하게 제어할 수 있으며, 위험을 더 잘 관리하고 편향성 사례를 줄이며 기타 문제적인 문제를 해결할 수 있습니다.
AI 기술은 계속해서 빠르게 발전하고 있지만, 미래에는 지속적인 관계의 초석인 신뢰와 투명성에 기반을 두어야 한다고 믿습니다. 이것이 바로 "책임감 있는 AI를 위한 데이터브릭스의 약속"을 개발한 이유입니다. 이 성명서에는 데이터브릭스의 기술 비전을 안내하는 핵심 원칙과 기업이 AI를 도입할 때 지속적으로 지원할 수 있는 방법이 포함되어 있습니다.
우리는 이번 성명이 책임감 있는 AI 사용에 대한 건전한 논의에 기여하기를 바랍니다. 이는 AI의 방향을 결정할 중요한 주제이며, 고객 및 파트너, 규제 당국, 정책 입안자 및 기타 주요 이해관계자들과 지속적으로 대화를 이어나갈 수 있기를 기대합니다.
책임감 있는 AI를 위한 데이터브릭스의 약속
인공지능(AI)은 수십 년 동안 개발되어 사용되어 왔 지만, 최근에는 채택률과 영향력이 크게 증가하고 있는 새로운 단계에 접어들었습니다. 최근의 발전은 의료 연구 가속화, 개인화된 고객 경험 제공, 기후 변화 대응 등 다양한 혁신을 통해 산업 전반을 변화시킬 수 있는 잠재력을 가지고 있습니다.
더 많은 기업, 정부 기관 및 기타 조직이 AI 기술을 채택함에 따라 책임감 있는 사용과 관련된 문제를 해결해야 합니다. 기업은 AI가 제공할 수 있는 막대한 이점과 함께 신중하게 개발하고 사용하지 않을 때 발생할 수 있는 심각한 위험과 부정적인 결과를 고려해야 합니다.
AI의 발전 속도는 기업이 직면한 가장 큰 과제 중 하나인 기술의 다음 단계에 대한 명확한 로드맵 없이 AI 테스트 및 모니터링 도구를 개발 및 개선하는 방법을 제시합니다. 비윤리적 사용, 편견, 환각 및 기타 시스템적 문제에 대한 우려는 AI가 발전하고 기술을 적용하는 새로운 방법이 개발됨에 따라 더욱 두드러질 것입니다.
중요한 것은 기업이 이러한 문제를 예측하고 완화하는 데 도움이 되는 업계 모범 사례가 많이 등장했다는 점입니다. 대표적인 예로 AI 위험을 평가하고 해결하는 데 유용한 가이드라인을 제공하는 NIST AI 위험 관리 프레임워크가 있습니다.
AI의 광범위한 사용으로 인해 제기되는 문제에 대한 해결책은 다양한 업계 관계자들로부터 나올 것입니다. 업계가 투명성과 신뢰에 초점을 맞춘다면 위험을 최소화하면서 AI의 장점을 최대한 활용하기 위해 함께 노력할 수 있을 것으로 확신합니다.
기업이 책임감 있게 AI를 배포하도록 지원하는 우리의 원칙
기업 고객이 데이터에서 가치를 추출하여 세계에서 가장 어려운 문제를 해결할 수 있도록 지원하는 데 주력하는 데이터 및 AI 기업으로서,우리는 기술을 개발하는 기업과 이를 사용하는 기업 및 조직 모두 AI 배포 방식에 있어 책임감 있게 행동해야 한다고 굳게 믿습니다.
우리 플랫폼은 기업이 데이터를 더 잘 제어하고, 보호하고, 이해할 수 있도록 설계되었습니다. 모든 규모의 기업과 조직은 책임감 있게 AI를 사용하기 위해 데이터 거버넌스 및 머신러닝 도구를 사용하여 데이터 세트와 AI 모델을 모니터링하고 테스트합니다. 이러한 도구는 플랫폼이 제공하는 안전한 환경 내에서 고객의 데이터를 더 설명하기 쉽고 편견, 부정확성, 불완전성 및 기타 유해한 오류로부터 자유롭게 만들 수 있을 뿐만 아니라 책임감을 높이고 규정 준수 표준을 충족하는 데 도움을 줍니다.
AI의 미래는 아직 만들어지고 있지만, 기업이 책임감 있게 AI를 사용할 수 있도록 기술을 활용하겠다는 약속은 변하지 않을 것입니다.
1. 좋은 거버넌스는 반드시 필요합니다.
- 엔터프라이즈 소프트웨어 기업으로서 고객이 우리의 기술을 사용하는 방식에 깊은 관심을 기울이고 있습니다. 그렇기 때문에 우리 플랫폼은 Unity Catalog(자사 플랫폼 내 거버넌스 프레임워크), 레이크하우스 모니터링, MLflow(고객이 머신러닝 수명주기를 관리할 수 있도록 지원하는 도구) 내 다양한 기능을 포함한 데이터 및 AI 거버넌스 도구 제품군을 제공하여 기업이 동급 최고의 프레임워크를 구축할 수 있도록 지원합니다. 데이터브릭스 플랫폼은 품질 관리, 데이터 계보 추적, 모니터링, 보안, 개인정보 보호 및 감사를 위한 도구 등 적절한 거버넌스를 보장하는 다양한 기능을 고객에게 제공합니다.
- 고객 대면 AI 애 플리케이션에는 고유한 문제가 있을 수 있으므로, 자사 플랫폼은 기업이 적절한 경우 사람의 개입, AI 사용에 대한 투명성, 바람직하지 않은 콘텐츠의 출력을 피하기 위한 합리적인 노력 등 책임감 있는 가이드라인을 따라 문제를 해결할 수 있도록 지원합니다.
- 우리는 고객이 비즈니스 목표를 달성하기 위해 책임감 있게 AI를 배포하고자 할 때 잠재적인 문제를 예측하고 해결하는 데 필요한 도구와 프레임워크를 제공합니다. 이러한 초점은 플랫폼이 사기, 기만 또는 불법적인 활동에 사용되지 않도록 보장하는 사용 제한 정책을 기반으로 합니다.
- 또한 기술이 계속 발전함에 따라 AI에 대한 생각과 활용 방법을 알리기 위해 우리는 AI 자문위원회를 설립했습니다.
2. AI는 모든 회사에게 민주화되어야 합니다.
- 우리는 AI를 단순화하고 개발과 활용을 확대하여 모든 기업과 조직이 AI에 접근할 수 있어야 한다고 믿습니다. AI는 소수의 대기업에 의해 통제되어서는 안 됩니다. 이를 염두에 두고, 데이터브릭스 플랫폼은 하이퍼스케일 대규모 언어 모델(LLM) 외에도 맞춤형 모델을 구축 및 배포하는 데 사용할 수 있습니다.
- 우리는 AI의 대중화가 비용을 낮게 유지하여 최대한 많은 기업, 비영리단체 및 기타 조직이 빠르게 변화하는 이 굉장한 기술을 채택할 수 있도록 도울 것이라고 믿습니다
3. 기업은 본인들의 데이터와 모델을 소유하고 제어해야 합니다.
- AI 기술을 사용하는 기업은 독점 데이터와 모델 품질에 대한 통제권을 유지할 수 있어야 합니다. 고객이 데이터를 이동하거나 제3자와 공유하지 않고도 안전하게 활용할 수 있는 모델을 구축 및 배포할 수 있어야 한다고 믿습니다.
- 우리의 레이크하우스 아키텍처는 고객에게 데이터 액세스 제어, 기타 모니터링 및 거버넌스 기능 등 광범위한 보안 보호 기능을 Unity Catalog와 MLflow를 통해 제공하며, 그 외 다양한 보안 조치를 제공합니다(자세한 내용은 보안 및 신뢰 센터 참조). 우리는 기업이 데이터에서 가치 있는 인사이트를 확보하는 동시에 전 세계 개인정보 보호 및 데이터 보호 규정을 완벽하게 준수하고 제어할 수 있기를 바랍니다.
4. AI는 학습된 데이터만큼만 성능이 향상되며, 기업은 데이터를 제어하고 모니터링하여 착각, 편견 및 기타 오류를 줄일 수 있어야 합니다.
- 자사 플랫폼에는 포용성, 공정성, 정확성, 투명성 및 책임성을 해결하는 데 도움이 되는 기능이 있습니다. 예를 들어, 고객은 MLflow 내의 도구를 사용하여 모델을 실행, 모니터링 및 조정할 수 있습니다. 다른 도구는 데이터와 모델 모두에 대한 재현성과 계보 추적을 가능하게 합니다. 또한 자사의 모델 테스트 기능은 문제가 있는 콘텐츠를 필터링할 수 있으며, Unity Catalog와 레이크하우스의 다른 부분에 포함된 다양한 추가 툴은 고객이 위험을 더 잘 관리하고 편향성을 줄이며 기타 잠재적인 문제를 해결할 수 있도록 지원합니다.
- 2023년 6월, 데이터브릭스는 레이크하우스 모니터링을 도입했습니다. 이는 고객이 프로덕션 중인 모델을 모니터링하여 모델 및 기능 드리프트와 같은 데이터 품질 및 편향 문제를 확인할 수 있는 데이터 및 모델 모니터링 제품군입니다. 이 기능을 통해 기업은 지능형 자동화를 적용하여 경고를 생성하고, 필요할 때 재교육 파이프라인을 트리거하며, 감사 목적의 보고서를 생성할 수 있습니다. 레이크하우스 모니터링은 Unity Catalog에 완전히 통합되어 있으며 MLflow의 관련 기능과 원활하게 작동하도록 설계되었습니다.
- 또한 우리는 고객이 도달하고자 하는 인구를 반영하기 위해서는 데이터와 사용 사례의 다양성이 중요하다고 생각합니다. 데이터브릭스 Marketplace의 다양한 데이터 소스와 레이크하우스 Data Cleanroom의 안전한 데이터 공유 기능은 고객이 데이터를 다양화하는 데 도움이 될 수 있습니다.
5. 기업은 AI의 환경적, 재정적 비용을 비즈니스 목표를 지원하는 데 필요한 수준으로 제한해야 합니다.
- 하이퍼스케일 AI LLM은 자사가 전폭적으로 지원하는 특정 사용 사례에 적합하지만, 막대한 컴퓨팅 및 스토리지 리소스를 필요로 합니다. 하이퍼스케일 AI LLM의 재정적 및 환경적 비용은 해당 상황에 비추어 제공하는 가치와 비교하여 검토해야 합니다.
- 대규모 모델이 필요하지 않을 때 소규모 모델을 사용하면 AI를 대중화하고 환경에 미치는 유해한 영향과 하이퍼스케일 모델 생성 및 사용과 관련된 막대한 비용을 크게 줄일 수 있다고 믿습니다.
- MLflow는 기업이 모델에 사용되는 컴퓨팅 리소스를 모니터링할 수 있는 기능을 제공하여 고객이 탄소 중립에 미치는 영향을 평가할 수 있도록 지원합니다.
6. AI가 책임감 있게 사용되도록 하기 위해서는 신중한 규제가 필요합니다.
데이터브릭스는 기업 이 AI에 대해 생각하고 사용하는 데 중요한 역할을 합니다. 우리는 거버넌스, 모범 사례, 규제 구조에 대한 논의를 지속하여 AI의 막대한 잠재력을 책임감 있게 활용할 수 있기를 기대합니다.
- AI는 많은 고부가가치 사용 사례를 가능하게 합니다. 하지만 AI 기술은 오용되거나 잘못 적용될 수 있으므로 책임감 있는 AI 개발 및 사용에 관한 모범 사례에 부합하는 신중한 규제가 필요하다고 생각합니다.
- 어떤 규제든 혁신과 민주화를 억압하거나 기술 발전을 촉진하는 활기찬 협업 정신을 소멸시키지 않는 것이 중요합니다. 따라서 규정과 그에 따른 의무는 기본 기술 방법론에 초점을 맞추기보다는 특정 사용 사례와 결과에 맞게 비례적이고 합리적이어야 한다고 생각합니다. 특히 오픈 소스 AI는 혁신을 촉진하고 생산성을 향상시키는 AI의 비용을 낮게 유지하여 다양한 비즈니스와 용도로 활용될 수 있다는 측면에서 상당한 이점을 제공하므로 오픈 소스 AI를 과도하게 제한하지 않는 것이 중요합니다.