주요 컨텐츠로 이동

데이터브릭스 접근을 더 쉽게 해주는 인증 및 접근 관리(identity and access management) 신기능 발표

엔터프라이즈를 위해 데이터브릭스를 확장하는 모범 사례
Siddharth Bhai
Lei Ni
Kelly Albano
Anna Shrestinian
이 포스트 공유하기

(번역: Youngkyong Ko) Original Blog Post

관리자가 쉽게 데이터브릭스를 설정하고 확장할 수 있도록 지원하는 새로운 인증 및 접근 관리(identity and access management) 기능을 공유하게 되어 기쁘게 생각합니다. 데이터브릭스 데이터 인텔리전스 플랫폼의 거버넌스 중심에는 Unity Catalog가 있습니다. 그리고 Unity Catalog의 일부인 인증 및 접근 관리 기능은 다음과 같은 원칙에 따라 설계되었습니다:

  1. 온보딩, 관리, 협업을 위한 안전하고 확장성있는 유비쿼터스 인증 및 접근 관리를 구축할 수 있습니다.
  2. 직관적이고 확장 가능하며 감사 가능한 권한 체계을 통해 고객이 데이터브릭스에 대한 액세스를 쉽게 제어할 수 있도록 지원합니다.
  3. 브라우저 및 API 액세스를 위한 확장성 높은 세계적 수준의 인증을 개발하여, 고객과 파트너가 데이터브릭스 데이터 인텔리전스 플랫폼의 강력한 기능을 간편하고 안전하게 활용할 수 있도록 지원합니다.

이 블로그에서는 기존의 인증 및 접근 관리 기능에 대해 다시 한 번 살펴보고, 데이터브릭스의 관리자 환경을 간편하게 해주는 새로운 기능들을 소개합니다. 이러한 기능에는 Power BI와 Tableau의 간단한 로그인, 통합 로그인을 통한 간편한 통합 인증 설정, OAuth 인증, 보안 모범 사례인 서비스 주체(service principal) 인증을 사용한 작업 실행 등이 포함됩니다.

Single sign-on을 통해 Power BI와 Tableau를 AWS의 Databricks에 매끄럽게 연결

Power BI와 Tableau는 데이터브릭스에서 가장 인기 있는 타사 데이터 도구들입니다. 이제 single sign-on(SSO)을 통해 Power BI와 Tableau에서 데이터브릭스로 안전하게 연결할 수 있는 기능을 AWS에서 일반적으로 사용할 수 있습니다(GA). 데이터브릭스는 OAuth를 활용하여 사용자가 이러한 도구에서 SSO를 통해 데이터브릭스에 액세스할 수 있도록 합니다. 이를 통해 사용자의 로그인이 간편해지고 자격 증명이 유출될 위험이 줄어듭니다. Power BI 및 Tableau용 OAuth 파트너 응용 프로그램은 기본적으로 계정에서 사용 가능하도록 설정되어 있습니다.

시작하려면 설명서 페이지를 확인하거나 아래 Power BI용 데모 동영상을 시청하세요.

AWS에서 통합 로그인을 사용하여 데이터브릭스에 사용자 인증

Single sign-on(SSO)은 주요 보안 모범 사례로, 선호하는 ID 공급자를 사용하여 사용자를 데이터브릭스에 인증할 수 있습니다. 데이터브릭스는 세 가지 클라우드 모두에서 SSO를 제공합니다. Azure와 GCP에서는 계정과 워크스페이스에 대해 각각 Microsoft Entra ID(이전의 Azure Active Directory) 및 Google Cloud Identity의 형태로 SSO를 기본적으로 제공합니다. AWS에서 데이터브릭스는 SAML 또는 OIDC를 사용하여 Okta, Microsoft Entra ID, OneLogin과 같은 다양한 ID 공급자를 지원합니다.

지난 여름에는 AWS 계정 및 워크스페이스에서 데이터브릭스의 SSO를 간소화하는 새로운 통합 로그인 기능을 도입했습니다. 통합 로그인을 사용하면 계정과 이와 연결된 모든 데이터브릭스 워크스페이스에서 하나의 SSO 구성을 관리할 수 있습니다. 계정에서 SSO를 활성화하면 모든 또는 특정 워크스페이스에 대해 통합 로그인을 활성화할 수 있습니다. 이 설정은 계정 수준의 SSO 구성을 사용하여 데이터브릭스 접근을 제어하므로, 계정의 모든 워크스페이스에서 사용자 인증이 간편해 집니다. 통합 로그인은 이미 프로덕션 환경의 수천 개의 워크스페이스에서 사용되고 있습니다.

ul

통합 로그인은 일반적으로 사용 가능하며(GA), 2023년 6월 21일 이후에 생성된 계정에서 자동으로 활성화됩니다. 이 기능은 2023년 6월 21일 이전에 생성된 계정에 대해서는 공개 미리 보기(public preview)로 제공됩니다. 통합 로그인을 사용 설정하려면 데이터브릭스 계정 콘솔에서 SSO 설정 문서을 참조하세요.

AWS에서 OAuth를 이용하여 데이터브릭스에 대한 서비스 주체(service principal) 액세스 자동화

이제 서비스 주체(service principal)를 위한 OAuth를 AWS에서 사용할 수 있습니다. Azure와 GCP에서는 각각 Azure와 Google 토큰을 통해 OAuth를 지원합니다. 서비스 주체는 자동화된 도구, 작업 및 애플리케이션에 사용하기 위한 데이터브릭스 ID입니다. 다음과 같은 이유로 프로덕션 자동화 워크플로에 사용자 대신 서비스 주체를 사용하는 것이 보안 모범 사례입니다:

  • 서비스 주체를 사용하여 실행되는 프로덕션 워크플로는 사용자가 조직을 떠나거나 역할을 변경해도 영향을 받지 않습니다.
  • 프로덕션 데이터에 대해 작동하는 모든 프로세스가 서비스 주체를 사용하여 실행되는 경우 대화형 사용자는 프로덕션 환경에서 쓰기, 삭제 또는 수정 권한이 필요하지 않습니다. 따라서 사용자가 실수로 프로덕션 데이터를 덮어쓸 위험이 없습니다.
  • 자동화된 워크플로에 서비스 주체를 사용하면 사용자가 자신의 액세스 토큰을 보호하기 더 쉽습니다.

OAuth는 자격 증명(credentials) 노출 없이 사용자 및 서비스 계정에 API와 기타 리소스에 대한 권한을 부여할 수 있는 개방형 표준 프로토콜입니다. 서비스 주체를 위한 OAuth는 OAuth 클라이언트 자격 증명 플로우를 사용하여 데이터브릭스 API에 대한 인증에 사용할 수 있는 OAuth 액세스 토큰을 생성합니다. 데이터브릭스 인증 에 서비스 주체를 위한 OAuth를 사용하면 다음과 같은 이점이 있습니다:

  • 인증에 사용자 대신 데이터브릭스 서비스 주체를 사용합니다.
  • 자격 증명에 단기(1시간) 액세스 토큰을 사용하여 자격 증명이 유출될 위험을 줄입니다.
  • 만료된 OAuth 액세스 토큰은 데이터브릭스 도구 및 SDK를 사용하여 자동으로 갱신할 수 있습니다.
  • 계정 수준과 워크스페이스 수준에서 서비스 주체가 액세스할 수 있는 모든 데이터브릭스 API에 인증할 수 있습니다. 이를 통해 하나의 스크립트에서 워크스페이스의 생성과 설정을 자동화할 수 있습니다.

서비스 주체에 대해 OAuth를 사용하려면 이 문서를 참조하세요.

서비스 주체(Service Principal)로 안전하게 데이터브릭스 작업(job) 실행

Databricks Workflows는 데이터브릭스 데이터 인텔리전스 플랫폼에서 데이터 처리, 머신 러닝 및 분석 파이프라인을 조율합니다. 데이터브릭스 작업(job)은 데이터브릭스 워크스페이스에서 데이터 처리 및 분석 애플리케이션을 실행하는 한 방법입니다. 기본적으로 작업은 작업 소유자의 identity로 실행됩니다. 즉, 작업은 작업 소유자의 권한을 가정하고 작업 소유자가 액세스 권한이 있는 데이터와 데이터브릭스 개체에만 액세스할 수 있습니다.

이제 작업을 실행하는 identity를 서비스 주체( service principal)로 변경할 수 있습니다. 즉, 작업이 소유자 대신 해당 서비스 주체의 권한을 이용(assume)하도록 하여, 사용자가 조직을 떠나거나 부서를 옮기더라도 작업이 영향을 받지 않도록 할 수 있습니다. 서비스 계정으로 작업을 실행하는 기능은 AWS, Azure 및 GCP에서 일반적으로 사용할 수 있습니다(GA). 시작하려면 서비스 계정으로 작업 실행하기 문서를 참조하세요.

"서비스 주체를 사용하여 데이터브릭스 워크플로를 실행하면 워크플로 권한, 실행, 수명 주기를 사용자로부터 분리할 수 있어 더욱 안전하고 견고하게 만들 수 있습니다." - 조지 몰도반, 제품 소유자, 라이파이젠 은행 인터내셔널(Raiffeisen Bank International)

데이터브릭스에서의 인증 및 접근 관리 모범 사례

데이터브릭스는 고객의 조직 성장에 따라 함께 확장할 수 있도록 최선을 다하고 있습니다. 오늘 블로그에서는 데이터브릭스의 Unity Catalog를 통해 인증 및 접근 관리 플랫폼에 대한 주요 개발 내용을 중점적으로 다루었습니다. 이제 새로운 인증 및 접근 관리 기능이 대거 추가되었으므로, 데이터브릭스를 통해 데이터 거버넌스 전략을 구축하실 때 어떻게 "잘" 할 수 있을지 궁금하실 것입니다.

인증 및 접근 관리 문서 페이지에서 (AWS | Azure | GCP) 최신 모범 사례를 확인하거나, 아래 Data + AI Summit 2023 세션 "엔터프라이즈 규모에서 Databricks SQL을 설정하는 모범 사례"를 시청해 보시기 바랍니다.

Databricks 무료로 시작하기

관련 포스트

Security best practices for the Databricks Lakehouse Platform

Your data security is our priority At Databricks, we know that data is one of your most valuable assets and always has to...

Simplify Access Policy Management With Privilege Inheritance in Unity Catalog

October 20, 2022 작성자: Jim Thorstad, Paul Roome, Sachin Thakur in
Unity Catalog , now generally available on AWS and Azure, provides a unified governance solution for data, analytics and AI on the lakehouse...

데이터브릭스 워크스페이스의 기본 제공 거버넌스

December 10, 2023 작성자: Paul Roome, Sachin Thakur in
번역: HaUn Kim - Original blog post 데이터브릭스 Unity Catalog 는 데이터 및 AI 자산의 안전한 검색, 접근, 모니터링 및 협업을 위한 통합...
모든 플랫폼 블로그 포스트 보기