주요 컨텐츠로 이동

Unity 카탈로그 컴퓨트에서 새로운 점은 무엇인가요?

간소화된 클러스터 생성, 세밀한 접근 제어, 그리고 서비스 자격증명!

What’s new in Unity Catalog Compute

Summary

  • 클러스터 생성이 이제 더 간단해졌으며 접근 모드가 더 명확해졌습니다: 표준(공유), 전용(단일 사용자), 최적 선택을 위한 새로운 자동 모드.
  • 전용 클러스터는 이제 그룹 공유와 접근 제어를 더 허용합니다.
  • Unity 카탈로그 서비스 자격증명이 이제 외부 클라우드 서비스에 안전하게 접근을 관리하기 위해 사용 가능합니다.

Databricks 고객이 Unity Catalog Compute에서 안전하고 확장 가능한 Apache Spark™ 작업을 실행하는 것이 이제까지보다 쉬워졌습니다. Unity Catalog Lakeguard를 사용하십시오. 지난 몇 달 동안, 우리는 클러스터 생성을 단순화하고, 모든 곳에서 세밀한 접근 제어를 제공하며, 서비스 자격 증명 통합을 향상시켰습니다 - 그래서 인프라를 관리하는 대신 작업을 구축하는 데 집중할 수 있습니다.

새로운 소식은 무엇인가요? 표준 클러스터(이전에는 공유)는 이미 9,000명 이상의 Databricks 고객들이 신뢰하는 새로운 기본 클래식 컴퓨트 유형입니다. 전용 클러스터(이전에는 단일 사용자)는 세밀한 접근 제어를 지원하며 이제 그룹과 안전하게 공유할 수 있습니다. 또한, 우리는 제3자 서비스와의 원활한 인증을 위한 Unity 카탈로그 서비스 자격증명을 도입하고 있습니다.

자세히 알아봅시다!

자동 모드를 이용한 클러스터 생성 간소화

Databricks는 Unity Catalog Lakeguard에 의해 보호되는 두 가지 클래식한 컴퓨팅 접근 모드를 제공합니다:

  • 표준 클러스터 Databricks의 기본 다중 사용자 계산은 Python, Scala, SQL 작업 부하를 위한 것입니다. 표준 클러스터는 Databricks의 서버리스 제품의 기본 아키텍처입니다.
  • 전용 클러스터: ML, GPU, R과 같은 특권을 가진 기계 접근이 필요한 작업 부하를 위해 설계된 컴퓨트로, 단일 사용자 또는 그룹에게만 배정됩니다.

업데이트된 접근 모드 이름과 함께, 우리는 자동 모드라는 새로운 스마트한 기본 선택자를 도입하고 있습니다. 이는 클러스터의 구성에 기반하여 추천되는 컴퓨트 접근 모드를 자동으로 선택합니다. 재설계된 UI는 Databricks에서 추천하는 모범 사례를 통합하여 클러스터 생성을 단순화하고, 클러스터를 더 효율적이고 더 큰 확신으로 설정하는 데 도움을 줍니다. Databricks에 익숙한 사용자이든 새로운 사용자이든, 이 업데이트는 작업 부하에 대한 최적의 컴퓨트를 자동으로 선택하도록 보장합니다. 자세한 정보는 저희 문서(AWS, Azure, GCP)를 참조해 주세요.

전용 클러스터: 세밀한 접근 제어 및 공유

특권을 가진 기계에 대한 작업을 요구하는 전용 클러스터는 이제 세분화된 접근 제어를 지원하며 그룹과 공유할 수 있습니다!

전용 클러스터에서의 세분화된 접근 제어(FGAC)는 GA입니다

Databricks Runtime (DBR) 15.4부터, 전용 클러스터는 행 및 열 수준 마스킹 (RLS/CM)이 있는 테이블, 뷰, 동적 뷰, 물리화 뷰, 스트리밍 테이블에 대한 안전한 READ 작업을 지원합니다. 또한 RLS/CM이 있는 테이블에 대한 WRITE를 MERGE INTO를 사용하여 지원하고 있습니다 - 사적인 미리보기에 등록하세요!

Spark가 FGAC로 보호된 데이터에 접근하는 쿼리를 처리할 때 데이터를 과다하게 가져오므로, 이러한 쿼리는 UC 권한을 준수하는 데이터만 클러스터에서 처리되도록 서버리스 백그라운드 컴퓨트에서 투명하게 처리됩니다. 서버리스 필터링은 서버리스 작업의 비율로 가격이 책정되며, 사용하는 컴퓨팅 리소스에 따라 비용을 지불하므로, 비용 효율적인 가격 모델을 보장합니다.

FGAC는 서버리스 컴퓨팅이 작업 공간에서 활성화된 상태에서 DBR 15.4 이상을 사용할 때 자동으로 작동합니다. 자세한 지침은 Databricks FGAC 문서(AWS, Azure, GCP)를 참조하세요.

안전하게 컴퓨팅을 공유하기 위한 전용 그룹 클러스터

우리는 기쁘게도 전용 클러스터가 이제 그룹과 공유될 수 있음을 발표하게 되어, 예를 들어 데이터 과학자 팀이 머신 러닝 런타임과 GPU를 사용하여 클러스터를 공유할 수 있습니다. 이 개선은 각 사용자에 대해 별도의 클러스터를 프로비저닝하는 필요성을 제거함으로써 관리적인 수고를 줄이고 비용을 절감합니다.

특권을 가진 기계 접근 때문에, 전용 클러스터는 "단일 신원" 클러스터입니다: 사용자 또는 그룹 신원을 사용하여 실행됩니다. 클러스터를 그룹에 할당할 때, 그룹 멤버는 클러스터에 자동으로 연결할 수 있습니다. 개별 사용자의 권한은 전용 그룹 클러스터에서 작업을 실행할 때 그룹의 권한에 맞게 조정되어, 동일한 그룹의 멤버 간 클러스터를 안전하게 공유할 수 있습니다.

전용 그룹 클러스터에서 실행된 명령에 대한 감사 로그는 실행한 그룹(run_as)과 실행에 사용된 권한, 그리고 명령을 실행한 사용자(run_by)를 새로운 identity_metadata 열의 감사 시스템 테이블에 기록합니다. 아래에 그 예시가 있습니다.

전용 그룹 클러스터는 DBR 15.4 이상을 사용할 때 AWS, Azure, GCP에서 공개 미리보기로 사용할 수 있습니다. 워크스페이스 관리자로서, Databricks 워크스페이스에서 미리보기 개요로 이동하여 이를 선택하고 활성화하고, 팀과의 원활한 협업과 거버넌스를 위해 클러스터를 공유하기 시작하세요.

Unity 카탈로그 컴퓨트를 위한 서비스 자격증명 소개

Unity 카탈로그 서비스 자격증명이 이제 일반적으로 AWS, Azure, GCP에서 사용 가능하며, 이를 통해 Databricks 내부에서 외부 클라우드 서비스 (예: AWS Secrets Manager, Azure Functions, GCP Secrets Manager)에 대한 접근을 안전하고 간편하게 관리할 수 있습니다. UC 서비스 자격증명은 컴퓨트 단위로 인스턴스 프로필이 필요하지 않게 합니다. 이것은 보안을 강화하고, 잘못된 구성을 줄이며, 기계별 접근 제어(인스턴스 프로필) 대신 사용자별 접근 제어(서비스 자격증명)를 클라우드 서비스에 허용합니다.

서비스 자격 증명은 UI, API, 또는 Terraform을 통해 관리할 수 있습니다. 이들은 모든 Unity 카탈로그 컴퓨팅(표준 및 전용 클러스터, SQL 웨어하우스, Delta Live Tables (DLT) 및 서버리스 컴퓨팅)을 지원합니다. 설정이 완료되면 사용자는 기존 코드를 수정하지 않고도 클라우드 서비스에 원활하게 접근할 수 있어 통합과 거버넌스를 단순화합니다.

UC 서비스 자격증명을 시도하려면, Databricks 카탈로그 탐색기에서 외부 데이터 > 자격증명 으로 이동하여 서비스 자격증명을 설정합니다. 또한 Databricks API 또는 Terraform을 사용하여 프로세스를 자동화할 수 있습니다. 공식 문서 페이지(AWS, Azure, GCP)에서 자세한 지침을 제공합니다.

다음에는 무엇이 올까요?

앞으로 몇 달 동안, 우리는 몇 가지 흥미로운 업데이트를 준비하고 있습니다:

  • 우리는 세분화된 접근 제어에 대한 지원 을 확장하여, 전용 클러스터에서 RLS/CM이 있는 테이블에 쓸 수 있도록 MERGE INTO를 사용합니다 - 사적인 미리보기에 등록하세요!
  • 단일 노드 구성 은 표준 클러스터에 대해 작은 작업, 클러스터 또는 파이프라인을 구성하여 단일 기계만 사용하도록 하여 시작 시간을 줄이고 비용을 절약할 수 있게 해줍니다.
  • UC Python UDFs의 새로운 기능 (모든 UC 컴퓨팅에서 사용 가능)
    • PyPi 또는 UC 볼륨 또는 클라우드 저장소의 휠에서 UC Python UDFs에 대한 사용자 정의 의존성을 사용하세요.
    • UC 서비스 자격 증명을 사용한 클라우드 서비스에 대한 안전한 인증
    • 벡터화된 UDFs를 사용하여 데이터 배치를 처리함으로써 성능을 향상시킵니다
  • 표준 클러스터에서도 ML 지원을 확대할 예정입니다! 표준 클러스터에서 SparkML 작업 부하를 실행할 수 있게 됩니다 - 사적 미리보기에 가입하십시오.
  • UC 볼륨에 대한 업데이트:
    • 클러스터 로그 전달이 볼륨(AWS, Azure, GCP)에 대해 모든 3개의 클라우드에서 공개 미리보기로 사용 가능합니다. 이제 UC가 활성화된 클러스터에 대해 공유 또는 단일 사용자 접근 모드를 가진 클러스터 로그 배달을 Unity Catalog Volume 목적지로 설정할 수 있습니다. UI 또는 API를 사용하여 구성할 수 있습니다.
    • 이제 Python SDK를 사용하여 UC 볼륨에 모든 크기의 파일을 업로드하고 다운로드할 수 있습니다. 이전의 5GB 제한이 제거되었습니다 - 유일한 제약사항은 클라우드 제공자의 최대 크기 제한입니다. 이 기능은 현재 사적 미리보기 상태에 있으며, 곧 Go 및 Java SDKs, 그리고 Files API에 대한 지원이 제공될 예정입니다.

start하기

최신 Databricks 런타임 릴리스를 사용하여 이러한 기능을 확인해 보세요. Apache Spark™ 작업 부하를 실행하기 위한 계산 최적화 방법에 대해 자세히 알아보려면, 계산 구성 추천 가이드(AWS, Azure, GCP)를 참조하십시오.

(이 글은 AI의 도움을 받아 번역되었습니다. 원문이 궁금하시다면 여기를 클릭해 주세요)

게시물을 놓치지 마세요

관심 있는 카테고리를 구독하고 최신 게시물을 받은편지함으로 받아보세요

다음은 무엇인가요?