Databricks Photon 은 이제 AWS 및 Azure에서 일반 공급됩니다.
오늘 Microsoft는 Databricks Runtime 7.0의 일부로 출시된 Spark 3.0의 query 최적화
프로그램 및 캐싱 기능에 대한 최적화와 함께 최신 CPU 아키텍처를 활용하기 위해 100%
Apache Spark 호환 벡터화된 query 엔진을 함께 연결하는 Photon Engine을 발표했습니다.
이러한 기능은 query 데이터 레이크, 특히 Delta Lake 에서 지원하는 데이터 레이크의 성능을
크게 가속화하여 고객이 레이크하우스 아키텍처를 더 쉽게 채택하고 확장할 수 있도록 합니다.
실행 성능 확장
지난 몇 년 동안 가장 큰 하드웨어 트렌드 중 하나는 CPU 클럭 속도가 정체되었다는 것입니다.
그 이유는 이 블로그의 범위를 벗어나지만, 중요한 것은 원시 compute 성능을 넘어 데이터를
더 빠르게 처리할 수 있는 새로운 방법을 찾아야 한다는 것입니다. 가장 영향력 있는 방법 중
하나는 병렬로 처리할 수 있는 데이터의 양을 개선하는 것입니다. 그러나 데이터 처리 엔진은
이러한 병렬 처리를 활용하도록 특별히 설계되어야 합니다.
또한 데이터 팀은 비즈니스 속도가 빨라짐에 따라 데이터를 적절하게 모델링할 수 있는
시간이 점점 줄어들고 있습니다. 비즈니스 민첩성 향상을 위해 모델링이 부실하면
query 성과가 저하됩니다. 당연히 이는 바람직한 상태가 아니며 조직은 민첩성과
성능을 모두 극대화할 수 있는 방법을 찾고 싶어합니다.
고성능 query 실행을 위한 Photon Engine 발표
Photon Engine은 향상된 query 옵티마이저, 실행 계층과 클라우드 오브젝트 스토리지
사이에 있는 캐싱 계층, C++로 작성된 네이티브 벡터화된 실행 엔진의 세 가지
구성 요소를 통해 SQL 및 데이터 프레임 워크로드에 대한 Delta Lake의 성능을 가속화합니다.
향상된 query 최적화 프로그램은 Spark 3.0에 이미 있는 기능(비용 기반 최적화 프로그램,
적응형 query 실행 및 동적 런타임 필터)을 고급 통계로 확장하여 스타 스키마 워크로드에서
최대 18배 향상된 성능을 제공합니다.
Photon Engine의 캐싱 레이어는 사용자를 위해 캐싱할 입력 데이터를 자동으로 선택하며,
NVMe SSD의 향상된 스토리지 속도를 더 잘 활용하기 위해 보다 CPU 효율적인 형식으로
트랜스코딩합니다. 이를 통해 거의 모든 워크로드에 대해 최대 5배 더 빠른 스캔 성능을 제공합니다.
그러나 오늘날 데이터 팀이 직면한 문제를 해결하기 위한 Photon Engine의 가장 큰 혁신은
Photon Engine이라 고 하는 네이티브 실행 엔진입니다.
(우리는 알고 있습니다. 엔진 안에 있는 엔진에...) Databricks를 위해 완전히 다시 작성된
이 실행 엔진은 최신 클라우드 하드웨어의 새로운 변경 사항으로 인한 성능을 극대화하기 위해
구축되었습니다. 모든 워크로드 유형에 대한 성능 향상을 제공하는 동시에 개방형 Spark APIs
완벽하게 호환됩니다. 가까운 시일 내에 다른 블로그에서 Photon Engine의 작동 방식과 가장 중요한 성능을 보여드릴 예정입니다.
Photon Engine 시작하기
이 세 가지 구성 요소를 함께 연결하면 Databricks 코드 내 여러 위치의 개선 사항이
데이터 레이크의 분석 워크로드에 대해 훨씬 더 빠른 성능으로 집계되는 방법을 고객이
더 쉽게 이해할 수 있을 것이라고 생각합니다. 개선된 query 옵티마이저와 캐싱
개선 사항은 오늘부터 사용할 수 있으며, 올해 남은 기간 동안 점점 더 많은 고객이
Photon Engine을 사용할 수 있도록 할 것입니다.
Photon Engine이 고객에게 제공하는 가치에 매우 만족하고 있습니다.
시간과 비용을 절약하는 것은 이미 가치가 있지만, 레이크하우스 패턴에서의 역할은
데이터 팀이 데이터 아키텍처를 설계하여 통합과 단순성을 높이는 방법의 새로운 발전을 지원합니다.