주요 컨텐츠로 이동

퀀트 트레이딩을 위한 데이터브릭스 금융 레이크하우스

리카르도 포르티야
Boris Banushev
Eon Retief
Antoine Amend
이 포스트 공유하기

퀀트 연구는 1960년대에 금융 분야에 수학과 통계를 적용하는 혁신적인 아이디어로 등장했습니다. 기존의 지루한 수작업 프로세스와 오래된 정보에 의존하던 접근 방식과 달리, 퀀트 트레이딩은 실시간 시장 변동을 평가하고 기업의 시장 가치를 더 정확하게 추정하기 위해 기술을 도입했습니다. 컴퓨터를 활용해 근본적인 추세를 파악하는 것은 분명 장점이지만, 특히 시장 변동성이 크고 지정학적 역학관계가 복잡한 시기에는 이러한 접근 방식에도 단점과 위험이 존재합니다. 오늘날 가장 성공적인 헤지펀드는 퀀트 및 펀더멘털 투자 접근법을 결합한 퀀트멘탈 (quantamental) 투자 전략을 활용하고 있습니다. 

Databricks Lakehouse for Quantitative Research

금융 서비스용 데이터브릭스 레이크하우스는 단일 플랫폼에서 비즈니스와 기술을 통합할 수 있는 기능을 제공하며, 이는 여러 사용 사례에서 투자 펀드의 성공에 매우 중요한 요소가 되었습니다. 이 글에서는 업계에서 가장 흔하게 관찰되는 문제점을 논의하고, 데이터브릭스 레이크하우스 아키텍처를 채택하여 시간이 지나도 견딜 수 있는 확장 가능한 투자 데이터 플랫폼을 구축할 때 얻을 수 있는 이점을 강조합니다. 

𝛼. 팀 생산성

가설에서 모델로의 라이프사이클에 소요되는 시간과 노력 절감

트레이딩 또는 투자 회사의 성공 여부는 트레이딩 전략의 최신성, 즉 실행 속도에 따라 좌우됩니다. 개발팀의 생산성은 회사를 경쟁사와 차별화하는 요소입니다. 그러나 퀀트 애널리스트(줄여서 퀀트)의 역할은 방대한 책임으로 구성되어 있습니다. 퀀트는 적절한 데이터 세트를 확보하고, 학술 논문에 설명된 전략을 구현하고, 가설을 테스트하고, 대량의 과거 데이터에 대해 트레이딩 전략을 백테스트하는 등 다양한 업무를 수행해야 합니다. 경제 이론, 응용 통계학, 분산 컴퓨팅에 걸쳐 필요한 전문 지식 수준을 고려할 때, 효율적인 부서 간 협업이 모든 팀과 궁극적으로 투자 회사의 성과를 최적화하는 데 필수적이라는 것은 분명합니다.

한 최고 수준의 투자 은행에서 통계적 분산 모델을 구현하고자 했습니다. 원래 작업은 R 프로그래밍 언어를 사용하여 진행되었지만, 팀은 기존 플랫폼이 R 언어를 지원하지 않아 전체 라이브러리를 Python으로 다시 작성해야 했습니다. 이에 5주 이상의 시간이 소요되었는데, 이 시간엔 대신 라이브러리를 사용하여 초과 수익을 창출하는 데 활용할 수 있었을 것입니다.

퀀트 연구 회사는 모델을 빠르게 반복해야 합니다. 경쟁사나 다른 시장 참여자보다 빠르게 트레이딩 또는 리스크 관리 모델을 생성할 수 있는 능력은 상당한 이점을 제공하며 회사의 경쟁력을 높여줍니다. 특히 데이터브릭스의 두 가지 기능인 노트북과 리포지토리는 팀의 효율성과 효과를 개선하는 데 도움이 될 수 있습니다.

데이터브릭스 노트북은 인라인 댓글, 일정 관리, 수정 내역과 같은 기능을 활용하면서 하나의 노트북에서 여러 팀이 함께 작업할 수 있는 협업 환경을 제공합니다. 노트북은 여러 프로그래밍 언어도 지원합니다. 예를 들어, R 패키지(예: CausalImpact 라이브러리)를 사용해 Python 명령어로 준비된 데이터에 대해 인과 관계 추론 분석을 실행할 수 있습니다 - 모두 같은 노트북에서. 같은 방법으로 SQL도 쉽게 사용할 수 있습니다.

Databricks Notebooks offer a collaborative and multi-language environment

데이터브릭스 리포지토리는 여러 프로젝트에서 개발을 표준화할 수 있는 기능을 제공하여, 사용자가 노트북을 CI/CD 파이프라인에 통합하고, 여러 브랜치(즉, 환경) 간에 코드 변경을 촉진하며, 코드 품질을 쉽게 유지할 수 있도록 지원합니다.

퀀트 연구와 금융 공학을 위한 데이터브릭스 레이크하우스의 차별화 요소를 보여주기 위해 실시간 가격 모델과 파생상품의 내재 변동성 계산을 위한 포괄적인 예제를 개발했습니다. 한 예제는 퀀트 연구자의 하루를 묘사한 것으로, 학술 논문을 사용해 주식옵션의 내재 변동성을 예측하는 모델을 만드는 전 과정을 다룹니다. 한 프로그래밍 언어에서 다른 프로그래밍 언어로 코드를 포팅하는 데 몇 주를 소비하는 대신, 데이터브릭스를 사용하여 연구 아이디어를 코드화하고 몇 분 만에 구체적인 백테스트를 수행할 수 있습니다. 이를 통해 추가적인 개선을 위한 발판을 마련하고 백테스트의 규모를 늘릴 수 있습니다.

𝜷. 미래를 위한 확장

훌륭한 금융 공학은 방대한 데이터 큐레이션 작업입니다.

무어의 법칙은 컴퓨터의 속도와 성능이 2년마다 두 배로 증가한다는 원칙입니다. 20세기 후반부터 슈퍼컴퓨터와 고성능 컴퓨팅(HPC)이 발전해왔습니다. 오늘날에도 퀀트 트레이더는 여전히 "초당 부동 소수점 연산"(또는 FLOPS)을 IT 장비의 성능을 직접적으로 측정하는 척도로 간주합니다.

그러나 4차 산업혁명으로 인해 데이터와 클라우드 컴퓨팅 활용에 대한 관심이 높아지면서 우리가 알고 있는 무어의 법칙은 더 이상 유효하지 않습니다. 오늘날 알파를 둘러싼 싸움은 더 이상 '플롭스'가 아니라 '바이트'로 싸우고 있습니다. 투자회사가 대량의 다양한 데이터 세트를 수집하고 처리하는 능력은 더 높은 수익률을 위해 필수적입니다. 컴퓨터 우선 접근 방식에서 데이터 우선 접근 방식으로 성공적으로 전환할 수 있는 조직은 그렇지 못한 조직보다 더 나은 성과를 거둘 것입니다.

시장 변동성이 큰 시기에 리스크 관리를 위한 모델을 백테스트하기 위해 매달 수십 개의 새로운 데이터 소스를 수집해야 한다는 기업의 이야기를 종종 듣습니다. 이 정도 속도라면 데이터의 품질과 신뢰성을 보장하는 중요한 관행과 프로세스를 자동화하는 기술을 활용하지 않고는 새로운 소스를 효율적으로 온보딩하는 것이 불가능해집니다.

자본 시장은 상당한 양의 정보를 처리해야 하므로 데이터 아키텍처를 확장하는 데 상당한 어려움을 겪을 수 있습니다. 그러나 진정한 도전은 데이터의 양이 아니라 조직을 통해 흐르는 데이터의 다양성과 속도에 있습니다. 예를 들어 합병으로 인해 데이터의 무결성을 유지하기 위해 SCD 유형 2 지원이 필요한 스키마 변경이 발생할 수 있습니다. 마찬가지로, 데이터를 수정하려면 가격 및 거래 정보를 업데이트해야 할 수 있으며, 기업 심리에 대한 점진적인 연구를 위해서는 구체화된 뷰와 점진적인 처리를 위한 지원이 필요할 수 있습니다.

한 유명 헤지펀드는 필요한 모든 데이터 소스(수백 개의 외환 pair와 상장 기업의 수십 년치 tick 데이터 포함)를 파악한 결과, 거의 실시간에 가까운 데이터와 과거 데이터를 포함해 모든 데이터의 양이 거의 1페타바이트에 달하고 파일 형식도 4개에 달한다고 계산했습니다.

또 다른 일반적인 시나리오는 시장 공급업체가 데이터 파일에 제공된 속성의 이름을 변경하는 경우입니다. 좀 더 극단적인 경우는 CSV에서 XML로 포맷을 완전히 변경하는 경우입니다. 두 시나리오 모두 장기간 실행되는 ETL 작업에 장애를 일으킬 수 있습니다. 올바른 데이터 관리 관행을 기본적으로 지원하는 강력한 데이터 파이프라인은 결과의 재현성을 보장하고 대규모로 프로덕션급 성능을 제공하는 데 필수적입니다.

데이터브릭스 델타 라이브 테이블(이하 DLT)은 안정적인 데이터 파이프라인을 구축, 관리, 유지하기 위한 간단한 선언적 프레임워크를 제공합니다. DLT는 자동화된 데이터 유효성 검사, 품질 모니터링, 감사 및 복구 기능을 통해 팀이 ETL 개발 프로세스를 간소화할 수 있도록 지원합니다. 또한 DLT는 Delta Lake의 지원을 받아 제약 조건 적용 및 스키마 진화를 위한 기본 기능을 제공합니다.

끊임없이 변화하는 데이터와 스키마라는 특성으로 인해 시장 데이터는 본질적으로 변동성이 큰데, IPO와 시장 조작이 대표적인 예입니다. 델타 레이크와 구조화된 스트리밍은 리플레이 기능을 제공하여 사용자가 배치 데이터와 스트리밍 데이터를 동일한 파이프라인으로 결합할 수 있게 해줍니다. 또한 DLT는 스트리밍을 단순화하는 두 가지 기능을 제공합니다: a) 특정 로직 없이도 변화하는 시장 상황을 수용하는 실시간에 가까운 자동 확장 기능, b) SCD 유형 1 패턴에 대한 변경 데이터 캡처. 후자는 데이터 엔지니어링 사용자가 오더북 또는 틱 데이터 업데이트를 일괄 데이터로 쉽게 병합할 수 있게 해줍니다.

이러한 기능을 바탕으로 수천 개의 미국 상장 기업을 대상으로 자본자산 가격 모델(Capital Asset Pricing Model, CAPM)을 사용해 베타 상관관계를 계산하고 기대 자기자본 수익률을 도출하는 솔루션 액셀러레이터를 만들었습니다. 이는 데이터 버전 관리, 리니지 및 품질 관리를 기본적으로 지원하는 프로덕션급 ETL 파이프라인을 생성하는 데 있어 델타 레이크와 DLT의 유연성과 견고함을 보여줍니다

Selecting the raw data for a specific point of time

𝛾. 통합 데이터 거버넌스

제한 없는 데이터는 거버넌스 없는 운영을 의미하지 않습니다.

투자 회사가 생산성과 확장성을 개선하기 위해 데이터 우선 전략을 채택하면 후속 사용 사례와 추가 또는 대체 데이터에 대한 요청이 급증할 수밖에 없습니다. 클라우드 기술은 관련 팀에 데이터를 배포하는 데 도움을 줄 수 있지만 거버넌스 문제를 직접 해결하지는 못합니다. 데이터에 대한 액세스를 제공하는 것만으로는 충분하지 않으며, 데이터 액세스를 관리하고 정보 사용 방식에 대한 감독을 유지해야 합니다. 팀이 증가하는 데이터 리포지토리에서 올바른 소스를 검색할 수 있도록 지원하는 방안도 고려해야 합니다. 혁신은 호기심에 드는 비용을 낮출 때 일어납니다.

이러한 거버넌스 문제를 해결하기 위해 Unity Catalog를 활용할 수 있습니다. Unity Catalog는 데이터브릭스 레이크하우스에 있는 모든 데이터와 AI 에셋을 관리할 수 있는 통합 솔루션을 제공합니다. 이 솔루션은 스토리지 또는 컴퓨팅 리소스를 지원하는 클라우드 벤더에 관계없이 레이크하우스에 보관된 모든 파일, 테이블, 머신러닝 모델, 대시보드를 완벽하게 감독할 수 있습니다.

퀀트 팀에서 개발한 대부분의 모델은 시장 상황이 변하거나 다른 요인으로 인해 시장이 크게 움직이면 그 효과가 감소합니다. 주요 트렌드를 신속하게 분석하고 모델을 개선할 수 있는 대체 또는 추가 정보 소스를 식별하는 능력은 알파를 유지하는 데 필수적입니다. Unity Catalog는 데이터 검색 및 발견을 위한 기본 지원으로 모든 워크로드에 걸쳐 자동화된 리니지를 제공합니다. 이를 통해 퀀트는 전체 데이터 자산에서 데이터를 빠르게 찾고, 이해하고, 참조하고, 모델을 변경하거나 개선하여 시장에서의 효율성을 유지할 수 있습니다. 리니지에 대한 엔드투엔드 감독을 통해 팀은 동료가 만든 기존 자산을 재사용하여 다운스트림 사용 사례의 개발을 가속화할 수 있습니다.

변동성이 큰 시장의 변화 속도를 고려하는 것도 중요합니다. 퀀트들은 트레이딩 전략이나 모델을 최대한 빨리 수정하거나 조정해야 한다는 엄청난 압박을 받고 있습니다. Unity Catalog는 쿼리 성능을 개선하기 위해 지연 시간이 짧은 메타데이터 제공 및 테이블 자동 튜닝 기능을 제공합니다. 동시에 비동기 (asynchronous) 데이터 압축을 통해 파일 크기를 최적화하고 백그라운드에서 입출력(I/O) 지연 시간을 자동으로 줄입니다. 즉, 퀀트 담당자가 올바른 데이터 자산을 더 빨리 찾고, 이해하고, 활용하여 수익률을 보존하고 개선할 수 있습니다.

모든 것을 종합하기

데이터브릭스 레이크하우스의 구성 요소 중 하나만 단독으로 활용할 수도 있지만, 이러한 모든 서비스를 사용해 단순하고 개방적이며 통합된 데이터 플랫폼을 만들 때 최적의 가치를 얻을 수 있습니다. 아래 이미지는 퀀트 조직이 최신 데이터 기반 연구 플랫폼을 구축하는 방법에 대한 간단한 참조 아키텍처를 제공합니다.

Example Reference Architecture for Quantitative Research

배치 및 스트리밍 소스가 원활하게 병합되어 브론즈(또는 원시) 레이어로 전달됩니다. 데이터의 품질 문제(예: 이상값 탐지, 다중공선성, 편향성 등)를 확인합니다. 정리된 아웃풋은 실버 레이어로 전달됩니다. 실버 레이어는 퀀트 팀이 가설을 테스트하거나, 새로운 ML 서비스를 만들거나, 대화형 대시보드와 보고서를 지원하기 위한 쿼리를 실행하는 데 있어 기본 소스가 됩니다. 이를 통해 사용 사례에 관계없이 신뢰할 수 있는 단일 소스를 제공합니다.

앞서 설명한 레이크하우스의 핵심 서비스 외에도, 팀은 관리형 버전의 MLflow에 액세스할 수 있습니다. MLflow는 전체 MLOps 수명 주기를 간소화하여 퀀트가 다양한 ML 전략을 실험하고 프로덕션 배포를 위해 승인되면 모델을 관리되는 레지스트리로 승격할 수 있도록 지원합니다. 또한, MLflow 파이프라인을 통해 팀은 프로덕션급 워크플로를 구축하여 전체 MLOps 프로세스를 자동화하고 확장할 수 있습니다. 이를 통해 퀀트가 연구부터 개발, 생산까지 모델을 진행하는 데 필요한 시간을 크게 단축할 수 있으므로 기업은 잠재적 이익을 최대한 빨리 포착할 수 있습니다.

결론

퀀트 트레이딩 초창기 이후 기술과 데이터 환경은 크게 변화했습니다. 많은 트레이딩 회사가 '컴퓨팅 우선' 접근 방식에서 '데이터 우선' 운영 모델로 성공적으로 전환하여 개별 성과와 독점 시스템에 의존하지 않고 팀 협업을 촉진하고 오픈 소스 기술을 수용했습니다.

향상된 협업(단일 노트북 및 다양한 언어 간), 자동 확장 버스트 용량, 안정적인 데이터 중심 기능을 통해 데이터브릭스 레이크하우스는 연구부터 생산 가능한 정량적 모델 수명 주기를 수개월에서 몇 분으로 단축합니다. 그 결과, 정량적 연구팀은 데이터 복사, 데이터 지연, 힘든 코드 마이그레이션에 소요되는 시간을 피할 수 있습니다. 데이터 레이크가 스트리밍, CDC, 통계적 백테스팅을 지원하는 단일 데이터 소스가 되면, 퀀트 연구자들은 반복 속도를 높여 경쟁 우위를 확보하고 데이터 기반 투자 전략을 수립할 수 있습니다. 이것이 바로 금융 엔지니어링을 위한 데이터브릭스 레이크하우스입니다.

금융 서비스용 레이크하우스에 대한 자세한 내용은 데이터브릭스 웹사이트와 데이터브릭스의 다양한 솔루션 액셀러레이터 및 델타 쉐어링을 사용하는 데이터 파트너십을 참조하시기 바랍니다.

Translated by HaUn Kim - Original Blog Post

Databricks 무료로 시작하기

관련 포스트

모든 플랫폼 블로그 포스트 보기