(이 글은 AI의 도움을 받아 번역되었습니다. 원문이 궁금하시다면 여기를 클릭해 주세요)
Xcel Energy와 같은 유틸리티 회사들에게는, 산불 완화는 전기 인프라를 보호하고 유틸리티 관련 점화 사건의 위험을 최소화하는 데 중요합니다. 일반적인 완화 전략에는 식생 관리, 그리드 강화, 위험 평가, 공공 안전 전력 차단 (PSPS), 그리고 AI와 센서와 같은 고급 기술을 활용하는 것이 포함됩니다. 이러한 사용 사례에 대한 공통적인 도전 과제는 구조화된 데이터와 함께 지리공간 데이터의 분석입니다. 지리공간 분석은 지구의 특정 위치에 연결된 데이터를 연구하는 것을 포함하며, 이는 다양한 현상과 상호작용을 이해하는 데 중요합니다. 일반적인 예로는 내비게이션 앱, 지오태그된 사진, 그리고 날씨 지도가 있습니다. 그러나, 지리공간 데이터를 다루는 것은 데이터 개인정보와 위치 추적에 대한 문제, 다양한 데이터 형식(예: GeoJSON 및 Shapefile)을 처리하기 위한 복잡한 소프트웨어 도구가 필요하며, 계산적으로 많은 자원을 요구하는 대량의 데이터셋을 관리해야 하는 등의 도전과제가 있습니다. 또한, 다른 출처에서 데이터를 병합할 때 좌표 시스템과 측정 단위의 차이로 인해 정확성과 왜곡에 대한 문제가 발생할 수 있습니다. 이러한 복잡성에도 불구하고, 지리공간 데이터는 Xcel Energy의 전략과 운영에서 중요한 역할을 합니다. 이 중요한 데이터를 완전히 활용하기 위해서는, 이러한 도전 과제를 극복하는 솔루션이 필요하며, 이를 통해 지리공간 인사이트의 효과적인 통합과 분석을 가능하게 하여 산불 위험을 해결합니다.
사용 사례
와일드파이어 완화는 Xcel Energy의 주요 이니셔티브로, 2020년 이후 와일드파이어 완화 활동에 5억 달러가 투자되었습니다. Xcel Energy는 시스템 유지보수 및 업그레이드, 운영 예방 조치, 그리고 광범위한 상황 인식을 포함하는 다면적 전략을 2025-2027 콜로라도 산불 완화 계획 에 제안하였습니다. 이러한 노력은 실시간 날씨 예보를 기반으로 와일드파이어 위험 지표를 계산하기 위해 고급 지리공간 및 머신러닝 모델에 의존합니다. Nousot와 협력하여 Xcel Energy는 Databricks 데이터 인텔리전스 플랫폼과 H3 인덱싱과 같은 공간 정보 라이브러리를 사용하여 복잡한 날씨 데이터를 간단한 표 형식의 출력으로 변환합니다. 이 간소화된 데이터는 효율적인 머신러닝 워크플로우를 지원하고, 생성적 AI 솔루션이 공간 정보를 맥락화하고 쿼리하는 데 도움이 됩니다. 이러한 기술은 기상학과 자산 팀에게 더 빠르고 정확한 위험 통찰력을 제공합니다. 이 프로젝트는 Xcel Energy의 전력 중단 데이터 분석 범위를 3.3배 늘리고, 정확도를 4.1배 향상시키며, 처리 시간을 64배 줄입니다.
Databricks의 공간 SQL과 H3 기능을 사용하여, 우리는 테라바이트의 지리공간 날씨 데이터를 처리할 수 있게 되었고, 이로 인해 빠른 고영향력 결정을 내릴 수 있게 되었습니다.— Rob Foster, 주요 데이터 과학자, Xcel Energy
Databricks 플랫폼에서 공간 정보 분석을 수행하는 능력은 솔루션의 높은 성능, 정확성, 그리고 확장성에 있습니다. Xcel Energy는 수백 개의 큰 날씨 파일을 효율적으로 처리하고 분석할 수 있습니다. 이 파일들 중 많은 것들은 여러 데이터 밴드를 포함하고 있으며, 이를 한 시간 이내에 처리할 수 있습니다. 이런 성과는 기존의 GIS 시스템으로는 거의 불가능했을 것입니다. 이러한 능력은 기상학자와 자산 관리 이해관계자가 전기 자산에 의해 발생하는 산불 위험을 완화하기 위한 적시에, 정보에 기반한 결정을 내릴 수 있게 합니다. 2025년에, Xcel Energy는 이 과정의 표 형식 출력을 활용하여 화재 위험과 전력 중단을 예측할 수 있는 머신러닝 모델을 훈련시키려고 계획하고 있습니다.
다음 예제는 Databricks 플랫폼이 어떻게 지리공간 분석을 지원하는지 보여주며, 이는 미국 지질조사국 (USGS)이 계산한 야생지 불 위험 지수 (WFPI)를 사용합니다. USGS는 매일 WFPI 예측 7일치를 발표하며, Xcel Energy는 이를 산불 위험 모델링의 산술 및 AI 부분으로 사용합니다. 미국 내의 WFPI 측정치를 나타내는 지도는 아래의 그림 1에 표시되어 있습니다. 노란색과 빨간색 픽셀은 높은 화재 위험을 나타내고, 초록색은 낮은 위험을 보여주며, 회색/흰색 영역은 농지나 눈과 같은 측정되지 않은 지역을 나타냅니다. Xcel Energy의 자산 데이터의 민감성을 고려하여, 이 예제는 오레곤 주를 대리자로 사용합니다 (Xcel Energy는 오레곤 주에서 운영하지 않습니다).
공간 이미지 데이터는 종종 거대한 영역을 커버하며, 그림 1에서 보여줍니다. 이처럼 넓은 영역에서 세밀한 해상도로 H3 인덱싱을 수행하는 것은 계산 비용이 많이 들고 종종 불필요합니다. Xcel Energy는 자산이 위치한 지리적 영역만 처리하면 됩니다. 이를 해결하기 위해, 다음 단계는 초기 이미지를 "자르고" 관심 영역에 초점을 맞추는 것입니다. 그런 다음 우리는 관심 영역 내에서 원하는 해상도의 각 H3 육각형에 대한 야생지 불 위험 지수(WFPI) 값을 계산합니다. 이 H3 값은 그런 다음 Delta Live Table 에 저장되거나 Python 라이브러리로 시각화할 수 있습니다. Oregon 주 예제를 계속해서, 그림 2는 특정 여름 날의 자른 및 색인화된 WFPI 위험 수준의 시각화입니다. 시각화는 Databricks 노트북 또는 Databricks 앱에서 생성될 수 있다는 점을 유의하십시오.
H3의 공간 해상도를 설명하기 위해, 녹색 상자로 표시된 영역을 확대해 보겠습니다.
H3 해상도 7에서, 각 육각형은 대략 5.16 제곱킬로미터를 커버하며, 한 변의 길이는 약 1.41 km입니다.
시각화의 많은 기능들이 사용자 정의 가능하며; 이 예시에서는 측정된 화재 가능성 값이 원본 이미지와 동일한 색상에 매핑되어 있습니다. 인접한 육각형 사이의 색상 대비가 뚜렷하게 보입니다. 이러한 WFPI의 변화는 H3 인덱싱 시스템에 의해 가능한 정확성을 강조합니다.
이 같은 과정은 여러 날씨 예보와 관측치, 그리고 여러 Xcel Energy 자산 유형에 대해 반복됩니다. 결과는 환경 및 자산 데이터의 모음이며, 모두 동일한 H3 도메인에 있습니다. 이 데이터는 ML 및 GenAI 모델 훈련에 강력한 기반을 제공합니다. 야생화 AI에는 여러 영향 영역이 있습니다. 이에는 대형 언어 모델(LLMs)을 사용하여 현장 크루로부터의 작업 지시서 노트와 정전 보고서를 검토하여 점화 이벤트가 발생했는지, 예를 들어 불꽃이 발생했는지를 판단하는 것이 포함됩니다. 스파킹은 일반적으로 건조한 식물과의 접촉, 전선이 떨어지거나, 장비가 고장나서 발생하며, 이로 인해 화재가 발생할 수 있습니다. LLMs는 개발, 실험 추적, 관리를 위해 MLflow에 기록됩니다. LLM은 Mosaic AI Model Serving을 통해 실시간 추론을 위해 생산화될 수 있습니다. 이 GenAI 기반 접근법은 이전의 수동 프 로세스에 비해 중단 사건에 대한 100% 데이터 완성도를 달성하며, 이는 중요한 데이터 공백을 제거하고, 직원 시간을 절약하며, 운영 능력을 향상시키는 혁신적인 개선입니다. 현재 여러 AI/ML 모델이 자산 점화 가능성을 예측하고 시뮬레이션하는 등 다양한 시나리오를 예측하도록 설계되고 있습니다. Databricks 도구인 AI/BI Genie 와 AI Functions를 사용하면 자연어를 사용하여 H3 데이터와 쉽게 상호 작용할 수 있습니다.
이 접근법은 Databricks에서 쉽게 확장되며, ML 모델 배포를 가속화함으로써 AI를 활성화합니다.— Cindy Hoffman, 데이터 전략 디렉터, Xcel Energy
Databricks 플랫폼에서 지리공간 분석을 통합함으로써, Nousot는 Xcel Energy에 산불 위험을 미리 대응할 수 있는 정밀성과 확장성을 제공합니다. 이 솔루션은 회사가 지역화된 위험 분석과 복잡한 날씨 데이터의 효율적인 처리 에 기반한 정보를 빠르게 결정하고, 데이터 기반의 결정을 내릴 수 있게 하여, 커뮤니티의 안전과 운영 효율성을 모두 향상시킵니다.
Databricks 데이터 인텔리전스 플랫폼은 분석 및 트랜잭션에서의 전통적인 데이터 레이크의 한계, 그리고 데이터 웨어하우스의 높은 비용과 유연성 부족을 해결합니다. 모든 데이터 유형에 대해 매우 확장 가능하며, 신뢰성과 데이터 버전 관리를 위해 ACID 트랜잭션을 지원하고, 일관성을 위해 스키마 강제를 지원합니다. Unity Catalog는 접근, 감사, 메타데이터 관리를 중앙에서 제어하여 비구조화된 데이터와 구조화된 데이터, 그리고 ML 및 AI 모델의 데이터 관리를 향상시킵니다. 또한, 플랫폼은 SQL 웨어하우스와 노트북에서 빠른 가용성을 위한 서버리스 컴퓨팅을 지원하며, Photon 엔진은 쿼리 성능을 크게 향상시킵니다. 또한 Databricks는 워크플로우, 작업, 델타 라이브 테이블을 통해 유연한 작업 부하 구성과 적시 업데이트를 촉진하며, 이 모든 것이 데이터 계보와 변환에 대한 가시성을 향상시키는 Unity 카탈로그 내에 통합되어 있습니다.
고급 데이터 웨어하우징, 버전 관리 및 거버넌스 기능 외에도 Databricks 플랫폼에는 지리공간 작업을 지원하는 여러 기능이 있습니다.
현재 사적인 미리보기 단계에 있는 Databricks는 좌표, 점, 선, 다각형과 같은 벡터 데이터를 처리하기 위한 70개 이상의 공간 SQL 함수를 제공합니다. 미리보기 기능에 대한 접근은 이 양식을 통해 요청할 수 있습니다. 이 새로운 기능은 사용자가 전문적인 기술을 필요로 하지 않고 SQL 데이터 언어를 통해 복잡한 지리공간 데이터에 쉽게 접근할 수 있게 해줍니다.
지리공간 그리드 인덱싱은 공간 데이터를 그리드로 구성하여 성능을 향상시키고 검색을 용이하게 하는 기법입니다. 다양한 인덱싱 시스템 중에서, H3 Global Grid Indexing은 높은 성능으로 확장할 수 있는 능력 때문에 추천됩니다.
Uber에서 개발하고 오픈 소스화한 H3는 지구 표면을 육각형 그리드(일부는 오각형)의 계층 구조를 사용하여 모델링합니다. 이는 16개의 해상도 레벨을 제공하며, 해상도 숫자가 낮을수록 더 큰 지리공간 영역을 나타냅니다. 예를 들어, 다음과 같은 접근 방식이 있습니다.
이러한 유연성은 기업들이 그들의 필요에 가장 적합한 해상도 세분화를 선택할 수 있게 합니다. Databricks는 H3 SQL 함수를 통해 H3 글로벌 그리드 인덱싱을 지원하며, 현재 지리공간 데이터 처리를 간소화하기 위해 30개 이상의 함수를 제공하고 있습니다. 그림 5는 H3 인덱싱의 예를 보여줍니다.