リンク不可能なものを繋げる:Databricks ARCによるシンプルで自動化されたスケーラブルなデータリンク
2023年4月にDatabricks ARCの リリースを発表 し、単一テーブル内のデータをシンプルに自動リンクできるようになりました。 本日、オープンでスケーラブル、かつシンプルなフレームワークを使用して、2つの異なるテーブル間のリンクを検索できる機能強化を発表しました。 英国司法省が開発し、ARCのリンクエンジンとして機能する Splink は、強力でオープンで説明可能なエンティティ解決パッケージを提供するために存在します。 2つの異なるテーブルの間に共通のフィールドがあり、そのフィールドがテーブル間の直接のリンクとなります。 同じNIナンバー(英国の国民保険番号)を持つ2つの記録は同一人物であるはずです。 しかし、このような共通のフィールドがないデータをどのようにリンクするのでしょうか? あるいは、データの質が悪い場合ですか? NIナンバーが同じだからといって、誰かが書き間違えたとは限りません。 このような場合、確率的データリンク、つまりファジーマッチングの領域に入ります。 下の図は、2つのテーブルをリンク
空間分割 - デカルト積を回避しながらポリゴンデータの結合・解析を効率化する方法
この記事は、オードナンス・サーベイ、Microsoft、データブリックスの共同執筆によるものです。オードナンス・サーベイのシニアデータエンジニア Charis Doidge 氏、同シニアデータサイエンティスト Steve Kingston 氏、Microsoft 高度分析・AI 担当クラウドソリューションアーキテクト Linda Sheard 氏のご協力に感謝します。 このブログでは、オードナンス・サーベイ(Ordnance Survey、英国陸地測量部)、データブリックス、Microsoft が共同で取り組む British National Grid(BNG)を用いた空間分割について解説します。 オードナンス・サーベイは、 公共部門地理空間協定 (Public Sector Geospatial...