リンク不可能なものを繋げる:Databricks ARCによるシンプルで自動化されたスケーラブルなデータリンク
2023年4月にDatabricks ARCの リリースを発表 し、単一テーブル内のデータをシンプルに自動リンクできるようになりました。 本日、オープンでスケーラブル、かつシンプルなフレームワークを使用して、2つの異なるテーブル間のリンクを検索できる機能強化を発表しました。 英国司法省が開発し、ARCのリンクエンジンとして機能する Splink は、強力でオープンで説明可能なエンティティ解決パッケージを提供するために存在します。 2つの異なるテーブルの間に共通のフィールドがあり、そのフィールドがテーブル間の直接のリンクとなります。 同じNIナンバー(英国の国民保険番号)を持つ2つの記録は同一人物であるはずです。 しかし、このような共通のフィールドがないデータをどのようにリンクするのでしょうか? あるいは、データの質が悪い場合ですか? NIナンバーが同じだからといって、誰かが書き間違えたとは限りません。 このような場合、確率的データリンク、つまりファジーマッチングの領域に入ります。 下の図は、2つのテーブルをリンク