5万の組織ユーザー、3千万の個人ユーザーの英文コミュニケーションを支援
DWH と比較してクエリが 110% 高速化、データ取り込みコストは 10% に低減
日々生成される 50億件のイベントを 15 分以内で分析に供給
よりよいコミュニケーションで生活を豊かにすることをミッションとする Grammarly は、AI 駆動型の英文作成支援ツールによってリアルタイムで校正案を提示し、英文を書く人が自信を持って目的を達成できるよう支援していま す。業界屈指の製品(Grammarly Premium、Grammarly Business、Grammarly for Education、Grammarly for Developers)の提供を通じて広範なユーザー層・ユースケースをサポートし、さまざまな場面での効果的な英文コミュニケーションに貢献しています。
Grammarly ではかつて自社開発の分析システムを利用してきましたが、会社の成長に伴い、増大するデータセットの分析において、スピードとコスト効率の面で課題が生じていました。Grammarly は、Databricks レイクハウスプラットフォームへの移行によってこれらの課題を解決し、柔軟性とスケーラビリティ、セキュリティを備えた分析プラットフォームを獲得。世界中の 5万の組織と 3千万の個人ユーザーの効果的な英文作成を日々支援しています。
データを活用して数千の組織と数百万の個人ユーザーのコミュニケー ションを改善
Grammarly の AI コミュニケーション支援機能を利用すると、スペルや文法の正しさ、明確さや簡潔さ、単語の選択、スタイル、トーンなど、英作文におけるコミュニケーションの複数の側面を改善するのに役立つ提案を受けることができます。Grammarly は、アプリが作成したイベントを通じて、ユーザーが提案を受け入れたり、拒否したり、無視したりした場合にフィードバックを受けます。このイベントは 1 日あたり約 50 億件にのぼります。
これまで Grammarly は、自社開発のレガシー分析プラットフォームに依存し、社内で SQL のような言語を使用していました。この言語は習得に時間がかかり、新入社員のオンボーディングが困難でした。会社の成長に伴い、Grammarly のデータアナリストは、プラットフォームが重要なビジネス機能、特にマーケティング、セールス、カスタマーサクセスのニーズを十分に満たしていないことに気づきました。既存のシステムでは、「どのマーケティングチャネルが最も ROI が高いか」といった質問に答えるために必要な外部データを効果的に取り込むことができなかったため、アナリストはスプレッドシートからデータをコピー&ペーストしている状態になっていました。また、既存システムは Tableau のダッシュボードに対応していないため、レポーティングが難しく、リーダーやアナリストは迅速かつ自信を持って意思決定できるようにする必要がありました。
また、Grammarly は、データストレージとクエリ機能の拡張と改善を目的として、データウェアハウスの統合も検討していました。現状では、大規模な Amazon EMR クラス ターが 24 時間 365 日稼働していたため、コストが上昇していました。また、多様なデータソースがあるため、アクセス制御を維持する必要もありました。Grammarly のデータプラットフォーム担当エンジニアリングマネージャー Chris Locklin 氏は「分散ファイルシステムにおけるアクセス制御は難しく,より多くのデータソースを取り込むほど複雑になります」と述べています。一方、単一のストリーミングワークフローに依存していたため、チーム間のコラボレーションが困難になっていました。異なる事業分野が個別に分析ツールを導入することで、データのサイロが発生しました。「どのチームも、自分たちの考える最善の方法で分析のニーズを解決しようとしました。そのため、一貫性のなさや、どのデータセットが正しいかを把握することに課題がありました。」(Chris Locklin 氏)
データ戦略が進化する中で、Grammarly が優先したのは、分析データを安全に保ちながら最大限に活用することでした。セキュリティは Grammarly の最優先事項であり、最も重要な機能です。ユーザーのデータを保護する方法と、自社のデータを確実に保護する方法の両方において、セキュリティは極めて重要です。そのために、Grammarly のデータプラットフォームチームは、データを統合し、単一のプラットフォームで組織を統一することを目指しました。すなわち、組織の成長に合わせて拡張できる安全性の高いインフラを維持し、インジェストの柔軟性を向上させ、コストを削減し、コラボレーションを促進する必要がありました。
レイクハウスで分析・可視化・意思決定を改善
Grammarly は、インフラを強化するためにいくつかの PoC を行った後、自社で構築したソリューションを Databricks レイクハウスプラットフォームに移行することを決定しました。データサイエンスや機械学習の機能のサポートがない、規模の拡大に伴ってコストが予測できない、などが理由で評価対象となった他のベンダー(Snowflake など)は不十分でした。特に Grammarly が重要視していた、自社データの完全な管理と所有権を実現できなかったことです。全ての分析データをレイクハウスに持ち込むことで、Delta Lake を中核とした Grammarly のあらゆるデータ作成者とデータ消費者のためのセントラルハブが誕生しました。
レイクハウスアーキテクチャを使用することで、Grammarly のデータアナリストは分析用の統合インターフェースを利用できるようになり、信頼できる唯一の情報源とデータプラットフォームチームが管理する全てのデータの正確性と可用性に対する信頼性を確保できるようになりました。組織全体では、Databricks SQL を使用して、社内で生成された製品データとデジタル広告プラットフォームパートナーからの外部データの両方について、プラットフォーム内でクエリを実行しています。今では、Tableau に容易に接続し、ダッシュボードやビジュアライゼーションを作成して、経営幹部や主要なステークホルダーに提示することができます。
「Grammarly ではセキュリティが最も重要であり、チームの第一の目的は分析データを所有し保護することです。他社では 、お客さまのデータを収集し、保持し、そのうえで分析を実行します。Gramarly はユーザーのデータは常にユーザーに所有権があることを保証しています。それと同様に、組織のデータを自分たちで所有したかったのです。Grammarly のデータは Grammarly の内部にとどまります。」(Locklin 氏)
レイクハウスにデータが集約されたことで、Grammarly のさまざまな領域で、より徹底的かつ効果的なデータ分析が可能になりました。例えば、Grammarly のマーケティングチームは、新規ビジネスを獲得するための広告に利用しています。Datbricks を利用することで、さまざまなソースからのデータを統合し、ユーザーの生涯価値を推定し、顧客獲得コストと比較し、キャンペーンに関する迅速なフィードバックを得ることができます。他の領域では、ユーザーとのやり取りから収集されたデータが一連の表に流れ込み、アナリストがアドホック分析を行い、ユーザーエクスペリエンスの向上に役立てています。
Grammarly は、データを 1 つの統合プラットフォームに統合することで、データのサイロ化を排除しました。Grammarly でBI 部門責任者を務める Sergey Blanket 氏は次のように述べています。「Databricks を利用して、これらの機能、データ処理、分析を全て同じプラットフォームで行えることは、非常に価値があります。ETL やエンジニアリングから分析や機械学習まで、あらゆることを同じ傘下で行うことで、障壁がなくなり、誰もがデータや相互に連携しやすくなります。」
アクセス制御の管理、エンドツーエンドの観測可能性、データ品質の監視には、Grammarly は Unity Catalog のデータリネー ジ機能に依存しています。「データのリネージによって、データの使用状況を効果的に監視し、データプラットフォームチームとして設定した基準を確実に守ることができます。リネージは、アクセス制御のための最後の重要な要素です。別の環境でテーブルやデータセットを再作成する場合でも、あらゆる使用基準とアクセス制御を遵守しながら、アナリストがデータを活用して業務を遂行できるようになります。」(Locklin 氏)
知見取得までの時間を短縮し、インテリジェントなビジネス上の意思決定を可能に
Datbricks レイクハウスプラットフォームを利用することで、Grammarly のエンジニアリングチームは、カスタマイズされた集中型プラットフォームと全社で一貫したデータソースを手に入れ、スピードと効率の向上、コスト削減を実現しました。レイクハウスアーキテクチャにより、データウェアハウスと比較して 110% クエリが高速化し、データ取り込みコストは 10% に低減しました。Grammarly は、これまで 1 日あたり 50 億件のイベントを分析に供給するまでに 4 時間かかっていましたが、今では 15 分以内で分析に利用できるようになりました。また、低レイテンシ―のデータ集計とクエリの最適化を可能にしました。これにより、チームは展開中の新機能に関するフィードバックを迅速に受け取り、期待どおりに採用されているかどうかを把握できます。最終的には、ユーザーグループがどのように UX と関わっているかを把握し、エクスペリエンス を改善し、機能や製品のリリースがユーザーに最大の価値をもたらうようにするのに役立ちます。「私のチームが行うことは全て、ユーザーの効果的なコミュニケーションを促進し、潜在能力を発揮させるような、豊かでパーソナライズされた体験を創出することに注力しています。」(Locklin 氏)
また、レイクハウスアーキテクチャに移行することで、分散ファイルシステムに対するアクセス制御の課題を解決し、Unity Catalog では、ロールベースのきめ細かなアクセス制御とリアルタイムのデータリネージが可能になりました。「Unity Catalog のおかげで、データベースでは不可能なほど柔軟にファイルのパーミッションを管理できるようになりました。私のチームでは解決できなかった問題を、スケールアップして解決してくれました。Datbricks を使用することで、分析データを社内で管理することができますが、Unity Catalog は、データ内部のアクセスパラダイムを制御することで、データ保護の最高水準を維持するのに役立ちます。これにより、私たちができることの全く新しい世界が広がりました。」(Locklin 氏)
Grammarly では、Datbricks レイクハウスプラットフォームに移行したことで、エンタープライズグレードのセキュリティ対策を維持しながら、従業員が複雑なクエリを作成しなくても分析に素早くアクセスできるデータドリブンな文化を醸成することができました。「私たちのチームのミッションは、Grammarly がより良いビジネス上の意思決定を迅速に行えるようにすることです。Datbricks のようなプラットフォームがなければ、私のチームはこのミッションを効果的に遂行するこ とができなかったでしょう。」(Blanket 氏)Grammarly にとっておそらく最も大きなメリットは、堅固なレガシーインフラから移行したことで、ニーズに対応して進化するプラットフォームを利用して、より多くのことを行う適応性を得たことです。「Databricks のレイクハウスによって、データの可能性を最大限に引き出す柔軟性が実現しました。これまでにないペースで分析が加速しています。」(Locklin 氏)