Databricksデータインテリジェンスプラットフォームによる"オミクス"データ管理の変革
人間のゲノムの初稿が完成してから二十年、生物学研究の風景は革命的な変化を遂げました。ゲノム学の分野は急速に拡大し、単一細胞RNAシーケンシング、プロテオミクス、メタボロミクスなどの多 様なデータタイプを含むより広範な"オミクス"革命を引き起こしています。 これらの最先端技術は、生物学的機能について最も詳細なレベルで 前例のない洞察 を提供し、疾患メカニズム、生物の適応、薬物や化学物質を含む環境要因との相互作用についての深い理解を提供しています。このオミクス爆発の影響は広範で、 薬物発見 、 精密医療 、 農業 、 バイオマニュファクチャリング を革新することを約束しています。 しかし、生命科学組織の大多数は、既存のデータインフラストラクチャと使用されている技術によって引き起こされる様々な課題のために、これらの洞察を完全に活用することに苦労しています。これらの課題を克服するためには、データプラットフォームの近代化が研究開発におけるマルチオミクスの成功的な適用にとって重要です。 このブログでは、Databricks D
データレイクにライフサイエンスの知識グラフを構築する
本投稿はDatabricksとwisecube.aiの共同によるものです。創業者のVishnu Vettrivel、プリンシパル・データサイ エンティストのAlex Thomasへの貢献に感謝します。 Original Blog : Building a Life Sciences Knowledge Graph with a Data Lake 翻訳 : motokazu.ishikawa 製薬企業は世界の最も深刻な疾患のいくつかに対して、画期的な医薬品を発見し開発し市販します。研究開発におけるデータドリブンなアプローチは創薬とともに治験での安全管理の成功率も改善します。しかしながら、この改革における主要な障害は、新しいデータが増加するペースに、科学的な情報を全て活用する能力が追いつかないということです。 研究開発のデータはしばしば何百万のデータポイントと何千のデータソースから生じます。これには、ゲノミクスやプロテオミクスのようなハイスループットな技術、利用が増加している電子健康記録(EHR)、その他のデジタルデ
臨床データによる腫瘍学の知見抽出に NLP を活用
このブログで参照しているソリューションアクセラレータのノートブックは、 オンライン でご参照いただくか、ノートブックを ダウンロード してお使いの Databricks アカウントにインポートすることで、すぐにご利用いただけます。 米国における 死亡原因 および疾病原因の第 1 位は悪性腫瘍(がん)です。その数は驚異的で、今年、米国では新たに診断される がん患者は約 200 万人 になると予想されています。また、米国における医療費は、悪性腫瘍(がん)に関連するものが大部分を占めており、その額は、2020 年で 2,000 億ドルを超えると推定されています。このため、バイオ医薬品業界では、がん治療のための創薬に特に注力しています。2019 年、2020 年だけでも、FDA によって およそ...
FAIR 原則に基づく効率的なデータ管理をレイクハウスで実現
科学における発見とイノベーションの原動力となるデータ。そのデータの価値は、データ管理戦略によって左右されます。データ管理戦略は、データの品質、アクセスの容易さ、結果の再現性を確保するための重要な要素であり、信頼できる科学的なエビデンスを得るうえで欠かすことができません。 あらゆる分野の科学者が大規模なデータセットにアクセスできるようになったことで、管理や制御の煩雑さ、再現不能なデータワークフローをはじめとするビッグデータの問題が過去 10 年間で顕著になり、解決すべき課題となっています。 これを受けて、業界の専門家は、「価値あるデジタル資産の長期的な管理」を中核とした「適切なデータ管理とスチュワードシップ」のフレームワークを策定しました。このことは、2016 年に「 Nature 」誌の記事で初めて取り上げられています。このフレームワークは現在 FAIR 原則として認知されています。FAIR 原則は、デジタル資産の Findability(検索性)、Accessibility(アクセス性)、Interoperab
最新の Data Lakehouse で健康データの力を解き放つ
患者 1 人に対して 年間およそ 80 MB の医療データ が生成されるといわれています。数千人規模の患者の生涯に換算すると、貴重な知見の源となるペタバイト級の患者データが生成されることになります。膨大なデータから知見を抽出することで、臨床業務の効率化、創薬研究の加速、患者の転帰の改善が図れます。これを可能にするためには、データを収集するだけでなく、準備段階として、データの前処理が必要です。ダウンストリームの分析や AI で利用できるよう、収集したデータのクリーニングや構造化を行います。ヘルスケア・ライフサイエンス組織のほとんどが、この準備段階に多大な時間を消費しているのが実情です。 業界におけるデータ分析の課題 ヘルスケア・ライフサイエンス業界の組織が抱える、データ準備、分析、AI における課題には数多くの理由が存在しますが、そのほとんどは、データウェアハウス(DWH)上に構築されたレガシーなデータアーキテクチャへの投資に関係するものです。この業界における 4 つの主要な課題は次のとおりです。 課題 1 - ボ
リアルワールドデータ分析によるハイリスク患者の検知
低コストのゲノムシークエンスや AI を活用した医療用画像診断の普及により、精密医療への関心が高まっています。Databricks では、精密医療の領域において、データや AI を活用して疾患に対する最適な治療法を発見することを目指しています。精密医療は、希少疾患やがんと診断された患者の治療のアウトカムを改善してきましたが、精密医療はリアクティブ型の医療です。精密医療を受けるには、患者が病気である必要があります。 医療・ヘルスケアのコストとアウトカムの面では、糖尿病や心臓病、薬物使用障害などの慢性疾患の 予防 が、医療費と生活 の質の改善に大きく影響を与えることがわかっています。米国では、死亡者の 10 人のうち 7 人が慢性疾患の患者で、医療費の 85% が慢性疾患の治療によるものです。また、 欧州 や東南アジアでも同様の傾向が見られます。非感染性疾患は、患者への教育や慢性疾患の原因となる根本的な問題に対処することで、通常は予防可能です。これらの問題には、 神経疾患の原因となる既知の遺伝的リスク などの生物学的リ