Articles by Amir Kermany - Databricks ブログ

ページ 1

データレイクにライフサイエンスの知識グラフを構築する

January 31, 2023 Michael Sanky、Vishnu Vettrivel、Alex Thomas、Amir Kermany による投稿 in 業界

本投稿はDatabricksとwisecube.aiの共同によるものです。創業者のVishnu Vettrivel、プリンシパル・データサイエンティストのAlex Thomasへの貢献に感謝します。 Original Blog : Building a Life Sciences Knowledge Graph with a Data Lake 翻訳 : motokazu.ishikawa 製薬企業は世界の最も深刻な疾患のいくつかに対して、画期的な医薬品を発見し開発し市販します。研究開発におけるデータドリブンなアプローチは創薬とともに治験での安全管理の成功率も改善します。しかしながら、この改革における主要な障害は、新しいデータが増加するペースに、科学的な情報を全て活用する能力が追いつかないということです。研究開発のデータはしばしば何百万のデータポイントと何千のデータソースから生じます。これには、ゲノミクスやプロテオミクスのようなハイスループットな技術、利用が増加している電子健康記録(EHR)、その他のデジタルデ

臨床データによる腫瘍学の知見抽出に NLP を活用

September 22, 2021 Amir Kermany、Moritz Steller、David Talby、Michael Sanky による投稿 in エンジニアリングのブログ

このブログで参照しているソリューションアクセラレータのノートブックは、オンラインでご参照いただくか、ノートブックをダウンロードしてお使いの Databricks アカウントにインポートすることで、すぐにご利用いただけます。米国における死亡原因および疾病原因の第 1 位は悪性腫瘍（がん）です。その数は驚異的で、今年、米国では新たに診断されるがん患者は約 200 万人になると予想されています。また、米国における医療費は、悪性腫瘍（がん）に関連するものが大部分を占めており、その額は、2020 年で 2,000 億ドルを超えると推定されています。このため、バイオ医薬品業界では、がん治療のための創薬に特に注力しています。2019 年、2020 年だけでも、FDA によっておよそ...

FAIR 原則に基づく効率的なデータ管理をレイクハウスで実現

September 7, 2021 Greg Wood、Amir Kermany による投稿 in プラットフォームブログ

科学における発見とイノベーションの原動力となるデータ。そのデータの価値は、データ管理戦略によって左右されます。データ管理戦略は、データの品質、アクセスの容易さ、結果の再現性を確保するための重要な要素であり、信頼できる科学的なエビデンスを得るうえで欠かすことができません。あらゆる分野の科学者が大規模なデータセットにアクセスできるようになったことで、管理や制御の煩雑さ、再現不能なデータワークフローをはじめとするビッグデータの問題が過去 10 年間で顕著になり、解決すべき課題となっています。これを受けて、業界の専門家は、「価値あるデジタル資産の長期的な管理」を中核とした「適切なデータ管理とスチュワードシップ」のフレームワークを策定しました。このことは、2016 年に「 Nature 」誌の記事で初めて取り上げられています。このフレームワークは現在 FAIR 原則として認知されています。FAIR 原則は、デジタル資産の Findability（検索性）、Accessibility（アクセス性）、Interoperab

最新の Data Lakehouse で健康データの力を解き放つ

July 19, 2021 Michael Ortega、Michael Sanky、Amir Kermany による投稿 in エンジニアリングのブログ

患者 1 人に対して年間およそ 80 MB の医療データが生成されるといわれています。数千人規模の患者の生涯に換算すると、貴重な知見の源となるペタバイト級の患者データが生成されることになります。膨大なデータから知見を抽出することで、臨床業務の効率化、創薬研究の加速、患者の転帰の改善が図れます。これを可能にするためには、データを収集するだけでなく、準備段階として、データの前処理が必要です。ダウンストリームの分析や AI で利用できるよう、収集したデータのクリーニングや構造化を行います。ヘルスケア・ライフサイエンス組織のほとんどが、この準備段階に多大な時間を消費しているのが実情です。業界におけるデータ分析の課題ヘルスケア・ライフサイエンス業界の組織が抱える、データ準備、分析、AI における課題には数多くの理由が存在しますが、そのほとんどは、データウェアハウス（DWH）上に構築されたレガシーなデータアーキテクチャへの投資に関係するものです。この業界における 4 つの主要な課題は次のとおりです。課題 1 - ボ

リアルワールドデータ分析によるハイリスク患者の検知

October 20, 2020 Amir Kermany、Frank Austin Nothaft による投稿 in エンジニアリングのブログ

低コストのゲノムシークエンスや AI を活用した医療用画像診断の普及により、精密医療への関心が高まっています。Databricks では、精密医療の領域において、データや AI を活用して疾患に対する最適な治療法を発見することを目指しています。精密医療は、希少疾患やがんと診断された患者の治療のアウトカムを改善してきましたが、精密医療はリアクティブ型の医療です。精密医療を受けるには、患者が病気である必要があります。医療・ヘルスケアのコストとアウトカムの面では、糖尿病や心臓病、薬物使用障害などの慢性疾患の予防が、医療費と生活の質の改善に大きく影響を与えることがわかっています。米国では、死亡者の 10 人のうち 7 人が慢性疾患の患者で、医療費の 85% が慢性疾患の治療によるものです。また、欧州や東南アジアでも同様の傾向が見られます。非感染性疾患は、患者への教育や慢性疾患の原因となる根本的な問題に対処することで、通常は予防可能です。これらの問題には、神経疾患の原因となる既知の遺伝的リスクなどの生物学的リ