Comment l’IA change la découverte de médicaments
De points de données traités, provenant de milliers de sources
AstraZeneca découvre, développe et commercialise des médicaments révolutionnaires pour lutter contre des maladies comptant parmi les plus graves au monde. Il existe un grand obstacle à l'innovation : l'impossibilité d'exploiter toutes les informations scientifiques mises à la disposition du laboratoire au rythme auquel elles arrivent. Il fallait donc une plateforme permettant de créer des pipelines de données évolutifs et performants afin d'alimenter des modèles de machine learning conçus pour aider les scientifiques à prendre des décisions ciblées. Databricks a permis d'exploiter les données et le machine learning pour créer un moteur de recommandation grâce auquel les scientifiques découvrent de nouveaux médicaments avec davantage de simplicité, de rapidité, de rentabilité et d'efficacité.
Un excès de données ralentit la prise de décision
Un excès de données ralentit la prise de décision
On sait aujourd'hui que la découverte, le développement et la commercialisation de nouvelles classes de médicaments peuvent prendre de 10 à 15 ans et représenter plus de cinq milliards de dollars d'investissements en R&D – sachant qu'un peu moins de 5 % des médicaments seront finalement commercialisés. Pour AstraZeneca, ce rythme d'innovation n'était clairement pas suffisant. Le laboratoire est donc passé à une approche axée sur les données afin d'augmenter son taux de réussite dans la découverte de médicaments et assurer une gestion plus sûre des essais cliniques.
Pourtant, ses chercheurs ne parvenaient toujours pas à prendre rapidement des décisions éclairées malgré toutes les informations dont ils disposaient. Ils rencontraient notamment des problèmes avec les données résidant dans des sources disparates, à la fois au sein de l’entreprise et dans des bases de données publiques externes. En outre, avec le rythme soutenu de la publication de nouvelles recherches scientifiques, il est devenu pratiquement impossible de se tenir au courant des découvertes en temps voulu.
-
Complexité de l'infrastructure : AstraZeneca avait besoin d'une infrastructure flexible mais ne nécessitant pas une maintenance constante.
-
Des quantités massives de données disjointes : il faut importer, lire et analyser des millions de points de données provenant de centaines de sources internes et publiques – documentation technique, bases de données publiques, etc.
-
Avec des notebooks Python open source, l'équipe ne parvenait pas à faire évoluer les opérations suffisamment vite pour les besoins de la data science.
Des pipelines de données plus rapides accélèrent l'innovation ML
Des pipelines de données plus rapides accélèrent l'innovation ML
AstraZeneca s'appuie sur la plateforme Lakehouse de Databricks pour créer un graphique de connaissances sur les informations et les faits biologiques. Ce graphique alimente un système de recommandation qui permet à tout chercheur d’AstraZeneca de produire de nouvelles hypothèses cibles, pour n’importe quelle maladie, en puisant dans toutes les données à sa disposition.
-
Plateforme entièrement managée : simplification de la gestion des clusters et de la maintenance des ressources analytiques à grande échelle sur Azure.
-
Pipelines de données performants à grande échelle : possibilité d'utiliser le NLP sur une vaste bibliothèque de littérature scientifique et de sources de données en vue d'analyses en aval.
-
Accélération de l'innovation avec le machine learning : les data scientists créent et entraînent des modèles qui fournissent des prévisions de classement afin de prendre des décisions plus avisées.
Transformer la découverte de nouveaux médicaments avec l'IA
Transformer la découverte de nouveaux médicaments avec l'IA
Depuis l'adoption de Databricks, AstraZeneca parvient à traiter plus facilement des millions de points de données provenant de milliers de sources. En éliminant les obstacles d'échelle, l'entreprise peut aujourd'hui extraire en toute confiance des informations utiles, susceptibles d'aboutir à des médicaments inédits qui aideront la population à vivre mieux.
-
Gain d'efficacité opérationnelle : des fonctionnalités comme la gestion et la mise à l’échelle automatique des clusters ont amélioré les opérations, de l’ingestion de données à la gestion de l’ensemble du cycle de vie du machine learning.
-
Davantage de productivité dans la Data Science : la productivité de l'équipe a beaucoup profité de l'environnement de notebooks partagés qui prend en charge différents langages.
-
Délai d’analyse réduit : le moteur de recommandation alimenté par Databricks accroît la capacité du laboratoire à formuler des hypothèses plus éclairées, ce qui a un impact direct sur le délai de commercialisation des nouveaux médicaments.