Les secrets pour passer son architecture data dans le cloud : interview de Thibault Romann, Responsable DataOps chez Idylle
De nombreux projets se heurtent à de fortes difficultés lors du passage en production de leur modèle de data-science. Les cloud providers ont l’avantage de proposer de grandes capacités de calcul, adaptées à des projets traitant d’importants volumes de data. Cependant, la mise en place d’une architecture cloud robuste nécessite une certaine maîtrise de la configuration des cloud providers… Thibault, responsable DataOps chez Idylle, nous explique dans cet interview les problématiques auxquelles sa société a été confrontée et les solutions adoptées pour la mise en place de leur architecture data.
Dans quel contexte as-tu commencé à travailler sur un modèle de data-science pour Idylle ?
L’aventure a commencé avec Quattrocento, la maison mère de Idylle. En deux mots, Quattrocento s’associe à des chercheurs à l’origine d’inventions orphelines d’entrepreneurs pour créer des entreprises dont l’objectif est de transformer ces inventions en produits commercialisables dans le domaine des sciences du vivants. Une première étape est donc l’identification des inventions les plus pertinentes, pouvant donner lieu à la création de produits rencontrant une réelle demande chez les autres chercheurs ou encore chez les laboratoires pharmaceutiques et le domaine médical.
Dans ce cadre, nous avons créé un modèle de scoring, permettant de détecter, à partir d’un certain nombre de dimensions, les études les plus intéressantes au sein des bases de publication scientifiques.
Peux-tu nous donner les grandes lignes de votre architecture data pour ce projet ?
Tout d’abord, nous devions stocker un grand volume de données sur les publications et les chercheurs du monde entier. Aussi, nous devions héberger et faire tourner les scripts permettant de transformer la donnée pour la rendre exploitable par notre modèle. Enfin, nous avions besoin de serveurs capables de faire tourner notre modèle de scoring, qui nécessite d’importantes capacités de calcul. Il fallait également héberger les interfaces utilisateurs permettant d’utiliser cette donnée.
Vers quelle solution vous êtes vous alors tournés ?
Durant les 11 premiers mois d’exploitation, nous avons utilisé l’outil d’un important acteur français, spécialiste de la création de datalakes. Nous avons loué un certain nombre de machines, au coût non négligeable, pour répondre à notre besoin.
A mesure que notre base et notre modèle s’enrichissait, nous avons vu arriver les premières difficultés.
Tout d’abord, lorsque nous souhaitions mettre à jour nos jobs d’extraction, de transformation et de scoring, la mise en production était assez complexe. L’outil utilisé vient avec une couche de nouveaux concepts difficiles à appréhender. Nous faisions également face à un manque de logs sur nos traitements, impliquant de dédier beaucoup de temps au debug lorsqu’une mise à jour intervenait.
Le principal problème se situait au niveau des capacités de montée à l’échelle. En effet, les serveurs exploités, limités en termes de puissance, ne nous permettaient pas de mettre en oeuvre toutes les mises à jour que nous envisagions.
Le dernier problème est au niveau du coût. En effet, les serveurs étaient loués et mobilisés en permanence alors que nous avions besoin d’une grosse capacité de calcul seulement une fois par semaine… Le modèle économique n’était tout simplement pas aligné avec notre besoin.
Comment avez-vous alors réagi ?
Depuis le début, nous étions accompagnés par Affini-Tech pour la mise en place de cet outil de scoring. Constatant nos difficultés, ils nous ont alors proposé d’utiliser le produit qu’ils avaient développé : Datatask.
Le fait d’utiliser cette solution nous permettrait selon eux d’utiliser les capacités de montée à l’échelle des cloud providers quand nous en avions réellement besoin et de simplifier les mises en production du modèle.
Nous avons donc opté pour Datatask, que nous utilisons maintenant depuis plus deux ans. L’ensemble de nos jobs et de nos applications utilisent aujourd’hui la plateforme.
Qu’est ce que la plateforme te permet de faire au quotidien ?
Je suis un data-scientist de formation et je n’avais donc pas le bagage nécessaire pour définir notre architecture de production et réaliser moi-même les déploiements en production.
Les interfaces et les concepts des cloud providers sont difficiles à appréhender lorsqu’on n’a pas d’expérience en tant que DevOps/DataOps.
Avec Datatask, je peux moi-même mettre à jour mon code au sein des containers de la plateforme. Je peux donc mettre en production super simplement et surtout rapidement. Ca me permet de me concentrer sur mon métier, d’optimiser mon modèle de scoring et déployer de nouveaux pipelines de données pour de nouveaux usages.
Je vois la plateforme comme une surcouche aux cloud providers, permettant d’utiliser toute la puissance du cloud. Nous faisons toujours tourner notre modèle de scoring une fois par semaine mais quand c’est lancé, Datatask mobilise juste les ressources nécessaires de Google Cloud Platform. Les capacités de calcul sont donc aujourd’hui quasiment illimitées.
Nous pouvons aujourd’hui faire évoluer notre modèle en parfaite autonomie. L’autre avantage est qu’en parallélisant nos scripts, nous pouvons réaliser d’importantes économies d’échelle !
J’utilise aujourd’hui Datatask au sein d’Idylle, une des filiales de Quattrocento. Je travaille sur un modèle de scoring permettant d’identifier les chercheurs pouvant être les plus intéressés par les produits que nous lançons commercialement.
Un petit mot pour conclure ?
Quand je parle de Datatask à des amis Datascientists, ils me disent que j’ai beaucoup de chance d’utiliser une telle solution car pour eux, la mise en production de leurs modèles est beaucoup plus longue et complexe.
Et aussi, je suis assez surpris de la vitesse avec laquelle l’équipe prend en compte mes retours sur le produit. Celui-ci a énormément évolué depuis 2 ans et répond aujourd’hui parfaitement à mes besoins sur ce projet !
Conclusion
Ce retour d’expérience de Thibault nous montre qu’il est possible d’utiliser toute la puissance du cloud, sans être un grand spécialiste de la configuration des cloud providers.
Si vous souhaitez recevoir votre sandbox pour tester Datatask, c’est par ici !