La description:
Nous recrutons pour un de nos clients, une start-up française de référence dans la e-santé, reconnue pour ses innovations en dispositifs médicaux connectés, en coordination des soins et en intelligence artificielle appliquée à la santé. L'entreprise développe des solutions à fort impact clinique, à l'interface entre recherche médicale, données de santé et technologies de pointe, dans un environnement réglementé (dispositifs médicaux marqués CE). Au sein d'une équipe Data Science de plus de 15 personnes, dédiée au développement d'algorithmes de diagnostic en neurologie et médecine du sommeil, vous interviendrez comme Lead Technique Data. Vous travaillerez sur des pipelines de données critiques reliant la recherche aux applications cliniques concrètes. Vos missions seront les suivantes: - Concevoir, maintenir et faire évoluer une plateforme de stockage de données à grande échelle au service des projets IA. - Normaliser, structurer et fiabiliser les données (formats, ontologies, bonnes pratiques) afin de garantir leur qualité et leur cohérence. - Mettre en œuvre une gestion avancée du versioning des données assurant une traçabilité complète, indispensable à la conformité des dispositifs médicaux. - Améliorer en continu la plateforme avec un focus sur la sécurité, la scalabilité, l'optimisation des coûts et la supervision (monitoring, dashboards). - Concevoir et maintenir des pipelines ETL automatisés pour l'ingestion, le nettoyage et la transformation de données de santé. - Garantir le respect strict des exigences RGPD (anonymisation, pseudonymisation, documentation). - Collaborer avec les équipes métiers et techniques pour intégrer de nouvelles sources de données et répondre à des besoins évolutifs. - Mettre à disposition des datasets versionnés pour permettre des expérimentations reproductibles. - Assurer des transferts de données massifs rapides, sécurisés et fiables. - Adapter la structuration des données et des métadonnées aux besoins des data scientists, et leur apporter un support technique de haut niveau. - Maintenir et améliorer les pipelines CI/CD et les déploiements des infrastructures data. - Mettre en place des outils de supervision et d'alerting garantissant la robustesse des flux. - Jouer un rôle de référent technique : cohérence d'architecture, revues de code, accompagnement des profils plus juniors. - Participer à une organisation data gérant les projets de bout en bout (architecture, développement, QA, sécurité, déploiement, exploitation) avec une réelle liberté technologique. Nous recherchons pour ce poste: - Langages & outils : Python avancé, Git / GitLab CI. - Cloud & Big Data : AWS (API Gateway, Cognito, Lambda, S3, SageMaker, Glue, Athena, ECS), Databricks, Delta Lake. - Orchestration & infra : Airflow, Terraform. - Bases de données : MongoDB et solutions de stockage à grande échelle. - Web & APIs : API REST, protocoles HTTP / HTTPS. - Minimum 7 ans d'expérience en ingénierie data, dont au moins 2 ans dans un rôle senior ou de lead technique. - Solide compréhension des enjeux de sécurité, conformité et cybersécurité, notamment pour les données de santé. - Anglais technique courant (environnement et parties prenantes internationales). - Forte rigueur scientifique et approche orientée résolution de problèmes. - Capacité à faire le lien entre data science, ingénierie logicielle et opérations. - Aptitude à produire une documentation technique claire, structurée et conforme aux normes. - Expérience en MLOps (orchestration, déploiement, monitoring de pipelines ML). - Connaissance des cadres réglementaires CE / FDA pour les logiciels médicaux. - Expérience avec des données de santé (EEG, ECG, EMG, données cliniques). - Bon niveau en environnement Linux et conteneurisation (Docker, ECR)