L'offre Data engineer de la plateforme Big Data de l’AP-HP a été sauvegardée.

Continuer

Offre sauvegardée

Entrez votre adresse e-mail pour enregistrer ce travail

Vous enregistrez ce travail sous:

FR
retour à la liste

Data engineer de la plateforme Big Data de l’AP-HP posté par FONDATION DE l'AP-HP POUR LA RECHERCHE

CDD/Intérim - temps plein
paris
50.000,00 € - 55.000,00 € / an

Description de l'offre

L’AP-HP

L'Assistance Publique - Hôpitaux de Paris (AP - HP) est un établissement public de santé, centre hospitalier universitaire (CHU) d’Île-De-France. Ses missions sont le soin, la recherche et l’enseignement. À dimension internationale, il est constitué de 39 hôpitaux, organisés en 12 groupes hospitaliers. Accueillant plus de 7 millions de patients par an, son budget annuel est près de 7,2 milliards d’euros.

La Direction des Systèmes d’Information (DSI) de l’AP-HP

La Direction des Systèmes d’Information (DSI) a pour mission d'assister le Directeur Général de l'Assistance publique - hôpitaux de Paris dans la conception, le pilotage et la mise en œuvre de la politique du système d’information de l'AP-HP. Elle est rattachée au secrétariat général de l’AP-HP. Le budget d’investissement géré est de près de 70 M€ et le budget d’exploitation est de 125 M€. Le nombre d’agents de la DSI centrale en équivalents temps pleins est de 370.

Le département WIND, organisé en quatre pôles, au sein de la DSI pilote les projets d’innovation et de structuration des données médicales.

Description de la plateforme Big Data :

Afin de permettre le développement de projets de recherche innovants, en particulier dans le domaine de l’intelligence artificielle, l’AP–HP a fait le choix de mettre en place une plateforme Big Data, infrastructure informatique propre intégrant des capacités de stockage et de calcul permettant l’exploitation sécurisée et performante des données de santé dont elle est dépositaire. Cette plateforme héberge notamment, l’entrepôt de données de santé (EDS) de l’AP-HP.

L’Entrepôt de Données de Santé (EDS) de l’AP-HP intègre des données administratives et médicales de plus de 8 millions de patients hospitalisés ou venus en consultation au sein des 39 établissements de l’AP-HP (20 millions de dossiers médicaux, plus de 10 millions de diagnostics, 181 millions de résultats de laboratoires…). Cet entrepôt permet d’améliorer le pilotage de l’activité hospitalière et de faire avancer la recherche scientifique dans le domaine de la santé en favorisant la réalisation d’études sur données, la mise en place d’essais cliniques et le développement d’algorithmes d’aide à la décision. Le projet EDS fait l’objet d’une gouvernance spécifique avec des niveaux opérationnels, médicaux, scientifiques et stratégique associant des professionnels de santé, des chercheurs et des représentants de patients.

Le projet est constitué de plusieurs équipes afin de répondre aux objectifs de développement de l’entrepôt de données de santé de l’AP-HP, et d’organisation de la mise à disposition des données à des fins de recherche, de pilotage et d’innovation :

  • L’équipe « Expertise Données » a pour mission de permettre une gestion transverse des données en réalisant le cadrage des flux d’intégration de données, du contrôle de la qualité des données de la plateforme Big Data, et d’apporter aux équipes de soins ou de recherche de l’AP-HP une expertise règlementaire et technique sur l’EDS ou sur les bases de données de recherche cliniques hébergées par la plateforme.
  • L’équipe « Plateforme Big Data », responsable de la mise en place de la plateforme Big Data de l’AP-HP, a pour mission l’intégration des données de santé massives et complexes (séquences de gènes, images, signaux, textes, etc.) et leur utilisation à grande échelle, de manière performante et sécurisée dans le respect des principes et règles de gouvernance des données définis par l’AP-HP.
  • L’équipe « Pilotage » a pour mission la mise en œuvre et le déploiement de solutions de pilotage hospitalier de niveau stratégique ou opérationnel pour l’évaluation et l’amélioration continue des pratiques.
  • L’équipe « Recherche et innovation » a pour mission la mise en œuvre et le déploiement de solutions de recherche sur données (données de soins ou de recherche clinique) et de gestion des données de recherche clinique (registres, essais cliniques).

La Plateforme Big Data de l’AP-HP, dotée de capacités de stockage et d’analyse dimensionnées pour les usages attendus, a été mise en place et sécurisée sur les plans matériel, logiciel et organisationnels.

Les environnements techniques sur lesquels le cluster est bâti sont : Hadoop (distribution Hortonworks avec les briques Hive, Spark2, Solr, Phoenix, Hbase, HDFS, Zookeper, Ambari…), base de données structurée PostGreSQL, Jupyter Lab, l’outil I2B2…etc. Cette plateforme compte actuellement 22 machines pour le cluster Hadoop (4928Go RAM, 840 cores CPU,1,4To d’espace disque HDFS), de 3 machines GPU (20 GPU Nvidia), de 10 machines CPU dédiées aux environnements Jupyter pour l’analyse de données, et 1 machine NFS de 78To.

La plateforme permet le développement de solutions innovantes de traitement et d’exploitation de données (chaine d’intégration de données, outils de visualisation et de création de cohortes (i2b2, cohort360...), solutions de collecte de données (eCRF, plateformes intégratives de données massives), interfaces FHIR (API)).

Des travaux importants sont engagés afin d’assurer l’accessibilité des données dans le respect de la vie privée des patients (anonymisation, outils de traitement automatique du langage, …), leur interopérabilité en s’alignant sur les standards internationaux (OMOP, FHIR et les terminologies médicales de référence LOINC, CIM…) et leur réutilisation (contrôle qualité des données) selon les principes FAIR
.

Composition de l’équipe et objectifs du poste

L’équipe Plateforme Big Data est composée d’environ 12 professionnels techniques, et est structurée en trois équipes : une équipe « Recherche et Développements », une équipe « Administration et Architecture », et une équipe « Data Engineering ».

Nous souhaitons renforcer l’équipe « Data Engineering » avec le savoir-faire d’un Data Engineer qui permettra d’assurer une récupération efficace des données issues de différentes applications sources du système d’information clinique, d’industrialiser et d’accélérer l’intégration des données.

Votre rôle sera clé, car de l’existence de la grande volumétrie de données sur la plateforme, dépendront les avancées de la science et de la médecine personnalisée.

Vous principales missions seront les suivantes :

  • Travailler sur le domaine de la cancérologie
  • Développer, industrialiser et maintenir les flux d’intégration de données (extraction, sélection, collecte et intégration) avec l’utilisation de l’ETL Talend ou de connecteurs spécifiques
  • Assurer l’intégration des données de manière performante
  • Industrialiser le code de génération du flux de données et assurer sa performance globale
  • Aider à l’implémentation de standards et normes de mise à disposition des données
  • Développer des méthodologies standardisées pour l’intégration de nouvelles données
  • Mettre en place des outils permettant l’enrichissement des données (outils d’annotations, etc.)

Liaison hiérarchique : Responsable de l’équipe Data Engineering

Liaison fonctionnelle : Chef de projet de l’équipe d’analystes fonctionnels (équipe « Expertise données » du domaine « Données » de WIND à la DSI de l’AP-HP).

Intéractions fortes : Les équipes du domaine « Données » (expertise données, pilotage, recherche et innovation), les autres équipes de la DSI, etc.



Conditions requises

Profil recherché

  • Vous avez un diplôme d’ingénieur ou équivalent (bac+5, master2) en informatique ou sciences (mathématique, physique, sciences de la vie) avec formation complémentaire en informatique
    • Vous adhérez aux valeurs du service public et vous avez un intérêt prononcé pour le domaine de la santé
    • Vous avez une expérience de développement sous Linux et des outils ETL (Talend ou autre)
    • Vous avez une expérience dans la manipulation de données avec le langage SQL
    • Vous avez un niveau d’anglais courant

Compétences recherchées :

  • Maîtrise en informatique et programmation
  • Excellentes compétences en codage (Java ou Python)
  • Excellentes compétences en SQL (Oracle, PostgreSQL, Hive)
  • Maîtrise des outils ETL (Talend, …), d’informatique décisionnelle et des méthodes de data warehouse (OLTP, RDBMS…)
  • Connaissance des standards d’interopérabilité du domaine de la santé (FHIR, OMOP, CDA, HL7, CIM, Snomed, LOINC…)
  • Bonne connaissance du traitement des données massives et des technologies Big Data (Hadoop, Kafka, Spark, Elastic Search, NoSQL, etc.)
  • Capacité à appréhender des enjeux liés à la recherche, à l’analyse de données et aux technologies de machine learning/deep learning, notamment dans le domaine de la santé (santé publique, génétique, épidémiologie…)
  • Des qualités d’autonomie, de flexibilité et de responsabilité
  • Esprit d’équipe et la volonté de prendre part à une aventure collective
  • Dynamique et créatif, et faisant preuve d’innovation
  • Sens de l’écoute, du résultat et de la qualité


Numéro de référence

n/a

Offres similaires

Recevoir des offres similaires

Merci. Vous allez recevoir des offres à l'adresse email