L'offre Ingénieur BigData Machine Learning BI F/H a été sauvegardée.

Continuer

Offre sauvegardée

Entrez votre adresse e-mail pour enregistrer ce travail

Vous enregistrez ce travail sous:

FR
retour à la liste

Ingénieur BigData Machine Learning BI F/H posté par TRIMANE

Stage
Saint-Germain-en-Laye

Description de l'offre



Transformation des bases de données contenues dans un DataLake vers un entrepôt NoSQL



Trimane est un groupe de services numériques (ESN) d’une centaine de consultants spécialisés dans les missions d’audit, de conception et de réalisation de projets dédiés au pilotage de la performance et au traitement de la donnée.

Le pôle recherche et développement souhaite consolider et éprouver son savoir-faire dans le traitement massif de données, les process de développement et son architecture cloud.

Trimane est basée à Paris et Toulouse.



Description :

Les connaissances peuvent être représentées sous différents formats en informatique : sous forme de textes non structurés ou semi-structurés, sous forme d’images ou de graphiques annotés, sous forme de bases de données relationnelles, sous forme de feuilles de calcul. Ces différents types de représentations de connaissances coexistent dans de nombreux environnements.

Le sujet de stage vise à extraire les données à partir d’un lac de données (Datalake) et à les stocker dans une base décisionnelle. Ces extractions devront être automatisées grâce à des règles de transformation conformément à l’architecture MDA. Des techniques de traitement automatique du langage naturel et de l’apprentissage (Machine Learning) pourront être utilisées pour extraire les liens entre ces documents sources, les analyser et effectuer des prédictions.

Récemment des travaux de recherche ont proposé des mécanismes d’extraction de connaissances à partir de lac de données [1], [2] pour créer une zone de stockage dynamique. Les processus ETL (Extract, Transform, Load) que l’on trouve dans les systèmes d’entreposage relationnels ont été enrichis par des mécanismes de prétraitement des données natives et d’organisation spécifiques aux objets sur les supports. On parle alors de processus « Ingest, Curate, Consume ». Parmi les solutions dédiées à l'Ingestion sur une plateforme Big Data, les publications [2], [3] proposent une architecture du Datalake comportant plusieurs zones de traitement et créent une représentation relationnelle des données afin de faciliter l’accès aux données. Par ailleurs dans [4], il est décrit une méthode pour construire et gérer un système de métadonnées spécifique aux documents textuels dans les lacs de données. D’autres travaux utilisent l’apprentissage profond dans le processus de curation de données [5], [6].

Le stagiaire devra étudier et concevoir un mode d’organisation et de stockage de données adapté aux analyses multidimensionnelles. Ensuite il devra définir les règles de transformation automatique pour extraire les données à partir du Datalake. Cette proposition devra être intégrée dans le logiciel existant et être évaluée au plan fonctionnel. Elle devra également faire l’objet de jeux de tests professionnels.

Pendant la durée de stage, ce sujet peut faire l’objet d’évolutions pour s’adapter aux contraintes de la société TRIMANE. En cas de modification importante, il sera naturellement soumis à l’approbation des parties signataires de la convention.



Connaissances requises :
  • Bases de données relationnelles
  • Business Intelligence
  • Programmation : Java et Python.
  • Machine Learning.
  • Des connaissances en Big Data, les bases NoSQL, MDA architecture, QVT, web sémantique et l’intelligence artificielle seront appréciées.




Bibliographie :

[1] A. Bogatu, A. Fernandes, N. Paton, and N. Konstantinou, “Dataset Discovery in Data Lakes,” in 36th IEEE International Conference on Data Engineering, Oct. 2019.

[2] D. Solodovnikova and L. Niedrite, “Towards a Data Warehouse Architecture for Managing Big Data Evolution” in Proceedings of the 7th International Conference on Data Science, Technology and Applications, Porto, Portugal, 2018, pp. 63–70.

[3] S. Rooney, D. Bauer, L. Garcés-Erice, P. Urbanetz, F. Froese, and S. Tomic, “Experiences with Managing Data Ingestion into a Corporate Datalake,” in 2019 IEEE 5th International Conference on Collaboration and Internet Computing (CIC), Dec. 2019, pp. 101–109.

[4] A. Tunjić, “The Automation of the Data Lake Ingestion Process from Various Sources,” in 2019 42nd International Convention on Information and Communication Technology, Electronics and Microelectronics (MIPRO), May 2019, pp. 1276–1281.

[5] P. N. Sawadogo, T. Kibata, and J. Darmont, “Metadata Management for Textual Documents in Data Lakes,” in 21st International Conference on Enterprise Information Systems (ICEIS 2019), Heraklion, Greece, May 2019, vol. 1, pp. 72–83.

[6] S. Thirumuruganathan, N. Tang, M. Ouzzani, and A. Doan, “Data Curation with Deep Learning [Vision],” ArXiv180301384 Cs, Mar. 2019.

[7] A. Alserafi, A. Abelló, O. Romero, and T. Calders, “Keeping the Data Lake in Form: DS-kNN Datasets Categorization Using Proximity Mining,” in Model and Data Engineering, Cham, 2019, pp. 35–49.



Profil recherché :
  • Stagiaire BAC+5 en informatique (préparant un diplôme de master ou un diplôme d’ingénieur)
  • Motivé(e), autonome, curieux(se) dans la recherche appliquée.
  • Selon le profil de l’étudiant et sa motivation, ce stage peut déboucher sur la préparation d’un doctorat dans le cadre d’une bourse CIFRE.




Mots-clés : Business Intelligence, Big Data, NoSQL, Machine Learning, web sémantique, ETL, Architecture MDA, QVT.

Date de début : variable selon la formation.

Durée de début : 6 mois.

Localisation : Laboratoire CBI² - Société TRIMANE – Saint Germain-en-Laye

Candidature : CV détaillé, lettre de motivation et relevés de notes (3 dernières années) à transmettre par mail à

Date de candidature : le plus tôt possible.

Numéro de référence

STACBIBIBGML21TRI

Offres similaires

Recevoir des offres similaires

Merci Vous allez recevoir des offres à l'adresse email