L'offre Ingénieur Data Science F/H a été sauvegardée.

Continuer

Offre sauvegardée

Entrez votre adresse e-mail pour enregistrer ce travail

Vous enregistrez ce travail sous:

FR
retour à la liste

Ingénieur Data Science F/H posté par TRIMANE

Stage
Saint-Germain-en-Laye

Description de l'offre



Sujet :

Gestion améliorée de la qualité de données par génération automatique de prédicats

Trimane est une entreprise de services numériques (ESN) spécialisée dans les missions d’audit, de conception et de réalisation de projets Business Intelligence et Big Data. Forte de son expérience et de son image d’experte dans le secteur, elle souhaite désormais étendre ses activités à des missions plus spécifiques d’analyse de données. Trimane est basée à Paris et Toulouse.

Contexte

Le stage proposé porte sur un projet lancé en interne ayant pour vocation d’améliorer l’offre de service de Trimane. Dans le cadre de ses activités de mise en place de systèmes décisionnels, Trimane accompagne fréquemment ses clients vers une maturité accrue quant à la gestion de leurs données. Cette transition requiert généralement un assainissement des jeux de données en place, ce qui nécessite d’identifier des règles à même de détecter les données à corriger. Ces règles sont décidées conjointement avec les services concernés (producteur et utilisateur des données) mais leur découverte relève en majorité de l’empirisme, après une analyse préliminaire des données fournies.

Descriptif

L’objectif de ce stage est de s’appuyer sur les techniques d’apprentissage automatique afin d’améliorer cette étape d’identification et de la rendre plus exhaustive. Plus formellement, le but est de parvenir à définir une liste de prédicats permettant de déterminer les points de données jugés anormaux à partir d’un jeu de données arbitraire. Une étape préliminaire cruciale consistera à expliciter formellement ce que constitue le caractère anormal selon le type de donnée géré (relationnelle, tabulaire, temporelle, image, …). Le stagiaire pourra notamment s’inspirer du framework Snorkel[1] qui permet approximativement la fonction inverse (définir manuellement une liste de prédicats et laisser le framework générer des données respectant la forme du jeu de donnée initial). Des techniques de détection d’anomalies basées sur la variation de densité locale peuvent également être envisagées.

Le stagiaire pourra s’appuyer sur un ensemble de jeux de données réels et des règles de nettoyage associées venant de l’historique des réalisations de Trimane. Ces jeux d’entraînement pourront éventuellement être complétés avec des exemples de nettoyage de données fournis librement ici et là sur Internet, dans le respect des licences de réutilisation.

Pendant la durée de stage, ce sujet peut faire l’objet d’évolutions pour s’adapter aux contraintes de la société Trimane. En cas de modification importante, il sera soumis à l’approbation des parties signataires de la convention.

Attendu

Le stage étant principalement une mission de recherche et d’analyse, l’attendu demandé est un prototype jouant le rôle de preuve de concept et permettant de tester la technologie développée. Une visualisation graphique des résultats par un outil de restitution sera également valorisée et soutenue. Une mise en production au sein d’outils internes et déployés pourra être envisagée selon le niveau de maturité du prototype.

Environnement technique

L’environnement technique de développement est laissé assez libre. Une préférence est toutefois émise quant à l’utilisation de composants libres et gratuits pour le développement de la solution.

Références

Framework Snorkel : https://www.snorkel.org/

Travaux de Chris Ré : https://cs.stanford.edu/people/chrismre/

Détection d’anomalies : https://fr.wikipedia.org/wiki/Détection_d'anomalies

Librairie Great Expectations : https://greatexpectations.io/

Offre Trifacta : https://www.trifacta.com/



[1] https://www.snorkel.org/

De solides connaissances en analyse de données et conception de modèles issus du Machine Learning sont requises pour ce stage. Une preuve de concept étant à développer à l’issue de ce stage, la maîtrise d’un langage de programmation, – idéalement Python – est également demandée. Une connaissance des techniques de développement au sein d’un milieu DevOps (versioning avec Git, gestion de conteneurs, création d’image Docker, intégration continue, …) sera en outre valorisée.

Le profil idéal est rigoureux, organisé, créatif techniquement, et capable d’autonomie.

Modalités

Le/la stagiaire sera encadré(e) tout à long du stage sur l’ensemble des aspects techniques (phases d’analyse, de conception et de développement).

La durée prévue du stage est de 6 mois, il se déroulera en intégralité dans les locaux de Trimane Sud-Ouest à Ramonville-St-Agne (31). La date de début du stage est prévue courant Avril 2020. Il s’agit d’un stage de pré-embauche rémunéré.

Contact

CV détaillé et lettre de motivation à transmettre par mail.

Les candidatures doivent être adressées à liengie.nal@ trimane.fr

Conditions requises

Data Science Big Data

Numéro de référence

STADTDS21TRI

Offres similaires

Recevoir des offres similaires

Merci Vous allez recevoir des offres à l'adresse email