Gestionnaire de données / Ingénieur logiciel (H/F)

Les missions du poste

L'équipe travaille sur de grands ensembles de données (actuellement ~5T, et on estime qu'ils vont doubler), qui sont de très longs enregistrements audio (d'environ 16 heures chacun) et des métadonnées. Les enregistrements sont recueillis grâce à des appareils que les enfants portent, dans leur environnement habituel, pour des journées entières. Ces enregistrements captent une grande diversité de sons: les vocalisations des enfants (pleurs, rires, babillages, conversations) et celles des adultes qui les entourent mais aussi une grande quantité de bruits. Nous disposons de données pour plus de 1 000 enfants dans leurs familles, apprenant une ou plusieurs de plus de 15 langues, et grandissant sur les 5 continents. Nous ré-utilisons également d'autres jeux de données tels que CHILDES (childes.talkbank.org) et des corpus de transcription + audio multilingues (par exemple, la bible).
Les principales missions du candidat retenu seront de collaborer à la création d'un code robuste et bien documenté pour réaliser les tâches suivantes de manière transparente et reproductible : 1) nettoyer les ensembles de données de parole(+texte), assurer leur protection et sauvegarde, et les convertir dans notre format de prédilection (ChildProject https://childproject.readthedocs.io/en/latest/) ; 2) en utilisant notre structure préférée d'imbrication avec datalad (https://handbook.datalad.org/en/latest/basics/101-106-nesting.html), réaliser des expériences de modélisation reliant le texte à l'audio (par exemple, calculer l'entropie sur la base d'analyses n-gram de transcriptions de la parole dans un audio donné et les comparer aux caractéristiques de wav2vec ou similaires sur l'audio).
Le candidat retenu rejoindra une équipe comprenant notamment un gestionnaire de données/ingénieur logiciel, qui est chargé d'organiser les différents ensembles de données sur le cluster et sur des dépôts scientifiques (avec bash/python ; exemple de dépôt : https://gin.g-node.org/) et de maintenir un outil d'organisation des données open-source sur github (https://childproject.readthedocs.io/en/latest/) ; ainsi qu'un ingénieur en apprentissage automatique, qui est chargé du développement des outils ML. L'équipe est fortement collaborative, il est donc important d'avoir des compétences en communication et d'être ouvert à la discussion avec d'autres personnes (étudiants, chercheurs postdoctoraux, etc.), tant pour donner que pour recevoir des commentaires constructifs.
Il existe de nombreuses possibilités d'élargir les compétences (par exemple, l'utilisation avancée de github, le versioning, la création de conteneurs comme docker, la gestion, la rédaction, etc. Il y aura également quelques opportunités de contribuer à la rédaction d'articles scientifiques, bien que cela ne soit pas obligatoire. Un mentorat régulier est utilisé pour aider les membres de l'équipe à clarifier leurs objectifs de carrière et à prendre des mesures pour les atteindre.
Activités
• Nettoyer et dépanner les ensembles de données (signaler les bogues/erreurs dans les annotations ou les métadonnées, et aider à les corriger), en les convertissant au format ChildProject.
• Collaborer avec des équipes de recherche à l’international pour acquérir de manière sécurisée de nouveaux datasets et fournir des analyses en retour.
• Lancer et veiller aux analyses automatiques.
• Vérifier et organiser des annotations automatiques et humaines, en les intégrant aux ensembles de données.
• Créer un code reproductible pour les analyses, en utilisant le format préféré de l'équipe (imbrication dans datalad).
• Contribuer au débogage du code créé par l'équipe, en améliorant les pratiques de codage, notamment par le biais de la révision du code.
• Interagir avec les autres membres de l'équipe qui développent du code pour l'apprentissage supervisé et non supervisé (optionnel).
• Contribuer au recrutement de stagiaires.
• Contribuer éventuellement à la rédaction d'articles scientifiques pour des revues ou des conférences.
Compétences
■ Savoirs / connaissances
- Techniques du domaine
- Génie logiciel
- Méthodes d'analyse et de conception
- Méthodes de modélisation et de développement (connaissance générale)
- Méthodes de mise en production
- Méthodologie de tests
- Architectures technique et logiciels
- Langages de programmation (connaissance approfondie)
- Systèmes de gestion de base de données
- Protocoles de communication
- Référentiel des bonnes pratiques
- Sécurité des systèmes d'information et de communication
- Compréhension et production orale et écrite de l’anglais et du français à un niveau conversationnel
■ Savoir-faire
- Effectuer une analyse de besoins
- Appliquer les techniques du domaine
- Élaborer et mettre en œuvre un plan de tests
- Packager une application
- Appliquer des normes, procédures et règles
- Appliquer les procédures d'assurance qualité
- Rédiger et mettre à jour la documentation fonctionnelle et technique
- Capacité à travailler en équipe et en réseau
■ Savoirs-être
- Sens de l’organisation indispensable
- Autonomie, sens du contact
Contexte de travail

L'objectif de notre équipe LAAC (Language Acquisition Across Cultures, voir site web) est de faire la lumière sur les mécanismes et les processus impliqués dans l'acquisition précoce du langage dans une variété de cultures et de communautés linguistiques. À cette fin, nous utilisons une approche interdisciplinaire (allant de la modélisation informatique aux expériences de laboratoire et à l'analyse avancée des données) dans le contexte d'une science ouverte, collaborative et engagée publiquement. Le candidat retenu bénéficiera d'un environnement de travail collégial et positif, avec une équipe de 10 personnes) bien intégrée dans un laboratoire interdisciplinaire plus important (~70 personnes). Le Laboratoire de Sciences Cognitives et Psycholinguistique (LSCP, voir site web) est une unité de recherche commune de l'École des Hautes Études en Sciences Sociales (EHESS), de l'École Normale Supérieure et du Centre National de la Recherche Scientifique (CNRS). Au sein du LSCP, notre équipe travaille en étroite collaboration avec l'équipe Cognitive Machine Learning (CoML) https://cognitive-ml.fr/. Veuillez noter que notre équipe travaille en anglais, la connaissance du français n'est donc pas nécessaire.
Si vous avez des questions, n'hésitez pas à nous contacter à l'adresse suivante : laac.lscp@gmail.com.

L'objectif de notre équipe LAAC (Language Acquisition Across Cultures, voir site web) est de faire la lumière sur les mécanismes et les processus impliqués dans l'acquisition précoce du langage dans une variété de cultures et de communautés linguistiques. À cette fin, nous utilisons une approche interdisciplinaire (allant de la modélisation informatique aux expériences de laboratoire et à l'analyse avancée des données) dans le contexte d'une science ouverte, collaborative et engagée publiquement. Le candidat retenu bénéficiera d'un environnement de travail collégial et positif, avec une équipe de 10 personnes) bien intégrée dans un laboratoire interdisciplinaire plus important (~70 personnes). Le Laboratoire de Sciences Cognitives et Psycholinguistique (LSCP, voir site web) est une unité de recherche commune de l'École des Hautes Études en Sciences Sociales (EHESS), de l'École Normale Supérieure et du Centre National de la Recherche Scientifique (CNRS). Au sein du LSCP, notre équipe travaille en étroite collaboration avec l'équipe Cognitive Machine Learning (CoML) https://cognitive-ml.fr/. Veuillez noter que notre équipe travaille en anglais, la connaissance du français n'est donc pas nécessaire.
Si vous avez des questions, n'hésitez pas à nous contacter à l'adresse suivante : laac.lscp@gmail.com.
Contraintes et risques

Pas de contraintes ni de risques particuliers.

Pas de contraintes ni de risques particuliers.

Lieu : Paris
Contrat : CDD
Accueil / Emploi / Emploi Paris / Emploi Ingénieur logiciel