Type de contrat : CDD
Niveau de diplôme exigé : Bac + 5 ou équivalent
Fonction : Doctorant
Niveau d'expérience souhaité : Jeune diplômé
A propos du centre ou de la direction fonctionnelle
Le centre Inria de l'Université de Rennes est l'un des neuf centres d’Inria et compte plus d'une trentaine d’équipes de recherche. Le centre Inria est un acteur majeur et reconnu dans le domaine des sciences numériques. Il est au cœur d'un riche écosystème de R&D et d’innovation : PME fortement innovantes, grands groupes industriels, pôles de compétitivité, acteurs de la recherche et de l’enseignement supérieur, laboratoires d'excellence, institut de recherche technologique.
Contexte et atouts du poste
Les données génomiques permettent des avancées cruciales en médecine, écologie, surveillance des océans et agronomie. Une limitation majeure est qu'il est impossible de consulter l'intégralité de ces données (pétaoctets de séquences).
Le projet Omic Finder (https://project.inria.fr/omicfinder/) fournira un moteur de recherche capable de lever cette contrainte. L'idée algorithmique centrale d'un moteur de recherche génomique est d'indexer et d'interroger de petits mots exacts (des centaines de milliards sur des millions de jeux de données), ainsi que les métadonnées associées. Le projet rassemble des équipes d'Inria spécialisées en algorithmique sur les chaînes, ontologies, architectures informatiques et les données distribuées. Elles apporteront des avancées algorithmiques, notamment en termes de frugalité computationnelle, de distributions d'index astucieuses, et de filtrage intelligent basé sur les ontologies des questions et réponses.
L'idée centrale d'Omic Finder est de construire un index de petits mots exacts présents dans des millions de jeux de données, afin qu'une requête basée sur cet index renvoie la liste des jeux de données contenant (au moins) une séquence comportant ce mot. Cela correspond à l'aspect syntaxique de la résolution des requêtes. Cette thèse de doctorat se concentre sur la création et l'exploitation d'une couche sémantique supplémentaire basée sur les métadonnées décrivant les jeux de données.
Mission confiée
La thèse portera sur :
des Requêtes intelligentes : Tout d'abord, cela permettra aux utilisateurs de spécifier des critères de pertinence a priori qui réduiront le bruit et amélioreront les performances. Par exemple, cela permettra à un utilisateur de spécifier qu'il s'intéresse au microbiome intestinal humain, de sorte que les jeux de données contenant des séquences correspondant au mot, mais obtenus lors d'une expédition océanique Tara, puissent être ignorés. Encore mieux, Omic Finder n'orientera même pas cette requête vers le dépôt Tara, évitant ainsi des calculs inutiles. Notez que nous souhaitons prendre en charge plusieurs niveaux de granularité afin de se concentrer sur le microbiome intestinal des mammifères, ou plus spécifiquement sur le microbiome intestinal des mammifères omnivores.
des Réponses intelligentes : Ensuite, cela permettra au moteur de requêtes d'Omic Finder de fournir une caractérisation a posteriori des jeux de données, similaire aux analyses d'enrichissement classiques. Par exemple, on pourrait comparer les fréquences des annotations dans les jeux de données retournés par la requête avec les fréquences des mêmes annotations dans l'ensemble des jeux de données, ou parmi les jeux de données qui correspondent aux critères sémantiques. Par exemple, on pourrait découvrir que les jeux de données retournés par une requête sur un mot particulier dans les jeux de données liés au microbiome intestinal humain sont enrichis en maladies liées au foie par rapport aux jeux de données liés au microbiome intestinal humain en général.
Principales activités
Les contributions de cette thèse porteront sur :
- la création d'un index sémantique des jeux de données. Cela nécessitera de récupérer les métadonnées des principaux dépôts de jeux de données et de les représenter dans un schéma unifié, basé sur des technologies du Web sémantique telles que RDF, RDFS+OWL et bioschemas.
- La comparaison du compromis entre un stockage centralisé et décentralisé des annotations sémantiques en termes de simplicité de mise en œuvre, d'impact sur les performances et de scalabilité.
- la capacité des utilisateurs à exprimer des requêtes sémantiquement riches. Cela reposera sur SPARQL pour représenter les requêtes, mais nécessitera une interface utilisateur adéquate.
- la capacité à décrire et caractériser les résultats des requêtes.
Compétences
Compétences techniques et niveau requis : Programmation (Python ou Java)
Langues : Français ou Anglais
Compétences additionnelles appréciées : Semantic Web
Avantages
- Restauration subventionnée
- Transports publics remboursés partiellement
- Possibilité de télétravail à hauteur de 90 jours annuels
- Prise en charge partielle du coût de la mutuelle
Rémunération
Salaire mensuel brut de 2 100 € les deux premières années et 2 190 € la troisième