Auteur : Pawinee BOONYASOPON
Directeur de thèse : Serge TICHKIEWITCH
codirigée par : Andréas RIEL
Date : 21 Décembre 2011
Directeur de thèse : Serge TICHKIEWITCH
codirigée par : Andréas RIEL
Date : 21 Décembre 2011
Extraction de connaissances à partir de documents de recherche pour l'amélioration de leurs citations et impacts
"La cible est de proposer une approche systématique pour appliquer des outils et des techniques d'exploitation des textes connus et édités sous forme électronique afin de faciliter la tâche de création d'une bonne bibliographie pour des travaux de recherche, en mettant un accent particulier sur des citations cross-disciplinaires.
Il est clairement souligné que la création de nouveaux algorithmes d'exploitation des textes est en dehors du champ de cette thèse, mais que le caractère innovateur se situe ici dans l'application des approches existantes à une problématiques spécifique, et de sa démonstration dans un domaine de recherche particulier. Cependant, le système proposé, ses fonctions, et les algorithmes proposés sont suffisamment génériques pour être appliqués à n'importe quel autre champ de recherche.
La méthodologie et les outils proposés dans cette thèse permettent de proposer une approche systématique pour appliquer des outils et des techniques d'exploitation de textes pour fournir les ""bonnes"" bibliographie, c;-à-d., avec des références à la littérature qui est appropriée à un papier proposé dit 'de référence'
Le corpus initial de documents utilisé est la collection des 1500 papiers publiés ces 10 dernières années dans les 'CIRP Annals' (Elsevier). La comparaison se fait sur une analyse des mots extraits des textes complets et non sur de simples mots clés. La principale utilité de ce travail est donc de pouvoir extraire une bibliographie très cohérentes au contenu d'un papier soumis, intégrant la transdisciplinarité, et facilitant l'innovation par transfert de connaissance d'un domaine à un autre. Faciliter la diffusion rapide des documents récents peut aussi permettre l'accroissement de la notoriété d'un journél par l'augmentation de son facteur d'impact, et pour un éditeur de sélectionner plus facilement des 'reviewers' expérimentés."
Il est clairement souligné que la création de nouveaux algorithmes d'exploitation des textes est en dehors du champ de cette thèse, mais que le caractère innovateur se situe ici dans l'application des approches existantes à une problématiques spécifique, et de sa démonstration dans un domaine de recherche particulier. Cependant, le système proposé, ses fonctions, et les algorithmes proposés sont suffisamment génériques pour être appliqués à n'importe quel autre champ de recherche.
La méthodologie et les outils proposés dans cette thèse permettent de proposer une approche systématique pour appliquer des outils et des techniques d'exploitation de textes pour fournir les ""bonnes"" bibliographie, c;-à-d., avec des références à la littérature qui est appropriée à un papier proposé dit 'de référence'
Le corpus initial de documents utilisé est la collection des 1500 papiers publiés ces 10 dernières années dans les 'CIRP Annals' (Elsevier). La comparaison se fait sur une analyse des mots extraits des textes complets et non sur de simples mots clés. La principale utilité de ce travail est donc de pouvoir extraire une bibliographie très cohérentes au contenu d'un papier soumis, intégrant la transdisciplinarité, et facilitant l'innovation par transfert de connaissance d'un domaine à un autre. Faciliter la diffusion rapide des documents récents peut aussi permettre l'accroissement de la notoriété d'un journél par l'augmentation de son facteur d'impact, et pour un éditeur de sélectionner plus facilement des 'reviewers' expérimentés."