Communiqué

langues européennes et asiatiques : l'Université de Neuchâtel championne des moteurs de recherche

Neuchâtel, le 4 octobre 2007. L'Institut d'informatique de l'Université de Neuchâtel s'est distingué en matière de programmation d'ordinateur pour le traitement automatique de nombreuses langues européennes et asiatiques. C'est ainsi qu'il a obtenu  la première place  lors d'un concours international visant la mise sur pied d'un moteur de recherche dans les langues hongroise, bulgare, thèque, ainsi que dans le dépistage d'articles scientifiques écrits en russe et la seconde place pour le dépistages d'articles scientifiques écrits en allemand et dans le traitement automatique des langues japonaise, chinoise et coréenne.

L'équipe de recherche dirigée par le professeur Jacques Savoy de l'Institut d'informatique s'est distinguée lors de deux campagnes d'évaluation regroupant de nombreuses équipes mondiales de chercheurs dans le domaine de la recherche d'informations. Le thème central de ces travaux était de programmer les ordinateurs afin qu'ils soient capables de retrouver les documents correspondant aux souhaits des usagers.

Langues européennes

Une équipe de recherche composée du professeur Jacques Savoy, Ljiljiana Dolamic et Claire Fautsch, a obtenu d'excellents résultats dans la mise au point d'un moteur de recherche lors de la dernière campagne d'évaluation CLEF 2007 (Cross Language Evaluation Forum, de janvier à septembre 2007 ; meeting final 19-21 septembre 2007, voir http://www.clef-campaign.org/ ). 

Cette conférence est la huitième d'une série organisée depuis 2000 et qui est destiné à promouvoir le traitement par ordinateur des langues européennes, traitement qui peut comprendre, par exemple, les correcteurs orthographiques ou les dictionnaires bilingues ou multilingues.  Dans le cas particulier, il s'agissait de mettre au point un moteur de recherche capable d'offrir de bonnes performances dans des langues européennes moins connues.  Les participants devaient donc programmer les ordinateurs afin qu'ils soient capables de retrouver les documents correspondant aux souhaits des usagers.   Ces conférences ou campagnes d'évaluation regroupent les principales équipes mondiales de chercheurs dans le domaine et poursuivent essentiellement quatre objectifs, à savoir:

1. encourager la recherche d'informations dans des volumes considérables de données;
2. augmenter la communication entre universités, industries et gouvernements;
3. accélérer le transfert technologique entre les centres de recherche et les industriels en traitant des corpus de données réelles;
4. accroître les mesures d'efficacité et le développement de nouvelles techniques d'évaluation adaptées aux cas concrets.

 Pour ce qui concerne le volet européen, les équipes participantes reçoivent des collections de documents, essentiellement composées d'articles de journaux ou des résumés d'articles scientifiques.   Cette année, les articles de presse provenaient de la Hongrie, Bulgarie et Tchéquie tandis que les résumés d'articles scientifiques étaient rédigés en allemand et en russe.  Pour chaque langue, les diverses équipes avaient entre 50'000 à 200'000 documents qui ont été analysés par l'ordinateur.  Le 1er mai, les organisateurs ont envoyé aux participants une liste de cinquante requêtes.   Ces dernières décrivent un besoin d'information assez précis comme, par exemple, "Attentat à la voiture piégée à Bali", "Les festivals de bière", "records de natation" ou "le prince Harry et la drogue".  Un mois plus tard, chaque équipe devait retourner une liste d'articles répondant aux requêtes reçues.   Ces listes de documents sont établies de manière automatique selon le système de dépistage de chaque équipe. 

Sur la base des réponses des divers participants, les organisateurs peuvent déterminer les bonnes réponses (les documents contenant les informations pertinentes) pour chaque requête.   Dès lors on peut connaître la performance des diverses équipes et, ce qui est plus intéressant, les techniques utilisées pour chacune des langues, celles qui fonctionnent bien ou celles qui donnent des résultats peu satisfaisants.  Cette année, l'équipe de l'Université de Neuchâtel a participé avec son moteur de recherche d'information pour le dépistage d'information dans les langues hongroise, bulgare, thèque, ainsi que dans le dépistage d'articles scientifiques écrits en russe et allemand.  L'équipe neuchâteloise a occupé la première place pour toutes les langues sauf pour la langue allemande où elle a été devancée par une équipe de Xerox Research (Grenoble). 

Sur ces thématiques, on a rencontré une vingtaine équipes provenant de 22 pays différents.  La participation à ce congrès n'est pas limitée aux centres de recherche universitaires, les industriels sont également invités à présenter leurs résultats.  Ainsi, si l'on rencontre des firmes et plusieurs PME possédant un excellent savoir-faire et une technologie de pointe dans le domaine sont aussi représentées.  La mise sur pied d'une telle conférence reflète l'importance croissante attachée à la résolution de problèmes concrets soit, dans le cas présent, la recherche dans un d'un nombre considérable de documents sur support électronique dans diverses langues d'une part et, d'autre part, la possibilité de faire des recherche documentaire dans plusieurs langues (c'est-à-dire en écrivant sa demande d'information dans une langue et en recevant des documents écrits dans plusieurs langues).  

Les langues de l'Europe de l'Est présentent des difficultés particulières pour le traitement informatique.  Dans le groupe des langues slaves, le tchèque n'utilise pas l'alphabet cyrillique.  Le bulgare, contrairement aux deux autres, ne possèdent pas de cas grammaticaux.   De telles flexions se rencontrent  également en allemand ou en latin.  Ainsi, si un nom est sujet ou complément dans une phrase, il possèdera un suffixe distinct.  Pour le hongrois, le traitement devient plus complexe car son vocabulaire s'éloigne du notre.  En effet, cette langue ne fait pas parti des langues indo-européennes.  Au niveau du traitement informatique, elle possède un nombre important de flexions différentes (18) et autorise la création de mots-composés (comme, par exemple, porteclé ou millefeuille), procédés linguistiques rendant le dépistage automatique des documents pertinents plus difficile. 

Ces recherches et résultats démontrant le savoir-faire de l'Université de Neuchâtel, ont été possibles grâce au soutien du Fonds National Suisse pour la Recherche Scientifique.

Le rapport de synthèse sur ce volet de la campagne d'évaluation est disponible à l'adresse http://clef.iei.pi.cnr.it/2007/working_notes/dinunzioCLEF2007.pdf

Langues japonaise, chinoise et coréenne

Une équipe de recherche, composée du professeur Jacques Savoy et de Samir Abdou, a obtenu d'excellents résultats dans la mise au point d'un moteur de recherche lors de la dernière campagne d'évaluation NTCIR 6 (durée de la campagne, 18 mois de janvier 2006 à juin 2007 ; meeting final 15-18 mai 2007, voir http://research.nii.ac.jp/ntcir/ ). 

Cette conférence est la sixième d'une série organisée depuis 1999 par le NII (National Institute of Informatics, Tokyo).  Ces conférences ou campagnes d'évaluation regroupe les principales équipes mondiales de chercheurs dans le domaine de la recherche d'informations et, en particulier,  Le thème central de ces travaux est de programmer les ordinateurs afin qu'ils soient capables de retrouver les documents correspondant aux souhaits des usagers.

Ces campagnes d'évaluation poursuivent  également quatre objectifs, à savoir:

1. encourager la recherche d'informations dans des volumes considérables de données;
2. augmenter la communication entre universités, industries et gouvernements;
3. accélérer le transfert technologique entre les centres de recherche et les industriels en traitant des corpus de données réelles;
4. accroître les mesures d'efficacité et le développement de nouvelles techniques d'évaluation adaptées aux cas concrets.

Le NII distribue aux équipes participantes différentes collections de documents, essentiellement composées d'articles de journaux provenant du Japon, de Taiwan, Hong Kong ou de Corée du Sud.  L'ensemble de ces corpus représentant 4 GB de textes (ou plus de 2 millions de documents) est alors analysé par l'ordinateur.  Le 1er juillet 2006, le NII a envoyé aux participants une liste de cinquante requêtes.  Ces dernières décrivent un besoin d'information assez précis comme, par exemple, "Incidents internationaux en mer", "Visite du premier ministre du Japon Keizo Obuchi au Etats-Unis" ou "cellule souche".  Un mois plus tard, chaque équipe devait retourner une liste d'articles répondant aux requêtes reçues.  Ces listes de documents sont établies de manière automatique selon le système de dépistage de chaque équipe. 

Le NII évalue la réponse de chaque participant et lors du congrès scientifique, les résultats sont présentés (15-18 mai 2007).  Lors de ce dernier congrès, l'équipe de Neuchâtel a participé avec son moteur de recherche d'information pour le dépistage d'information dans les langues japonaise, chinoise, et coréenne.  Dans ce contexte, l'équipe neuchâteloise a occupé dans ces diverses évaluations soit la première soit la deuxième place, démontrant son savoir-faire dans ce domaine. 

(Le rapport de synthèse sur ce volet de la campagne d'évaluation est disponible sur Internet à l'adresse
http://research.nii.ac.jp/ntcir/workshop/OnlineProceedings6/NTCIR/79.pdf)

Sur ces thématiques, on a rencontré 20 équipes provenant de 10 pays différents (Japon, Taiwan, Etats-Unis, Australie, Chine, Corée du Sud, Canada, Royaume-Uni, Singapore et Suisse).  La participation à ce congrès n'est pas limitée aux centres de recherche universitaires, les industriels sont également invités à présenter leurs résultats.  Ainsi, si l'on rencontre des firmes et plusieurs PME possédant un excellent savoir-faire et une technologie de pointe dans le domaine sont aussi représentées.  La mise sur pied d'une telle conférence reflète l'importance croissante attachée à la résolution de problèmes concrets soit, dans le cas présent, la recherche dans un d'un nombre considérable de documents sur support électronique dans diverses langues asiatiques d'une part et, d'autre part, la possibilité de faire des recherche documentaire dans plusieurs langues (c'est-à-dire en écrivant sa demande d'information dans une langue et en recevant des documents écrits dans plusieurs langues).  

L'intérêt pour les langues asiatiques est évident sur Internet ou dans le monde des affaires.  Cependant, ces langues soulèvent une série de défis particuliers aux informaticiens en vue de leur traitement automatique par ordinateur.  En premier lieu, signalons que dans une phrase en chinois ou japonais, les mots ne sont pas explicitement délimités par des espaces.  Dès lors, trouver les mots n'est pas une tâche aisée.  Deuxièmement, notre alphabet (et ses 26 lettres) n'a pas sa place car ces deux langues s'écrivent à l'aide idéogrammes, signes parfois complexes qui résument une idée et souvent forment un mot.  Ainsi, on rencontre environ 13 500  signes dans le chinois traditionnel (Taiwan, Hong Kong) ou 7 700 dans le chinois simplifié (chine continentale).  Avec le japonais, on ajoute deux syllabaires utilisés pour écrire des mots d'origine étrangère (comme ordinateur), les noms propres ainsi que les suffixes grammaticaux.  Pour le coréen, un peu comme l'allemand, la difficulté réside dans le grand nombre de possibilités de construire des mots composés.  Ainsi, le terme « système de recherche d'information »peut s'écrire en un seul mot, en deux mots ou en trois parties.  Mais si la requête présente une forme, il faut être capable de dépister les documents écrivant ce même concept sous plusieurs formes possibles. 

Ces recherches et résultats démontrant le savoir-faire de l'Université de Neuchâtel, ont été possibles grâce au soutien du Fonds National Suisse pour la Recherche Scientifique.

Contact

professeur Jacques Savoy
Tél. : 032 718 1375
jacques.savoy@unine.ch