TOP1
TOP2
TOP3
Nous sommes Le 23 - 02 - 2012
Untitled Document
Rubrique actualités
Rubrique présentation
Rubrique Pôles de recherche
Rubrique Membres
Rubrique Formations doctorales
Rubrique Publications
Rubrique Coopérations
Rubrique manifestations
Rubrique contact
 
 
 
Pôles de recherche / Pôle Génie Linguistique
 
Axes de recherche
 
• Traitement de la parole
• Traitement de la langue
• Construction de dictionnaires
 
Les projets de recherche
 
Oreillodule (traitement de la parole)
 
  Présentation du projet
  Le projet est de type précompétitif avec des objectifs industriels. Il s'agit de s'attaquer à plusieurs types de disciplines en informatique (matériel et logiciel), linguistique, .... De petites réalisations sous forme de modules logistiques existent soit au sein de laboratoires de recherches soit sur le marché, donc le premier pas sera de réunir les différentes technologies et moyens existant en vue d'une standardisation et d'une familiarisation avec les systèmes embarqués. Au terme du projet le flot sera disponible pour créer une solution totalement intégrée. Cette opération nécessitera les résultats de recherches avancées venant des équipes de recherches de RIADI, TIMA, CLIPS et INSERM, ainsi qu'autres équipes s'intéressant au projet, en plus des technologies de pointe, qui se trouvent actuellement chez les industriels.
   
  Travaux réalisés
  Dans le cadre de ce projet, la thèse de Tahar SAÏDANE a permis de à construire un solide prototype de conversion graphèmes - phonèmes de la langue arabe. Ce prototype Fait l'objet d'une thèse finalisée et déposée en décembre 2004 intitulée : « Contribution à la synthèse automatique de la parole arabe »
   
  Publications dans le cadre de ce projet
   
 

Les travaux réalisés dans le cadre de ce projet sont résumés dans les publications suivantes :

1. SAÏDANE T., ZRIGUI M., BEN AHMED M.; Modèle Hybride de synthèse de la parole Arabe ; SETIT'2003, Sousse, 15- 20 Mars 2003.

2. Tahar SAÏDANE, Mounir ZRIGUI, Mohamed BEN AHMED, La transcription orthographique - phonétique de la langue arabe , RECITAL'2004, Fès, Maroc,
19-22 avril 2004.

3. Tahar SAÏDANE, Mounir ZRIGUI, Mohamed BEN AHMED, Réalisation d'un système hybride de synthèse de la parole arabe utilisant un dictionnaire de polyphones , TALN'2004, Fès, Maroc, 19-21 avril 2004.

4. Tahar SAÏDANE, Mounir ZRIGUI, Mohamed BEN AHMED, Un système de synthèse de la parole arabe par concaténation de polyphèmes: résultats d'un lissage linéaire . International Conférence : Sciences of Electronic, Technologies of Information and Telecommunications , SETIT 2005, Sousse, Tunisie, 27-31 Mars 2005.

5. T. SAÏDANE, M. ZRIGUI, M. BEN AHMED, Synthèse de la parole arabe par concaténation de polyphèmes : résultats , AI05, Eighteenth Canadian Conférence on Artificial Intelligence, 2005.

Le système développé par Monsieur SAÏDANE a de belles perspectives d'utilisation au-delà du projet originel. Malheureusement il ne pourra pas être breveté car tous les résultats originaux (syllabation, lissage, ...) ont été publiés dans des congrès internationaux

Par ailleurs. Monsieur Med Khairallah KHOUJA a entamé ses recherches dans le cadre d'une thèse intitulée : « Contribution à la reconnaissance de la parole arabe ». Il a récemment communiqué ses premiers résultats :

Mohamed Khairallah KHOUJA, Mounir ZRIGUI et Mohamed BEN AHMED, Etude acoustique de la durée de la gemmation pour la parole arabe . International Conférence : Sciences of Electronic, Technologies of Information and Télécommunications, SETIT 2005, Sousse, Tunisie, 27-31 Mars 2005.

   
  Membre du labo participant dans ce projet
 


Responsables :

Prof. Mohamed Ben Ahmed
Mr mounir Zrigui

Étudiant chercheur:
Mr Mohamed Khairallah KHOUJA

   
Outils logiciels pour le traitement de l'arabe écrit
 
  Présentation du projet
 


Ce projet comprend trois volets :

•  La construction d'Outils pour l'analyse syntaxique
•  La construction d'Outils d'acquisition de Connaissances
•  La construction d'Outils de génération de dictionnaires électroniques

   
  Travaux réalisés
 

Dans le cadre de ce projet, les outils suivants on été développés :

• Un outil de détection-correction des erreurs cachées (erreurs orthographiques produisant des mots lexicalement corrects)

La chance de tomber sur un mot correct quand on commet une erreur sur un mot donné serait
plus grande que pour un mot français ou anglais. C'est le cas lorsque, par exemple, au lieu de
taper au clavier le mot " ??? ", l'on tape le mot " ??? ". Le traitement de ces erreurs ne peut pas
se faire par le biais des correcteurs orthographiques classiques (dont le rôle est de détecter et
de corriger les mots qui n'appartiennent pas au dictionnaire de la langue), il nécessiterait a priori l'utilisation d'informations contextuelles syntaxiques voire même sémantiques.

Exemples :
erreur syntaxique:
??? ?????? ?????( ????? )

erreur sémantique :
??? ?????? ??? (???? ) ?????

Cet outil a été partiellement réalisé dans le cadre du Mémoire de Mastère de Melle Fériel RFNFRAT:

Fériel BEN FRAJ : Un système multi-agent pour la détection et la correction des erreurs cachées de la langue Arabe, Mastère, ENSI, 9 octobre 2004 (Mention Très Bien).

Ce travail a fait l'objet d'une communication à la deuxième conférence LT &C:

F. BEN FRAJ, C. BEN OTHMANE ZRJBI, M. BEN AHMED, "A Multi-Agent System for Detecting and Correcting 'Hidden' Spelling Errors in Arabie Texts", 2nd Language & Technology Conférence: Human Language Technologies as a Challenge for Computer Science and Linguistics, April 21-23, 2005, Poznan, Poland.

• Un Extracteur des collocations

Une collocation est un groupe de mots ayant une affinité de sens et dont l'opacité 4 n'est pas
nécessairement totale.

II s'agit pour nous d'extraire automatiquement des collocations à partir de textes arabes pour les inclure dans un dictionnaire destiné à être utilisé par des applications de TALN. Un tel dictionnaire pourra être très utile par exemple à l'étiquetage sémantique de corpus (ou la désambiguïsation sémantique) qui est un enjeu important pour la plupart des applications de TALN telles que : la recherche d'information, la traduction, la ré-accentuation, la levée d'ambiguïté.

Le travail de Mastère de Melle Inès MLAYEH a visé de l'extraction des collocations à partir de corpus textuels arabes. Il a fait l'objet d'un mémoire de Mastère soutenu en 2004: "Extraction de collocations à partir de corpus textuels en langue arabe"

• Un étiqueteur grammatical

Une extension à ce travail consiste à étendre l'extracteur à un cadre bilingue. Notre objectif final étant aussi bien la construction d'un dictionnaire de collocations arabes que la construction de dictionnaires bilingues : anglais-arabe et français-arabe. Ces derniers seront incontestablement très utiles pour une application de traduction assistée par ordinateur car les collocations ne peuvent pas être toujours traduites mot à mot. Un étiqueteur grammatical spécifique à la langue arabe a été développé. Ceci a fait l'objet du mastère de Melle Aroua TORJEMAN soutenu fin 2005. Le protocole expérimental qui a été adopté, à cette fin est le suivant :

1. Amélioration du jeu d'étiquettes

L'étiquette grammaticale doit refléter le comportement syntaxique d'un mot. Si deux mots possèdent la même catégorie grammaticale, leur comportement distributionnel doit être le même. Le jeu d'étiquettes (tag set) dépend beaucoup de l'application et de la précision requise (50 à 400 étiquettes pour les langues européennes).

2. Étiquetage semi-automatique d'un corpus d'apprentissage

On doit généralement disposer d'un corpus déjà étiqueté manuellement qui servira à l'apprentissage. Pour ce faire, il faudra penser à développer un outil d'aide à l'étiquetage. Cet outil devrait être en mesure de s'améliorer par un processus d'apprentissage.

3. Adaptation d'étiqueteurs disponibles

Vu le foisonnement des méthodes d'étiquetage et leur efficacité, l'idée est de choisir un étiqueteur (statistique, à base de règles ou hybride) dont le code source est disponible et ayant une bonne précision.

4. Étiquetage des mots inconnus

Les mots inconnus (les néologismes par exemple) par l'analyseur morphologique et n'ayant pas de catégories grammaticales potentielles, peuvent être étiquetés en utilisant quelques heuristiques. Pour cela, il faudrait prévoir un système pour analyser ces mots inconnus et leur attribuer une catégorie grammaticale et ce, en se basant par exemple sur leur structure morphologique (préfixes, suffixes, flexions)

5. Test de l'étiqueteur

L'étape de test consiste à évaluer le taux de bon étiquetage sur un corpus de test qui doit être différent du corpus d'apprentissage. Ce corpus, doit être étiqueté manuellement pour pouvoir valider et évaluer l'étiquetage automatique.

6. Extraction d'un lexique

Finalement, on pensera à extraire un lexique à partir du corpus d'apprentissage. L'idée est qu'un tel lexique pourrait dans une certaine mesure, remplacer le dictionnaire et diminuer ainsi le taux d'ambiguïté grammaticale initial.

   
  Membres du laboratoire contribuant dans ce projet
 


Responsables :
Pr. Mohamed BEN AHMED
Dr. Chiraz BEN OTHMANE ZRIBI

Etudiants chercheurs :
Inès MLAYEH
Fériel BEN FREJ
Aroua TORJEMAN
Hanène AYARI ,

   
Construction de dictionnaires
 
  Présentation du projet
  Dans ce projet, il y a deux volets : l'un dirigé par Dr. Chiraz ZRIBI qui consiste à développer et étendre ce qu'elle a réalisé au cours de sa thèse soutenue en 1998 et le second pour le projet portail arabe de Connaissances et dirigé par Dr. Mounir ZRIGUI qui consiste à générer un dictionnaire général (( ?????? ???? ??????? et trois dictionnaires thématiques de terminologies trilingues relatives aux mathématiques, à l'informatique et à l'espace.
   
  Objectifs du projet
 

Les objectifs principaux de ce objectifs consistent en la :

•  construction d'un Dictionnaire Général de Langue Arabe : Il s'agit pour nous de poursuivre ce que nous avons entamé dans le cadre des travaux de thèse de Ben Othmane Zribi, à savoir la construction d'un dictionnaire général pour la langue arabe orienté vers les applications classiques de TALN.

•  construction de dictionnaires Généraux et Thématiques : Les linguistes ont poussé l'idée de la génération de lexique à partir des conditions de structures morphématiques (CSM). Cette idée est à la base du travail réalisé au sein du laboratoire RIADI qui a conçu et développé un système de génération automatique de dictionnaires arabes, en se basant sur les CSM et les matrices lexicales (ML), leurs structures et leurs modes d'accès.

   
  Travaux réalisés
  Les travaux réalisés dans le cadre de ce projet se résument comme suit :
   
 

- Dictionnaire Général de Langue Arabe

Dans le cadre de construction d'un dictionnaire général de la langue arabe, le dictionnaire que nous avons construit, compte environ 600 000 formes fléchies arabes. Au compte de chaque forme on trouve plusieurs informations linguistiques la concernant dont la voyellation, la catégorie grammaticale, le lemme, etc. Le nombre de formes voyellées s'élève à plus de 1 600 000 entrées. Ce dictionnaire a été construit par le moyen d'une chaîne de génération semi-automatique, comportant des procédures automatiques et d'autres manuelles. Ces dernières permettent par l'utilisation d'outils logiciels "intelligents" d'introduire, de vérifier voire même de corriger les données linguistiques collectées.

- Dictionnaires Généraux et Thématiques

Le système développé est composé de deux fonctions qui sont :

1. la génération de cinq dictionnaires,
2. la consultation de dictionnaires

Les cinq dictionnaires de racines trilitères quadrilitères arabes générés automatiquement sont définis comme suit :

• Le premier dictionnaire est théorique (21952 racines = (28x 103). Il contient toutes les racines trilitères théoriqument possibles de la langue arabe standard.
• Le deuxième dictionnaire (20415 racines) contient des racines trilitères admissibles. C'est-à- dire les racines qui n'enfreignent aucune des CSM.
• Le troisième dictionnaire (783 6) : c'est le dictionnaire des racines trilitères attestées ; c'est-à- dire utilisées dans la langue arabe et qui sont tirées des tableaux de répartitions construits à partir du grand dictionnaire ( ?????? ???? ???????)
• Le quatrième dictionnaire (13023 racines): c'est le dictionnaire des racines admissibles par la langue arabe mais non attestées. Ces racines peuvent être utilisées pour enrichir la langue arabe par d'autres mots nouveaux.
• Le cinquième dictionnaire (4000 racines) : c'est le dictionnaire des racines quadrilitères attestées ; qui ont été tirées des matrices lexicales quadrilitères.

Certaines racines trîlitères attestées qui n'obéissent pas à une ou plusieurs CSM : nous avons créé un sixième dictionnaire ( 203 racines) qui regroupe ces racines, avec pour chacune, l'affichage de la CSM qui n'est pas vérifiée. Exemple : la racine est attestée mais ne vérifie pas la condition

   
  Publications dans ce projet
 

Ahmed HADDAD, Mounir ZRIGUI, Mohamed BEN AHMED, Un syst&egranération des dictionnaires,
2 la consultation des dictionnaires

Le .système a permis la génération automatique de cinq dictionnaires de racines trilitères quadrilitères arabes :

• Le premier dictionnaire est théorique (21952 racines = (28x 103). Il contient toutes les racines trilitères théoriqument possibles de la langue arabe standard.
• Le deuxième dictionnaire (20415 racines) contient des racines trilitères admissibles. C'est-à- dire les racines qui n'enfreignent aucune des CSM.
• Le troisième dictionnaire (783 6) : c'est le dictionnaire des racines trilitères attestées ; c'est-à- dire utilisées dans la langue arabe et qui sont tirées des tableaux de répartitions construits à partir du grand dictionnaire ((الصحاح لأبن الجوهري
• Le quatrième dictionnaire (13023 racines): c'est le dictionnaire des racines admissibles par la langue arabe mais non attestées. Ces racines peuvent être utilisées pour enrichir la langue arabe par d'autres mots nouveaux.
• Le cinquième dictionnaire (4000 racines) : c'est le dictionnaire des racines quadrilitères attestées ; qui ont été tirées des matrices lexicales quadrilitères.

Certaines racines trîlitères attestées qui n'obéissent pas à une ou plusieurs CSM : nous avons créé un sixième dictionnaire ( 203 racines) qui regroupe ces racines, avec pour chacune, l'affichage de la CSM qui n'est pas vérifiée. Exemple : la racine est attestée mais ne vérifie pas la condition

Ce second volet a fait l'objet d'un Mastère réalisé par Monsieur Ahmed HADDAD et soutenu le 2 3 Octobre 2004:

Ahmed HADDAD : Un système de génération automatique de dictionnaires linguistiques et thématiques de l'Arabe, Mastère, ENSI. 23 octobre 2004 \cf1 Mention Bien),

Comme il a fait l'objet d'une communication :

Ahmed HADDAD, Mounir ZRIGUI, Mohamed BEN AHMED, Un système de génération automatique de dictionnaires linguistiques de l'arabe. Conférence TALN 2005. Dourdan (France). 6-10 juin 2005.

   

 

Untitled Document
       
 
 
27 / 11 / 2007