TOP1
TOP2
TOP3
Nous sommes Le 23 - 02 - 2012
Untitled Document
Rubrique actualités
Rubrique présentation
Rubrique Pôles de recherche
Rubrique Membres
Rubrique Formations doctorales
Rubrique Publications
Rubrique Coopérations
Rubrique manifestations
Rubrique contact
 
 
 
Pôles de recherche / Pôle Génie Documentiel
 
Axes de recherche
 
• La gestion et traitement de l'information documentaire
• Les langages du Web
 
Projets de recherche
 
Projet : Bibliothèque Virtuelle Multilingue
 
  Présentation du projet
 

L'idée principale est de réaliser une plate forme logicielle, permettant de mettre à la disposition des usagers des moyens informatiques pour consulter et interroger à distance et en local un fond documentaire scientifique multilingue dématérialisé. Nous nous intéressons plus particulièrement à l'étude des spécificités de la langue arabe et à l'intégration de cette composante dans la bibliothèque virtuelle. Le fond documentaire des revues de l'ALECSO servira pour l'évaluation et l'expérimentation pour la partie concernant la langue arabe.
D'autres revues bilingues seront intégrées dans l'expérimentation (Al Madar de la cité des sciences, 'Majallat Al Ouloum' la version arabe de Scientific Journal,...). La base de travail sera les prototypes existants (TDM, TDM-M et ArabTDM) développés dans le cadre de la coopération entre l'équipe READ (France) et le Laboratoire RIADI (Tunisie) ces dernières années. Les applications qui émergent de ce projet sont les suivantes :

•  Analyse et reconnaissance des revues scientifiques multilingues, multi-sommaires
•  Analyse et reconnaissance des références bibliographiques multilingues

   
  Objectifs du projet (année 2003)
 


les objectifs du projet pour l'année 2003 avaient été :

• Reconnaissance de tables de matières multilingues : amélioration du prototype existant « ArabTDM» en analysant l'information traducteur qui est souvent utilisée dans les revues qui sont des traductions des revues latines. Par exemple « Majallat Al Ouloum » qui est la version arabe de Scientific American Dans ce type de revues, chaque article possède un nom d'auteur et un nom de Traducteur.

• Conception de la base de données des revues scientifiques latines et arabes et alimentation automatique de cette base à travers l'utilisation des prototypes existants.

• Mise en place de l'architecture informatique adéquate pour le prototype de bibliothèque Virtuelle BVMuls.

•Conception et réalisation d'une interface multilingue ergonomique pour le prototype BVMuls.
Ces travaux se sont inscrits dans le cadre du mémoire de Mastère de M. FELLAH.

• Reconnaissance de références bibliographiques : étude des références bibliographiques homogènes respectant les normes ISO 629-1 et ISO 6292. Notre objectif consiste, dans une première étape, à séparer les références arabes des références latines d'une même liste de citations; et dans une
deuxième étape, à extraire les différentes composantes d'une référence bibliographique latine ou arabe (l'auteur, le titre, l'éditeur, ...). Un format universel tel que XML sera utilisé pour la représentation des références bibliographiques. Ce travail de Mastère n'a pas été finalisé le chercheur C. Bouabid ayant abandonné ses recherches.

• Identification de la nature des blocs d'un document numérisé composite : Le but de ce travail est d'étudier une méthode générale de segmentation de documents bilingues (arabe et français) en séparant les mots de chaque langue. L'intérêt de ce travail est d'arriver à isoler automatiquement des langues différentes afin de pouvoir les reconnaître par des lecteurs optiques dédiés à ces langues. La méthode utilisée est fondée sur les principes de la géométrie fractale. Ce travail a fait l'objet d'un projet de fin d'études de l'ENSI travail réalisé par A. Meskini et I. Walha et soutenu en juillet 2003.
   
  Objectifs du projet (année 2004)
  • Reconnaissance de tables de matières hétérogènes : ce travail nécessite plusieurs étapes :

     - L'étude et analyse des sommaires hétérogènes de revues scientifiques multilingues.

     - L'étude des méthodes d'extraction des différentes composantes d'un document hétérogène.

     - La conception et développement d'un prototype permettant l'extraction des différentes composantes d'un document hétérogène multilingue: sommaire, figures, tableaux, photographies.

     - La reconnaissance du sommaire localisé.

     - L'intégration de ce prototype dans la plate forme globale. Ce travail entre dans le cadre de la thèse de M- Fellah en cours.

• Reconnaissance des références bibliographiques orphelines et hétérogènes. Par orphelines, nous entendons les références ne respectant pas les normes ISO de représentation des références bibliographiques. Ce travail a été confié à un étudiant qui a abandonné ses recherches (Chamseddine BOUABID). Le travail a été repris dans le cadre d'un PFE qui sera soutenu en juillet 2004

• Conception et proposition d'une plate-forme d'auto-archivage multilingue à base de la BOAI ; application à la production scientifique du Laboratoire RÎADI : Plate-forme., TUNEprints (Mastère de Salwa MBAREK soutenu le 15 Juillet 2004).

• Conception et développement d'un prototype permettant la combinaison d'OCRS multilingues. Ce travail a nécessité une étude des critères d'évaluation d'OCRS latins, une analyse et évaluation des différents OCRS latins (Omnipage, textbridge, Finereader...) et enfin une étude de la composante langue arabe et la combinaison des OCRS arabes (Sakhr...). Ce travail a fait l'objet de Mastère Férihane ELKBOUBI soutenu le 27 septembre 2004. Ce travail a fait par ailleurs d'une publication à la conférence: SCI 2004: ELKBOUBI F., HABACHA CHAÏBI A., BEN AHMED M., A New Strategy of
OCR Combination, 8th Word Multiconference on Systemics, Cybernetics and Informatics (SCI 2004) held. July 18-21, 2004, Orlando, USA,
   
  Travaux réalisés (en 2003)
  • Reconnaissance de tables de matières multilingues : amélioration du prototype existant « ArabTDM » en analysant l'information traducteur qui est souvent utilisée dans les revues qui sont des traductions des revues latines. Par exemple« Majallat Al Ouloum » qui est la version arabe de Scientific American. Dans ce type de revues, chaque article possède un nom d'auteur et un nom de traducteur.

• Conception de la base de données des revues scientifiques latines et arabes et alimentation automatique de cette base à travers l'utilisation des prototypes existants.

• Mise en place de l'architecture informatique adéquate pour le prototype de bibliothèque Virtuelle BVMuls.

• Identification de la nature des blocs d'un document numérisé composite en utilisant une méthode générale de segmentation de documents bilingues (arabe et français) fondée sur les principes de la géométrie fractale.
   
  Travaux réalisés (en 2004)
 

• Conception et réalisation de la plate forme logicielle de la bibliothèque virtuelle multilingue avec une interface multilingue ergonomique en utilisant les logiciels libres (ZOPE).

• Conception et proposition d'une plate-forme d'auto-archivage multilingue à base de la BOAI ; Ce prototype a été appliqué à la production scientifique du Laboratoire RIADI

• Une étude des critères d'évaluation d'OCRs latins et arabe ainsi qu'une analyse et une évaluation des différents OCRs latins (Omnipage, textbridge, Finereader...) et des OCRs arabes (Saker, AOCR...) ont été élaborées. Ces études ont permis de concevoir et de réaliser un prototype de combinaison d'OCRs multilingues pour les composantes textuelles et tableaux.

• Reconnaissance automatique de pages de garde de rapports (thèse, DEA, mastère, etc.) et création de notices bibliographiques sous format XML représentant ces documents.

   
  Travaux réalisés (en 2005 )
  • Amélioration de la bibliothèque virtuelle en intégrant un module de recherche Multicritère.

• Réalisation d'un éditeur multilingue pour l'intégration de composants documentiels (revues scientifiques multilingues).

• Le prototype de la bibliothèque Virtuelle multilingue est opérationnel sur des données réelles intégrant le fond documentaire de l'ALECSO.

• Reconnaissance et analyse de références bibliographiques hétérogènes et orphelines: l'extraction des différentes composantes d'une référence bibliographique (l'auteur, le titre, l'éditeur, ...) est suivie d'une identification du type de chaque référence permettant la correction de ceux qui ne respectent pas la
norme. Un document XML représentant ces références bibliographiques est généré automatiquement.
Untitled Document
       
 
 
27 / 11 / 2007