Le Projet Européen GALATEAS

GALATEAS (Generalized Analysis of Logs for Automatic Translation and Episodic Analysis of Searches) est un projet de recherche collaboratif européen cofinancé par la commission européenne (CIP-ICT-PSP.2009.5.1)

 

Le but de GALATEAS est d’offrir aux fournisseurs de contenus numériques une approche innovante leur permettant de mieux comprendre le comportement de leurs utilisateurs à travers l’analyse des informations textuelles contenues dans les journaux de transactions.  Cette information permet aux utilisateurs de GALATEAS d’améliorer aussi bien la navigation à travers leur site web que la recherche multilingue de leurs contenus.

 

Les objectifs de GALATEAS sont les suivants :

  • Analyse des journaux de requêtes. Analyser les logs contenant les requêtes des moteurs de recherche d’un fournisseur de contenu afin de produire des rapports sur mesure sur les utilisateurs ayant accès à cette agrégation particulière. L’analyse est basée sur des données aussi bien linguistiques que statistiques.
  • Traduction de requêtes : Traduire des requêtes provenant d’un moteur de recherche externe en plusieurs langues cibles. Ce moteur externe utilise ces traductions pour retourner des résultats dans des langues autres que celle de la requête initiale. Les langues choisies pour GALATEAS sont : l’italien, le français, l’anglais, l’allemand, le néerlandais, l’arabe moderne et le polonais.

 

L’Innovation dans GALATEAS

L’objectif majeur fixé par GALATEAS est d’assembler des technologies innovantes de façon à implanter une solution simple et peu coûteuse face aux défis levés par l’analyse multilingue logs et par la traduction des requêtes.

 

Pour y parvenir, GALATEAS propose de développer un système basé sur les trois blocs de base suivants :

  • Le sous-système d’analyse de log : il est incarné par  le service LangLog qui fournit une analyse linguistique des logs.
  • Le sous-système d’entraînement du Système de Traduction Automatique Statistique (STAS): il effectue un entraînement du STAS sur la base des logs de requêtes.
  • Le sous-système de traduction des requêtes : il est incarné par le service  QueryTrans  qui traduit les requêtes en plusieurs langues en utilisant le STAS approprié.

 

Innovation dans l’analyse des journaux de requête

Les services fournis par GALATEAS prennent en compte les informations contenues dans les requêtes d’un point de vue interprétation linguistique,  et non pas, comme c’est le cas  des offres actuelles,  l’information structurée des journaux de transaction du web (c.à.d. fréquence des clics, pages visitées, chemins de l’utilisateur dans l’arbre de documents).

 

Comprendre les requêtes courtes et les traduire en unités conceptuelles permettra aux administrateurs et aux managers de répondre à des questions telles que: «  Quels sont les sujets les plus souvent recherchés dans ma collection, pour une langue donnée ? « ; « Comment ces sujets sont-ils reliés dans mon catalogue ? »; « Quelles sont les entités nommées (lieux, personnes) les plus populaires parmi mes utilisateurs ? ».

 

Innovation dans la traduction des requêtes

Du point de vue de la traduction automatique, GALATEAS va examiner les technologies de traduction statistique afin de produire des résultats significatifs pour des textes courts, décontextualisés et n’ayant que peu de structure syntaxique,  comme c’est le plus souvent le cas dans le cadre des moteurs de recherche.

 

L’étroite intégration entre l’infrastructure de GALATEAS et les systèmes de contenus numériques s’ effectue en combinant des techniques de traitement automatique des langues aussi bien symboliques que statistiques avec des systèmes d’extraction d’information fournis sous la forme de services web.

 

Les Utilisateurs de GALATEAS

En quête d’informations, les utilisateurs indirects des services de GALATEAS bénéficieront d’un service de recherche multilingue amélioré. Cependant, les services de GALATEAS ne sont pas proposés directement aux utilisateurs finaux mais aux administrateurs et aux managers des contenus numériques fédérés et des moteurs de recherche. Ainsi, la cible de GALATEAS est le marché supérieur du B2B, où les clients sont principalement représentés par des organisations gérant des fédérations de contenu de moyenne ou de grande taille.

 

Le projet vise à satisfaire les besoins suivants:

  • Besoin exprimé par les managers de comprendre ce que les utilisateurs recherchent, indépendamment des contenus auxquels ils accèdent réellement
  • Besoin pour les fournisseurs de contenu de comprendre comment leurs collections doivent être élargies.
  • Besoin pour les administrateurs de bibliothèque de comprendre les catégories dans le catalogue qui correspondent plus ou moins aux desiderata des utilisateurs finaux.
  • Besoin pour les administrateurs de bibliothèque de comprendre le comportement des utilisateurs.
  • Besoin pour tous d’obtenir des outils d’extraction multilingues croisés de façon aussi transparente que possible, sans rien changer à la façon dont les documents sont indexés et gérés.

 

Le rôle de Viseo dans GALATEAS

Au sein de GALATEAS, Viseo est principalement impliqué dans l’analyse des journaux transactionnels, la fouille de données ainsi que des activités d’intégration. Viseo appartient  au groupe Viseo, un acteur fortement impliqué dans la Business Intelligence, les activités commerciales et l’exploitation d’outils produits.

 

Les partenaires de GALATEAS

Les huit partenaires du projet GALATEAS proviennent de cinq pays  : la France, l’Allemagne, les Pays-Bas, l’Italie et le Royaume-Uni.

 

Pour plus d’informations :

Rendez-vous sur le site du projet : http://www.galateas.eu/fra/index-fr.html ou contacter Frédérique Segond, Responsable Recherche et Développement

Recrutement
Recrutement

Découvrez les offres d'emploi de Viseo !

En savoir +

Software
Software

Solution de développement collaboratif

Découvrir