10/08/99
***********Resumen
en castellano***********
ARC
A3: EVALUACION DE SISTEMAS DE CONSTRUCCION DE TERMINOLOGIA Y DE
RELACIONES SEMANTICAS ENTRE TERMINOS, CONVOCATORIA
ARC
A3 es una "Action de recherche concertée [acción
de investigación concertada]" financiada por l'AUF (Association
des Universités Francophones), pero no solo referida al mundo
francófono. El proyecto apunta a promover la elaboración
de corpus, de procedimientos de evaluación y de instrumentos
de medición que permitan una comparación objetiva
de abordajes diversos, así como a favorecer el desarrollo
de sistemas y a permitir una mejor visibilidad de la oferta.
La
primera etapa del proyecto ARC A3 (1995-1998) permitió crear
un serie de corpus, establecer protocolos de pruebas y realizar
una primera serie de pruebas.
Esta
convocatoria para la segunda etapa del proyecto ARC A3 (1999-2000)
se dirige a grupos de investigación e industriales francófonos
y no francófonos que tengan sistemas de construcción
de terminología y / o de relaciones semánticas entre
términos que traten (pero no necesariamente de manera exclusiva)
el francés. Los ocho sistemas evaluados en la primera etapa
tiene funcionalidades diferentes y egresos diferentes: términos
(ordenados), redes gramaticales, clases de términos, grafos
semánticos, etc..
Hemos
distinguido tres categorías (no disjuntas) de sistemas:
1. Sistemas de extracción de candidatos-a-términos:
se basan en análisis sintácticos y estadísticos;
2. Sistemas "clasificadores ": construyen clases de términos
coocurrentes de manera regular en los textos; se basan en análisis
sintácticos y estadísticos y en abordajes numéricos
puros;
3. Sistemas de extracción de relaciones semánticas;
se basan en abordajes estadísticos o lingüísticos
por exploración contextual.
Les
terminologías se evaluaron según dos objetivos:
1. indización;
2. cobertura del ámbito.
SEGUNDA
ETAPA (1999-2000)
No
hay financiamientos previsto para esta participación, pero
el beneficio para los grupos de investigación o industriales
será múltiple. Podrán contar con:
* un conjunto de corpus de documentos, de preuntas de usuarios y
de repuestas adecuadas,
* una estructura de intercambio y de reflexión gracias a
la participación de creadores y usuarios de de sistemas,
* la posibilidad de integración de sistemas, dada la copmpementariedad
de los resultados de los distintos sistemas,
* la visibilidad que implica la participar en el proyecto.
El
corpus, propuesto por el INRA (Institut National de Recherche en
Agronomie) francés, consiste en artículos en el campo
de las biotecnologías. Varios especialistas del INRA (documentalistas,
indizadores, terminólogos) evaluarán los resultados.
FECHAS
-
09/1999
Selección y notificación de los candidatos externos
Primer corpus de práctica partir del corpus del INRA y llegado
el caso otro más
- 10/1999
Corpus etiquetado (con el programa Sylex de Ingenia)
- 01/2000
Primera sesión real con el corpus del INRA y llegado el caso
otro más
- 04/2000
Reunión de balance: análisis de los resultados, afinamiento
de las mediciones
Publicación interna de los resultados
Establecimiento definitivo de la metodología
- 09/2000
Primera sesión real y definitiva con el corpus del INRA y
llegado el caso otro más
- 12/2000
Publicación de los resultados para las JST (Journées
Scientifiques et Techniques, coloquio organizado por la red Francil
y la AUF).
---------------
Más informaciones:
<jouis@univ-lille3.fr>.
Para señalar su intención de participar, enviarme
un mensaje a más tardar el 15/09/1999 con las informaciones
siguientes:
-Persona
de contacto: ....................................
-Organismo: .....................................
-Nombre del sistema propuesto: .................................
-Categoría del sistema (extractor de términos, clasificador,
extractor de relaciones semánticas) .....................................
-Descripción de las funcionalidades del sistema (en 20 renglones).
Christophe Jouis
<jouis@univ-lille3.fr>
IDIST
Organización de ARC A3
Université CHARLES-DE-GAULLE - Lille 3
BP 149
59653 Villeneuve d'Ascq
FRANCIA
***********Texte
en français***********
ARC
A3 - EVALUATION DES SYSTEMES DE CONSTRUCTION DE TERMINOLOGIE ET
DE RELATIONS SEMANTIQUES ENTRE TERMES: APPEL À PARTICIPATION
L'ARC A3 est une Action de Recherche Concertée financée
par l'AUF (Association des Universités Francophones, ex -Aupelf-Uref).
Ce projet cherche à "promouvoir l'élaboration
de corpus et de procédures d'évaluation concernant
le français, pour permettre à la recherche de progresser
et au domaine de se doter d'instruments de mesure rendant possible
une comparaison objective des différentes approches".
D'autre part il vise à favoriser le développement
des systèmes et permettre une meilleure visibilité
de l'offre.
La
première phase de ce projet (1995-1998) a permis de constituer
une première série de corpus, d'établir des
protocoles de tests et d'effectuer une première campagne
de tests.
Le
présent appel à participation pour le second cycle
du projet ARC A3 (1999-2000) s'adresse à des équipes
de recherche et à des industriels (qu'ils soient francophones
ou non), disposant de système(s) de construction de terminologie
et/ou de relations sémantiques entre termes traitant au moins
le français. Les 8 systèmes qui ont été
testés lors de la première phase ont différentes
fonctionnalités et fournissent différentes sorties:
termes (ordonnés), réseaux grammaticaux, classes de
termes, graphes sémantiques... L'évaluation a été
essentiellement qualitative, et a été effectuée
par les experts sur la base de l'analyse de l'utilisabilité
de l'information procurée par le système.
Nous
avons distingué 3 catégories non disjointes de systèmes:
1. Systèmes d'extraction de candidats-termes: ils se fondent
sur une analyse syntaxique et statistique;
2. Systèmes "classifieurs ", c'est-à-dire
construisant des classes de termes qui co-occurrent de manière
régulière dans les textes. Ces systèmes se
fondent soit sur une analyse syntaxique et statistique soit sur
des approches numériques pures;
3. Systèmes d'extraction de relations sémantiques.
Ces systèmes utilisent une approche statistique ou une approche
linguistique par exploration contextuelle.
Les
terminologies ont été évaluées suivant
deux objectifs:
1. indexation;
2. couverture du domaine.
DEROULEMENT
DU SECOND CYCLE (1999-2000)
Aucun
financement n'est prévu pour cette participation, mais le
bénéfice pour ces équipes de recherche et industriels
sera multiple:
* disposer, dans le cadre du projet, d'un ensemble de corpus de
documents, de questions d'utilisateurs et de réponses "justes",
* bénéficier d'une structure d'échange et de
réflexion grâce à la participation de concepteurs
et d'utilisateurs de systèmes,
* la possibilité d'intégration de systèmes,
tirant avantage de la nature complémentaire des résultats
issus des différents systèmes,
* bénéficier de la visibilité induite par la
participation au projet.
Le
corpus est proposé par l'INRA (Institut National de Recherche
en Agronomie). Il est constitué d'articles dans le domaine
des biotechnologies. Plusieurs "spécialistes" de
l'INRA (documentalistes, indexeurs, terminologues travaillant dans
le domaine) sont prêts à évaluer les résultats.
CALENDRIER
-
Septembre 1999
Sélection et notification des candidats externes
Premier corpus d'entraînement sur le corpus de l'INRA et un
autre corpus éventuellement
-Octobre 1999
Corpus étiqueté (avec le logiciel Sylex d'Ingenia)
-Janvier 2000
Première session réelle sur le corpus de l'INRA et
un autre corpus éventuellement
-Avril 2000
Réunion de mise au point: analyse des résultats, raffinement
des mesures
Publication des résultats en "interne"
Mise en place définitive de la méthodologie
-Septembre 2000
Deuxième session réelle et définitive sur le
corpus de l'INRA et un autre corpus éventuellement
-Décembre 2000
Publication des résultats en vue des JST (Journées
Scientifiques et Techniques, colloque organisé par le réseau
Francil et l'AUF).
---------------
Pour tout complément d'information, vous pouvez nous contacter
à l'adresse électronique suivante:
<jouis@univ-lille3.fr>.
Pour
signaler votre intention de participer, envoyez-moi un message au
plus tard le 15 septembre 1999 à contenant les informations
suivantes:
-Personne
à contacter: ....................................
-Nom de l'organisme: .....................................
-Nom du système proposé: .................................
-Catégorie du système (extracteurs de terme, classifieur,
extracteur de relations semantiques) .....................................
-Description des fonctionnalités du système (20 lignes).
Christophe
Jouis
<jouis@univ-lille3.fr>
IDIST
Equipe organisatrice ARC A3
Université Charles de Gaulle - Lille 3
BP 149
59653 Villeneuve d'Ascq
FRANCE
