Bien choisir son outil d'extraction de contenu à partir du Web - Conférences TALN RECITAL Accéder directement au contenu
Communication Dans Un Congrès Année : 2020

Bien choisir son outil d'extraction de contenu à partir du Web

Résumé

Nous proposons une démonstration sur l’extraction de contenu textuel dans des pages web ainsi que son évaluation. Nous nous concentrons sur les pages web contenant du texte (articles de presse, magazines en ligne et blogs) et montrons que les textes peuvent varier grandement selon différentes dimensions : diachronique, géographique et typologique. Dès lors, les outils et mesures d’évaluation correspondantes sont sujettes à caution : les indicateurs communément utilisés et censés présider au choix de l’outil approprié par les utilisateurs finaux sont à la fois imprécis et difficiles à interpréter.
Fichier principal
Vignette du fichier
164.pdf (304.01 Ko) Télécharger le fichier
Origine : Fichiers éditeurs autorisés sur une archive ouverte
Loading...

Dates et versions

hal-02768510 , version 1 (05-06-2020)
hal-02768510 , version 2 (17-06-2020)
hal-02768510 , version 3 (23-06-2020)

Identifiants

  • HAL Id : hal-02768510 , version 3

Citer

Gaël Lejeune, Adrien Barbaresi. Bien choisir son outil d'extraction de contenu à partir du Web. 6e conférence conjointe Journées d'Études sur la Parole (JEP, 33e édition), Traitement Automatique des Langues Naturelles (TALN, 27e édition), Rencontre des Étudiants Chercheurs en Informatique pour le Traitement Automatique des Langues (RÉCITAL, 22e édition). Volume 4 : Démonstrations et résumés d'articles internationaux, Jun 2020, Nancy, France. pp.46-49. ⟨hal-02768510v3⟩
156 Consultations
1028 Téléchargements

Partager

Gmail Facebook X LinkedIn More