Sources Chrétiennes

Programme de recherche pour l'édition des textes chrétiens anciens

Lemmatiseur de textes en grec ancien (LemGreek)

Lemmatiseur de textes en grec ancien (LemGreek)

Téléchargement

Version de test

Pour utiliser LemGreek, il est nécessaire d'avoir installé sur sa machine une version récente de Java (version 8 update 31 ou supérieure) et de disposer d'une connexion internet.

Contexte

Dans le cadre du projet Biblindex, index en ligne des citations et allusions bibliques dans les textes de l’Antiquité tardive et du Moyen Age, l’Institut des Sources Chrétiennes a besoin de comparer entre eux des textes bibliques et des textes patristiques en grec ancien pour effectuer des recherches grammaticales, des analyses stylistiques, des reconnaissances de citations, etc. Cela exige de décomposer les textes en descendant jusqu’au niveau du mot. Cependant, la comparaison par « formes » (= mots tels qu’ils se présentent dans la phrase) ne suffit pas, il faut disposer des « lemmes » (= formes normalisées, comme les infinitifs, le masc. sing. d’un adjectif, etc., auxquelles se rattachent les mots).

 

principe du lemmatiseur

Présentation

LemGreek rend possible la transformation des formes d'un texte en lemmes.

Il permet à l’utilisateur d’entrer un texte en grec ancien (fichier rtf ou d'un copié-collé de texte dans une police Unicode) et d’associer à chaque forme de ce texte le lemme qui lui convient, puis d’exporter les résultats obtenus sous différentes formes (index des formes ; index des lemmes, paramétrable : avec ou sans mention des formes, de leur type  - nom propre, mot biblique, mot usuel, ... - ; texte lemmatisé au kilomètre).

Les associations formes-lemmes (= le dictionnaire) de chaque utilisateur, une fois validées, sont récupérées pour enrichir la base de données commune, de sorte que chacun puisse profiter des enrichissements faits par les autres.

Crédits

Dans le cadre de son année de post-doc pour le projet Biblindex (2013), Samuel Gesche (LIRIS) a développé un logiciel stand-alone en JAVA permettant de lemmatiser les textes grecs anciens. Ce projet a ensuite été repris par Henoc Khouilla (ATOS Integration) en janvier-février 2015, avec la collaboration de David Goudard (HiSoMA). Le suivi scientifique de ces développements a été assuré à Sources Chrétiennes par Smaranda Badilita, Guillaume Bady, Yasmine Ech Chael, Laurence Mellerin.

Les associations formes-lemmes présentes initialement dans la base de données proviennent de Perseus, de BibleWorks pour la LXX, de travaux de collaborateurs des Sources Chrétiennes réalisés grâce au logiciel LEXIS de Richard Goulet sur des textes patristiques (Nil d'Ancyre, Grégoire de Nysse, ...). Toutes ces données sont désormais corrigées et complétées au fur et à mesure des utilisations de la version téléchargeable du logiciel.

Base de données des auteurs patristiques

Bible et patristique sur internet

AASC

Editions du Cerf

site de recherche de Biblindex

Catalogue de la bibliothèque

Logo MOM Logo CNRS Logo université Lumière Lyon 2 Logo Hisoma