Accueil > Formation > Stages > Webmapping et Adaptative streaming pour le THESOC

Développement web

Webmapping et Adaptative streaming pour le THESOC

Stage de 4 à 6 mois

Webmapping et Adaptative streaming pour le THESOC

Contexte du stage :
Au sein du laboratoire BCL, le THESOC (Thesaurus Occitan) est développé depuis 1992. Il s’agit de LA base de données de référence sur les dialectes occitans (vocabulaire, phonétique, et syntaxe), avec plus de 1,2 millions d’entrées lexicales, géolocalisées sur plus de 850 communes du sud de la France, mais aussi des illustrations et des centaines d’heures d’enregistrements audio et vidéo en occitan, ainsi que les données issues des atlas linguistiques de la France par régions. Actuellement, seule une toute petite partie de ces données est disponible en ligne, sur un site web aux fonctionnalités très limitées.

L’objectif de ce stage est la création d’une nouvelle plateforme web, aux standard actuels (HTML 5, CSS 3, Unicode) ; alliant la cartographie (webmapping) et le multimédia (vidéos diffusées en adaptative streaming) de manière interactive (exemple : un clic sur une phrase dans un texte affiché sur la page web déclenche la lecture de la phrase en question au sein de la vidéo, et l’affichage, sur la carte, du lieu où cette vidéo a été enregistrée ; et réciproquement, au fur et à mesure de la lecture de la vidéo les phrases du texte sont surlignées les unes après les autres).

La plateforme devra proposer un certain nombre de fonctionnalités à la fois à destination du grand public et des enseignants (dans un but pédagogique de promotion des langues régionales), mais aussi et surtout à destination des scientifiques qui souhaitent exploiter ces données dans le cadre de leurs recherches (linguistes, sociologues, ethnologues, etc.). En particulier, des outils permettant d’effectuer des recherches complexes dans la base (type expressions régulières par exemple) et de cartographier dynamiquement les résultats (exemple : "je veux cartographier avec deux couleurs distinctes les dialectes occitans qui ont des pronoms sujets comme en français, versus ceux qui n’ont pas de pronoms sujets, comme en italien ou en espagnol"). Il est important ici que l’outil soit simple d’utilisation et intuitif pour le grand public comme pour les chercheurs, qui ne sont pas nécessairement des férus d’informatique. Une grande importance sera donc accordée à l’ergonomie de la plateforme.

Un proof-of-concept a déjà été réalisé (http://thesaurus.unice.fr/daddipro/ : il faut cliquer sur l’un des points oranges sur la carte) mais il est à des années lumières de ce que l’on voudrait - et pourrait - faire, que ce soit en termes de quantité et qualité du contenu, aussi bien qu’en termes d’interactivité, d’ergonomie, et de fonctionnalités. A titre d’exemple, dans la mouvance Open Data, des liens pourraient être réalisés pour enrichir les données du Thesoc en les interconnectant avec des données fournies par des associations telles que Lo Congrès, qui proposent sur leur site une API REST d’interrogation de leurs différentes ressources linguistiques en occitan (dictionnaires, conjugeur, synonymes, expressions, et toponymes). L’idée générale est de faire quelque chose d’innovant et de moderne : pas un simple site web basique, mais vraiment un outil de travail aussi bien pour le chercheur que pour l’enseignant de langue vivante.

Le stagiaire pourra négocier avec le maître de stage le choix des Frameworks à utiliser pour le développement de cette plateforme (type Angular JS, Symphony, ou autre).

Le backend sera constitué d’une base de données (déjà existante) qui peut être interrogée de plusieurs manières différentes : connexion SQL classique (depuis un script PHP) ou interrogation de son API REST (depuis une requête AJAX).

Technologies utilisées :
HTML 5, CSS 3, PHP ou Node.js (selon les compétences du stagiaire), Javascript, Unicode, OpenLayers (webmapping), Alphabet Phonétique International (API), adaptative streaming en MPEG H264.

Profil recherché :
• Master 2 ou école d’ingénieur en informatique.
• Bonne connaissance du développement web (Frameworks, ergonomie, et bonnes pratiques actuellement en vigueur)
• Compétences en architecture logicielle
• Savoir utiliser des APIs REST
• Une bonne connaissance d’Unicode (collations, normalisations NFC/NFD, etc.) serait également appréciée
• le stagiaire sera intégré au sein d’une équipe de plusieurs informaticiens, mais il devra néanmoins savoir faire preuve d’autonomie.

Conditions du stage et rémunération :
Démarrage : dès que possible
Durée : 4 à 6 mois
Lieu : dans les locaux du laboratoire Bases, Corpus, Langage, à Nice.
Rémunération : à définir lors de l’entretien d’embauche.

Le stagiaire sera placé au sein du service informatique du laboratoire, composé de plusieurs développeurs d’application, et travaillera également en étroite collaboration avec les membres de l’équipe de recherche Dialectologie et Linguistique Formelle du laboratoire BCL.

Le stagiaire bénéficie également durant toute la durée du stage du remboursement de 50% du coût de son abonnement (hebdomadaire ou mensuel) aux transports en commun (Train, Bus urbain, et/ou vélo bleu).

Il bénéficiera également de la restauration sociale, au même titre que les autres agents CNRS du laboratoire (suivant la période de l’année : tickets restaurant ou restauration universitaire. Dans tous les cas le coût du repas est ainsi plafonné à 5 euros maxi).

Ce stage pourra éventuellement être prolongé par un CDD, en fonction des financements obtenus auprès des différentes institutions.

Responsable : Pierre-Aurélien GEORGES (Équipe Dialectologie et Linguistique Formelle)

publié par Pierre-Aurélien Georges - mis à jour le