Accueil > Formation > Stages > Webmapping et Adaptative streaming pour le THESOC

Développement web

Webmapping et Adaptative streaming pour le THESOC

Stage de 4 à 6 mois

Webmapping et Adaptative streaming pour le THESOC

Contexte du stage :
Au sein du laboratoire BCL, le THESOC (Thesaurus Occitan) est développé depuis 1992. Il s’agit de LA base de données de référence sur les dialectes occitans (vocabulaire, phonétique, et syntaxe), avec plus de 1,2 millions d’entrées lexicales, géolocalisées sur plus de 850 communes du sud de la France, mais aussi des illustrations et des centaines d’heures d’enregistrements audio et vidéo en occitan, ainsi que les données issues des atlas linguistiques de la France par régions. Actuellement, seule une toute petite partie de ces données est disponible en ligne, sur un site web aux fonctionnalités très limitées.

L’objectif de ce stage est la création d’une nouvelle plateforme web, aux standard actuels (HTML 5, CSS 3, Unicode) ; alliant la cartographie (webmapping) et le multimédia (vidéos diffusées en adaptative streaming) de manière interactive (exemple : un clic sur une phrase dans un texte affiché sur la page web déclenche la lecture de la phrase en question au sein de la vidéo, et l’affichage, sur la carte, du lieu où cette vidéo a été enregistrée ; et réciproquement, au fur et à mesure de la lecture de la vidéo les phrases du texte sont surlignées les unes après les autres).

La plateforme devra proposer un certain nombre de fonctionnalités à la fois à destination du grand public et des enseignants (dans un but pédagogique de promotion des langues régionales), mais aussi et surtout à destination des scientifiques qui souhaitent exploiter ces données dans le cadre de leurs recherches (linguistes, sociologues, ethnologues, etc.). En particulier, des outils permettant d’effectuer des recherches complexes dans la base (type expressions régulières par exemple) et de cartographier dynamiquement les résultats (exemple : "je veux cartographier avec deux couleurs distinctes les dialectes occitans qui ont des pronoms sujets comme en français, versus ceux qui n’ont pas de pronoms sujets, comme en italien ou en espagnol"). Il est important ici que l’outil soit simple d’utilisation et intuitif pour le grand public comme pour les chercheurs, qui ne sont pas nécessairement des férus d’informatique. Une grande importance sera donc accordée à l’ergonomie de la plateforme.

Un proof-of-concept a déjà été réalisé (http://thesaurus.unice.fr/daddipro/ : il faut cliquer sur l’un des points oranges sur la carte) mais il est à des années lumières de ce que l’on voudrait - et pourrait - faire, que ce soit en termes de quantité et qualité du contenu, aussi bien qu’en termes d’interactivité, d’ergonomie, et de fonctionnalités. A titre d’exemple, dans la mouvance Open Data, des liens pourraient être réalisés pour enrichir les données du Thesoc en les interconnectant avec des données fournies par des associations telles que Lo Congrès, qui proposent sur leur site une API REST d’interrogation de leurs différentes ressources linguistiques en occitan (dictionnaires, conjugeur, synonymes, expressions, et toponymes). L’idée générale est de faire quelque chose d’innovant et de moderne : pas un simple site web basique, mais vraiment un outil de travail aussi bien pour le chercheur que pour l’enseignant de langue vivante.

Nous recherchons pour cela un étudiant ayant déjà une bonne expérience dans le développement web (et si, en plus, c’est un passionné de cartographie et/ou de langues régionales, ce serait encore mieux !).

Le stagiaire pourra négocier avec le maître de stage le choix du Framework à utiliser pour le développement de cette plateforme (type Angular JS, Symphony, ou autre).

Le backend sera constitué d’une base de données (déjà existante) qui peut être interrogée de plusieurs manières différentes : connexion SQL classique (depuis un script PHP) ou interrogation de son API REST (depuis une requête AJAX).

Technologies utilisées :
HTML 5, CSS 3, PHP, Javascript, Unicode, OpenLayers (webmapping), Alphabet Phonétique International (API), adaptative streaming en MPEG H264.

Profil recherché :
• Master 2 ou école d’ingénieur en informatique.
• très bonne connaissance du développement web (Frameworks, ergonomie, et bonnes pratiques actuellement en vigueur)
• Compétences en architecture logicielle
• Maîtrise de git (travail en équipe)
• Maîtrise du langage SQL
• Savoir utiliser des APIs REST
• Une bonne connaissance d’Unicode (collations, normalisations NFC/NFD, etc.) serait également appréciée
• le stagiaire sera intégré au sein d’une équipe de plusieurs informaticiens, mais il devra néanmoins savoir faire preuve d’autonomie.

Conditions du stage et rémunération :
Démarrage : dès que possible
Durée : 4 à 6 mois (le stage devra impérativement se terminer avant l’été)
Lieu : dans les locaux du laboratoire Bases, Corpus, Langage, à Nice.

Le stagiaire sera placé au sein du service informatique du laboratoire, composé de plusieurs développeurs d’application, et travaillera également en étroite collaboration avec les membres de l’équipe de recherche Dialectologie et Linguistique Formelle du laboratoire BCL.

La gratification du stage est de 546,01 euros / mois (la réglementation en vigueur nous interdit, hélas, de proposer un montant plus élevé).

Le stagiaire bénéficie également durant toute la durée du stage du remboursement de 50% du coût de son abonnement (hebdomadaire ou mensuel) aux transports en commun (Train, Bus urbain, et/ou vélo bleu).

Il bénéficiera également de la restauration sociale, au même titre que les autres agents CNRS du laboratoire (suivant la période de l’année : tickets restaurant ou restauration universitaire. Dans tous les cas le coût du repas est ainsi plafonné à 5 euros maxi).

Responsable : Pierre-Aurélien GEORGES (Équipe Dialectologie et Linguistique Formelle)

publié par Pierre-Aurélien GEORGES - mis à jour le