StagePFE

[PFE-2017] - Conception et développement d’un « chat bot » comprenant le dialecte tunisien pour répondre à des requêtes de recherche de produits dans un site e-commerce







Sujet 1 : Conception et développement d’un « chat bot » comprenant le dialecte tunisien pour répondre à des requêtes de recherche de produits dans un site e-commerce

Motivation et Contexte:

Au cours des 5 dernières années on a assisté à une évolution exponentielle dans le domaine de
l’intelligence artificielle d’une manière générale et dans le domaine du traitement du langage
humain en particulier. En effet, de nos jours, les applications où des machines comprennent ce que
vous dites ou écrivez sont devenus des produits de consommation courants, si bien que pour les
jeunes d’aujourd’hui, demander quelque chose à leur téléphone, en lui parlant comme ils le feraient
avec leurs amis, fait partie de leur quotidien.
Les applications qui emploient le langage naturel sont donc devenues une réalité grâce d’abord à la
facilité qu’on a de nos jours de disposer de machines puissantes et pas chères, mais aussi, et surtout,
suite au succès de l’utilisation des méthodes d’apprentissage sur de large corpus de texte-
maintenant ouvertement disponibles sur le web- pour disposer de larges modèles de détection de
structure ou encore de traduction de textes.
Si bien qu’actuellement on assiste à l’émergence de ces petits agents conversationnels,
communément appelés «chat bots », permettant de vous servir par exemple, lorsque vous faites vos
courses sur un site d’e-Commerce, ou quand vous essayez de joindre une hotline pour réclamer une
panne de connexion...
Bien que les outils pour créer, intégrer ou faire parler ces « bots » existent, fournissent des résultats
assez fidèles et sont soit en logiciels libres soit généralement en coût abordable pour les entreprises,
il existe un problème pour ce qui est de la reconnaissance de ce que les linguistes qualifient de
« sous-langage » : Il s’agit des dialectes régionaux, qui sont assez différents des grands langages
généralement disponibles pour ces outils.
En Tunisie, cette problématique est d’autant plus accentuée par ce qu’en général, l’internaute
utilisera bien plus le dialecte tunisien, le style SMS et les retranscriptions phonétiques (3andi,
5amsa) que le français ou l’arabe.

Travail demandé:

Pour ce projet, on se propose d’aborder cette problématique.
- D’abord, en étudiant, concevant et déroulant un process permettant de construire des corpus
pouvant identifier des éléments de structure. Il s’agit de détecter des sources de données en
« darija » tunisienne, et étudier/concevoir les outils permettant d’annoter ces corpus, ou, si des
références parallèles existent (textes traduits...) – dérouler des modèles de Deep Learning pour
traduire le tunisien pour le traiter avec les outils reconnaissant par exemple le français.
- Ensuite, en construisant des « Parsers » pouvant prendre en entrée des règles de structure sur le
langage tunisien pour détecter les entités qui contiennent des informations. Par exemple, en prenant
une structure Sujet Verbe Objet – on peut écrire un parser qui prend les valeurs de Objet comme un
élément à chercher.
- Finalement, en intégrant chat bot dans un environnement de production:
- En utilisant un framework permettant le dialogue et le greffage à des canaux de
communication. On parle de niveau Front-End
- En utilisant un back-end de données simplifiant l’interprétation de requêtes en langage
humain. On parle de niveau Back-End.
Décembre 2016

Méthodes et Technologies:

- Gestion de projet Agile / Devops (Gitlab, Docker, mvn, ...)
- Java SE 8 et JavaScript
- Apache OpenNLP et/ou Stanford CoreNLP
- Outils d’Apache UIMA pour l’annotation.
- Deeplearning4j pour le deep learning.
- Hadoop/Spark
- Solr/Lucene
- Bot Kit

Mots Clé:

Bots, Big Data, Natural Language processing, Text annotation, POS tagging, Structure extraction,
Machine learning, Deep learning, Parsers.

Email:

Si vous êtes intéressés, envoyez votre candidature à jobs@appsnsites.com



Enregistrer un commentaire

1 Commentaires