Tutoriel sur le traitement du langage naturel : Qu'est-ce que la PNL ? Exemples
Qu'est-ce que le traitement du langage naturel?
Traitement du langage naturel (PNL) est une branche de l'IA qui aide les ordinateurs à comprendre, interpréter et manipuler les langues humaines comme l'anglais ou l'hindi pour analyser et en déduire leur signification. La PNL aide les développeurs à organiser et structurer les connaissances pour effectuer des tâches telles que la traduction, le résumé, la reconnaissance d'entités nommées, l'extraction de relations, la reconnaissance vocale, la segmentation de sujets, etc.
Histoire de la PNL
Voici quelques événements importants dans l’histoire du traitement du langage naturel :
1950- La PNL a débuté lorsqu'Alan Turing a publié un article intitulé « Machine et intelligence ».
1950- Tentatives d'automatisation de la traduction entre le russe et l'anglais
1960- Les travaux de Chomsky et d'autres sur la théorie du langage formel et la syntaxe générative
1990- Les modèles probabilistes et basés sur les données étaient devenus assez standards
2000- Une grande quantité de données orales et textuelles devient disponible
Ensuite, dans ce didacticiel PNL, nous apprendrons comment fonctionne la PNL.
Comment fonctionne la PNL ?
Avant d'apprendre comment fonctionne la PNL, comprenons comment les humains utilisent le langage.
Chaque jour, nous prononçons des milliers de mots que d’autres personnes interprètent comme faisant d’innombrables choses. Nous considérons cela comme une simple communication, mais nous savons tous que les mots ont une portée bien plus profonde que cela. Il y a toujours un certain contexte que nous tirons de ce que nous disons et de la manière dont nous le disons., PNL en Intelligence Artificielle ne se concentre jamais sur la modulation de la voix ; il s'appuie sur des modèles contextuels.
Mise en situation :
Man is to woman as king is to __________? Meaning (king) – meaning (man) + meaning ( woman)=? The answer is- queen
Ici, nous pouvons facilement établir une relation car l’homme est de genre masculin et la femme est de genre féminin. De la même manière, le roi est de genre masculin et son genre féminin est la reine.
Mise en situation :
Is King to kings as the queen is to_______? The answer is--- queens
Ici, nous pouvons voir deux mots rois et rois où l’un est au singulier et l’autre au pluriel. Par conséquent, lorsque la reine du monde arrive, elle est automatiquement en relation avec les reines à nouveau au singulier pluriel.
Ici, la plus grande question est la suivante : comment savoir ce que signifient les mots ? Disons qui l'appellera reine ?
La réponse est que nous apprenons cela grâce à l’expérience. Cependant, ici, la question principale est la suivante : comment l’ordinateur sait-il la même chose ?
Nous devons fournir suffisamment de données pour que les machines puissent apprendre par l'expérience. Nous pouvons fournir des détails tels que
- Sa Majesté la Reine.
- Discours de la Reine lors de la visite d'État
- La couronne de la reine Elizabeth
- La mère des reines
- La reine est généreuse.
Avec les exemples ci-dessus, la machine comprend l'entité Reine.
La machine crée des vecteurs de mots comme ci-dessous. Un vecteur de mots est construit à partir des mots environnants.
La machine crée ces vecteurs
- En apprenant à partir de plusieurs ensembles de données
- Utiliser l'apprentissage automatique (par exemple, les algorithmes de Deep Learning)
- Un vecteur de mots est construit à partir des mots environnants.
Voici la formule:
Signification (roi) – signification (homme) + signification (femme) = ?
Cela revient à effectuer des opérations algébriques simples sur des vecteurs de mots :
Vecteur (roi) – vecteur (homme) + vecteur (femme) = vecteur (?)
A quoi la machine répond reine.
Ensuite, dans ce didacticiel sur le traitement du langage naturel, nous découvrirons les composants du PNL.
Composantes de la PNL
Les cinq composants principaux du traitement du langage naturel dans l’IA sont :
- Analyse Morphologique et Lexicale
- Analyse syntaxique
- Analyse sémantique
- Intégration du discours
- Analyse pragmatique

Analyse Morphologique et Lexicale
L'analyse lexicale est un vocabulaire qui comprend ses mots et ses expressions. Il décrit l'analyse, l'identification et la description de la structure des mots. Cela comprend la division d'un texte en paragraphes, mots et phrases
Les mots individuels sont analysés dans leurs composants, et les jetons non-mots tels que les ponctuations sont séparés des mots.
Analyse sémantique
L'analyse sémantique est une structure créée par l'analyseur syntaxique qui attribue des significations. Ce composant transfère des séquences linéaires de mots en structures. Il montre comment les mots sont associés les uns aux autres.
La sémantique se concentre uniquement sur le sens littéral des mots, des expressions et des phrases. Cela ne fait qu'abstraire la signification du dictionnaire ou la signification réelle du contexte donné. Les structures attribuées par l'analyseur syntaxique ont toujours une signification attribuée
Par exemple. "Idée verte incolore." Ceci serait rejeté par l'analyse Symantec comme incolore Ici; le vert n'a aucun sens.
Analyse pragmatique
L'analyse pragmatique traite du contenu communicatif et social global et de son effet sur l'interprétation. Cela signifie faire abstraction ou dériver l’utilisation significative du langage dans des situations. Dans cette analyse, l'accent est toujours mis sur ce qui a été dit et réinterprété sur ce que l'on entend.
L'analyse pragmatique aide les utilisateurs à découvrir cet effet recherché en appliquant un ensemble de règles qui caractérisent les dialogues coopératifs.
Par exemple, « fermer la fenêtre ? » doit être interprété comme une demande plutôt que comme un ordre.
Analyse syntaxique
Les mots sont communément acceptés comme étant les plus petites unités syntaxiques. La syntaxe fait référence aux principes et aux règles qui régissent la structure des phrases de toute langue individuelle.
La syntaxe se concentre sur l'ordre approprié des mots qui peut affecter leur signification. Cela implique l'analyse des mots d'une phrase en suivant la structure grammaticale de la phrase. Les mots sont transformés en structure pour montrer comment les mots sont liés les uns aux autres.
Intégration du discours
Cela signifie une idée du contexte. Le sens de toute phrase unique qui dépend de ces phrases. Il considère également le sens de la phrase suivante.
Par exemple, le mot « cela » dans la phrase « Il voulait cela » dépend du contexte du discours antérieur.
Ensuite, dans ce didacticiel PNL, nous découvrirons la PNL et les systèmes d'écriture.
PNL et systèmes d'écriture
Le type de système d’écriture utilisé pour une langue est l’un des facteurs décisifs pour déterminer la meilleure approche de prétraitement du texte. Les systèmes d'écriture peuvent être
- Logographique : un grand nombre de symboles individuels représentent des mots. Exemple japonais, mandarin
- Syllabique : les symboles individuels représentent des syllabes
- Alphabétique : les symboles individuels représentent le son
La majorité des systèmes d'écriture utilisent le système syllabique ou alphabétique. Même l'anglais, avec son système d'écriture relativement simple basé sur l'alphabet romain, utilise des symboles logographiques qui incluent des chiffres arabes, des symboles monétaires (S, £) et d'autres symboles spéciaux.
Cela pose les défis suivants
- Extraire le sens (sémantique) d’un texte est un défi
- La PNL en IA dépend de la qualité du corpus. Si le domaine est vaste, il est difficile de comprendre le contexte.
- Il existe une dépendance au jeu de caractères et à la langue
Comment mettre en œuvre la PNL
Ci-dessous, vous trouverez les méthodes populaires utilisées pour le processus d'apprentissage naturel :
Apprentissage automatique: Les procédures d'apprentissage NLP utilisées lors de l'apprentissage automatique. Il se concentre automatiquement sur les cas les plus courants. Ainsi, lorsque nous écrivons des règles à la main, ce n’est souvent pas correct du tout, en raison des erreurs humaines.
Inférence statistique: La PNL peut utiliser des algorithmes d'inférence statistique. Cela vous aide à produire des modèles robustes. par exemple, contenant des mots ou des structures connus de tous.
Exemples de PNL
Aujourd’hui, la technologie d’apprentissage des processus naturels est une technologie largement utilisée.
Voici les techniques courantes de traitement du langage naturel :
Récupération d'informations et recherche sur le Web
Google, Yahoo, Bing et autres moteurs de recherche basent leur technologie de traduction automatique sur des modèles d’apprentissage profond PNL. Il permet aux algorithmes de lire le texte d’une page Web, d’interpréter sa signification et de le traduire dans une autre langue.
Correction grammaticale :
La technique PNL est largement utilisée par les logiciels de traitement de texte comme MS-Word pour la correction orthographique et la vérification grammaticale.
Question Répondant
Tapez des mots-clés pour poser des questions en langage naturel.
Synthèse de texte
Le processus de résumé des informations importantes d'une source pour produire une version abrégée
Traduction automatique
Utilisation d'applications informatiques pour traduire du texte ou de la parole d'une langue naturelle à une autre.
Analyse des sentiments
La PNL aide les entreprises à analyser un grand nombre d’avis sur un produit. Cela permet également à leurs clients de donner leur avis sur un produit particulier.
L'avenir de la PNL
- Le traitement du langage naturel lisible par l’homme est le plus gros problème d’Al. Cela revient à résoudre le problème central de l’intelligence artificielle et à rendre les ordinateurs aussi intelligents que les humains.
- Les futurs ordinateurs ou machines utilisant la PNL pourront apprendre des informations en ligne et les appliquer dans le monde réel, cependant, beaucoup de travail reste à faire à cet égard.
- La boîte à outils en langage naturel ou nltk devient plus efficace
- Combinés à la génération de langage naturel, les ordinateurs deviendront plus capables de recevoir et de fournir des informations ou des données utiles et ingénieuses.
Langage naturel vs langage informatique
Vous trouverez ci-dessous les principales différences entre le langage naturel et le langage informatique :
Paramètres | Langage naturel | Langage informatique |
---|---|---|
Ambigu | Ils sont de nature ambiguë. | Ils sont conçus pour être sans ambiguïté. |
Redondance | Les langues naturelles emploient beaucoup de redondance. | Les langages formels sont moins redondants. |
Littéralité | Les langues naturelles sont faites d'idiomes et de métaphores | Les langages formels signifient exactement ce qu'ils veulent dire |
Avantages de la PNL
- Les utilisateurs peuvent poser des questions sur n'importe quel sujet et obtenir une réponse directe en quelques secondes.
- Le système PNL fournit des réponses aux questions en langage naturel
- Le système PNL offre des réponses exactes aux questions, sans informations inutiles ou indésirables
- L'exactitude des réponses augmente avec la quantité d'informations pertinentes fournies dans la question.
- Le processus PNL aide les ordinateurs à communiquer avec les humains dans leur langue et permet d'adapter d'autres tâches liées à la langue.
- Vous permet d'exécuter davantage de données basées sur le langage par rapport à un être humain sans fatigue et de manière impartiale et cohérente.
- Structurer une source de données hautement non structurée
Inconvénients de la PNL
- Langage de requête complexe : le système peut ne pas être en mesure de fournir la réponse correcte à une question mal formulée ou ambiguë.
- Le système est conçu pour une tâche unique et spécifique uniquement ; il est incapable de s'adapter à de nouveaux domaines et problèmes en raison de fonctions limitées.
- Le système NLP n'a pas d'interface utilisateur dépourvue de fonctionnalités permettant aux utilisateurs d'interagir davantage avec le système.
Résumé
- Le traitement du langage naturel est une branche de l'IA qui aide les ordinateurs à comprendre, interpréter et manipuler le langage humain.
- La PNL a débuté lorsqu'Alan Turing a publié un article intitulé « Machine et intelligence ».
- La PNL ne se concentre jamais sur la modulation vocale ; il s'appuie sur des modèles contextuels
- Cinq composants essentiels du traitement du langage naturel dans l'intelligence artificielle sont 1) Analyse morphologique et lexicale 2) Analyse syntaxique 3) Analyse sémantique 4) Intégration du discours 5) Analyse pragmatique
- Trois types de système d'écriture de processus naturel sont 1) Logographique 2) Syllabique 3) Alphabétique
- L'apprentissage automatique et l'inférence statistique sont deux méthodes de mise en œuvre de l'apprentissage des processus naturels.
- Les applications essentielles de la PNL sont la recherche d'informations et la recherche sur le Web, la réponse aux questions de correction grammaticale, le résumé de texte, la traduction automatique, etc.
- Futurs ordinateurs ou machines avec l'aide de la PNL et Sciences des données sera capable d'apprendre des informations en ligne et de les appliquer dans le monde réel, cependant, beaucoup de travail reste à faire à cet égard.
- Le NLP est ambigu alors que le langage informatique open source est conçu pour être sans ambiguïté.
- Le plus grand avantage du système PNL dans l’Intelligence Artificielle est qu’il offre des réponses exactes aux questions, sans informations inutiles ou indésirables.
- Le plus gros inconvénient du système PNL est qu’il est conçu pour une tâche unique et spécifique. Il est donc incapable de s’adapter à de nouveaux domaines et problèmes en raison de ses fonctions limitées.