Naturlig språkbehandlingsveiledning: Hva er NLP? Eksempler

Hva er naturlig språkbehandling?

Natural Language Processing (NLP) er en gren av AI som hjelper datamaskiner til å forstå, tolke og manipulere menneskelige språk som engelsk eller hindi for å analysere og utlede betydningen. NLP hjelper utviklere med å organisere og strukturere kunnskap for å utføre oppgaver som oversettelse, oppsummering, navngitt enhetsgjenkjenning, relasjonsutvinning, talegjenkjenning, emnesegmentering, etc.

NLPs historie

Her er viktige hendelser i historien til Natural Language Processing:

1950- NLP startet da Alan Turing publiserte en artikkel kalt "Machine and Intelligence."

1950- Forsøk på å automatisere oversettelse mellom russisk og engelsk

1960- Arbeidet til Chomsky og andre om formell språkteori og generativ syntaks

1990- Probabilistiske og datadrevne modeller var blitt ganske standard

2000- En stor mengde tale- og tekstdata blir tilgjengelig

Neste i denne NLP-opplæringen vil vi lære hvordan NLP fungerer.

Hvordan fungerer NLP?

Før vi lærer hvordan NLP fungerer, la oss forstå hvordan mennesker bruker språk-

Hver dag sier vi tusenvis av et ord som andre mennesker tolker for å gjøre utallige ting. Vi anser det som en enkel kommunikasjon, men vi vet alle at ord stikker mye dypere enn det. Det er alltid en eller annen kontekst vi henter fra det vi sier og hvordan vi sier det., NLP i Kunstig intelligens fokuserer aldri på stemmemodulering; det trekker på kontekstuelle mønstre.

Eksempel:

Man is to woman as king is to __________?
Meaning (king) – meaning (man) + meaning ( woman)=?
The answer is-  queen

Her kan vi lett samrelere fordi mannen er mannlig kjønn og kvinne er kvinnelig kjønn. På samme måte er kongen maskulint kjønn, og dets kvinnelige kjønn er dronning.

Eksempel:

Is King to kings as the queen is to_______?
The answer is--- queens 

Her kan vi se to ord konger og konger der det ene er entall og det andre er flertall. Derfor, når verdensdronningen kommer, blir den automatisk samrelatert med dronninger igjen entall flertall.

Her er det største spørsmålet at hvordan vet vi hva ord betyr? La oss si hvem vil kalle det dronning?

NLP arbeid

Svaret er at vi lærer at dette tenker gjennom erfaring. Men her er hovedspørsmålet at hvordan datamaskinen vet om det samme?

Vi må gi nok data til at maskiner kan lære gjennom erfaring. Vi kan mate detaljer som

  • Hennes Majestet Dronningen.
  • Dronningens tale under statsbesøket
  • Kronen til dronning Elizabeth
  • Dronningens mor
  • Dronningen er raus.

Med eksemplene ovenfor forstår maskinen enheten Queen.

Maskinen lager ordvektorer som nedenfor. En ordvektor bygges ved hjelp av omgivende ord.

NLP arbeid

Maskinen lager disse vektorene

  • Som den lærer fra flere datasett
  • Bruk maskinlæring (f.eks. Deep Learning-algoritmer)
  • En ordvektor bygges ved hjelp av omgivende ord.

Her er formelen:

Mening (konge) – betydning (mann) + betydning (kvinne)=?

Dette tilsvarer å utføre enkle algebraiske operasjoner på ordvektorer:

Vektor (konge) – vektor (mann) + vektor (kvinne)= vektor(?)

Som maskinen svarer dronning.

Neste i denne opplæringen for naturlig språkbehandling vil vi lære om komponenter i NLP.

Komponenter av NLP

Fem hovedkomponenter i naturlig språkbehandling i AI er:

  • Morfologisk og leksikalsk analyse
  • Syntaktisk analyse
  • Semantisk analyse
  • Diskursintegrasjon
  • Pragmatisk analyse
Komponenter av NLP
Komponenter av NLP

Morfologisk og leksikalsk analyse

Leksikalsk analyse er et vokabular som inkluderer dets ord og uttrykk. Den skildrer å analysere, identifisere og beskrive strukturen til ord. Det inkluderer å dele opp en tekst i avsnitt, ord og setninger

Individuelle ord blir analysert inn i sine komponenter, og ikke-ord-symboler som tegnsetting skilles fra ordene.

Semantisk analyse

Semantisk analyse er en struktur laget av den syntaktiske analysatoren som tildeler betydninger. Denne komponenten overfører lineære sekvenser av ord til strukturer. Den viser hvordan ordene er knyttet til hverandre.

Semantikk fokuserer bare på den bokstavelige betydningen av ord, setninger og setninger. Dette abstraherer bare ordbokbetydningen eller den virkelige betydningen fra den gitte konteksten. Strukturene tildelt av den syntaktiske analysatoren har alltid tildelt mening

F.eks. "fargeløs grønn idé." Dette ville bli avvist av Symantec-analysen som fargeløst Her; grønt gir ingen mening.

Pragmatisk analyse

Pragmatisk analyse omhandler det overordnede kommunikative og sosiale innholdet og dets effekt på tolkning. Det betyr å abstrahere eller utlede meningsfull bruk av språk i situasjoner. I denne analysen ble hovedfokuset alltid på det som ble sagt omtolket på hva som menes.

Pragmatisk analyse hjelper brukere til å oppdage denne tiltenkte effekten ved å bruke et sett med regler som kjennetegner samarbeidsdialoger.

For eksempel "lukke vinduet?" bør tolkes som en forespørsel i stedet for en ordre.

Syntaksanalyse

Ordene er vanligvis akseptert som de minste enhetene av syntaks. Syntaksen refererer til prinsippene og reglene som styrer setningsstrukturen til ethvert enkeltspråk.

Syntaksfokus på riktig rekkefølge av ord som kan påvirke betydningen. Dette innebærer analyse av ordene i en setning ved å følge setningens grammatiske struktur. Ordene omdannes til strukturen for å vise hvordan ordet er relatert til hverandre.

Diskursintegrasjon

Det betyr en følelse av konteksten. Betydningen av en enkelt setning som avhenger av disse setningene. Den vurderer også betydningen av følgende setning.

For eksempel avhenger ordet "det" i setningen "Han ville ha det" av den tidligere diskurskonteksten.

Neste i denne NLP-opplæringen vil vi lære om NLP og skrivesystemer.

NLP og skrivesystemer

Hva slags skrivesystem som brukes for et språk er en av de avgjørende faktorene for å bestemme den beste tilnærmingen for tekstforbehandling. Skrivesystemer kan være

  1. Logografisk: et stort antall individuelle symboler representerer ord. Eksempel japansk, mandarin
  2. Stavelse: Individuelle symboler representerer stavelser
  3. Alfabetisk: Individuelle symboler representerer lyd

Flertallet av skrivesystemene bruker det stavelses- eller alfabetiske systemet. Selv engelsk, med sitt relativt enkle skriftsystem basert på det romerske alfabetet, bruker logografiske symboler som inkluderer arabiske tall, valutasymboler (S, £) og andre spesialsymboler.

Dette gir følgende utfordringer

  • Å trekke ut mening(semantikk) fra en tekst er en utfordring
  • NLP i AI er avhengig av kvaliteten på korpuset. Hvis domenet er stort, er det vanskelig å forstå konteksten.
  • Det er en avhengighet av tegnsettet og språket

Hvordan implementere NLP

Nedenfor er det gitt populære metoder som brukes for naturlig læringsprosess:

Maskinlæring: Lærings-nlp-prosedyrene som brukes under maskinlæring. Den fokuserer automatisk på de vanligste tilfellene. Så når vi skriver regler for hånd, er det ofte ikke riktig i det hele tatt bekymret for menneskelige feil.

Statistisk slutning: NLP kan benytte seg av statistiske inferensalgoritmer. Det hjelper deg å produsere modeller som er robuste. som inneholder ord eller strukturer som er kjent for alle.

NLP eksempler

I dag er teknologi for naturlig prosesslæring mye brukt teknologi.

Her er vanlige teknikker for behandling av naturlig språk:

Informasjonsinnhenting og nettsøk

Google, Yahoo, Bing og andre søkemotorer baserer sin maskinoversettelsesteknologi på NLP dyplæringsmodeller. Den lar algoritmer lese tekst på en nettside, tolke dens betydning og oversette den til et annet språk.

Grammatikkretting:

NLP-teknikk er mye brukt av tekstbehandlerprogramvare som MS-word for stavekorrigering og grammatikksjekk.

Grammatikkretting

Spørsmål svar

Skriv inn nøkkelord for å stille spørsmål på naturlig språk.

Tekstoppsummering

Prosessen med å oppsummere viktig informasjon fra en kilde for å produsere en forkortet versjon

Maskinoversettelse

Bruk av dataapplikasjoner for å oversette tekst eller tale fra ett naturlig språk til et annet.

Maskinoversettelse

Sentimentanalyse

NLP hjelper bedrifter med å analysere et stort antall anmeldelser på et produkt. Det lar også kundene deres gi en anmeldelse av det aktuelle produktet.

Fremtiden for NLP

  • Menneskelig lesbar naturlig språkbehandling er det største Al-problemet. Det er mest det samme som å løse det sentrale problemet med kunstig intelligens og gjøre datamaskiner like intelligente som mennesker.
  • Fremtidige datamaskiner eller maskiner ved hjelp av NLP vil være i stand til å lære av informasjonen på nettet og bruke den i den virkelige verden, men mye arbeid må til på dette området.
  • Naturlig språkverktøysett eller nltk blir mer effektivt
  • Kombinert med naturlig språkgenerering vil datamaskiner bli mer i stand til å motta og gi nyttig og ressurssterk informasjon eller data.

Naturlig språk vs. datamaskinspråk

Nedenfor er de viktigste forskjellene mellom naturlig språk og datamaskinspråk:

Parameter Naturlig språk Datamaskinspråk
Tvetydig De er tvetydige i naturen. De er utformet for entydig.
Overflødighet Naturlige språk bruker mye redundans. Formelle språk er mindre overflødige.
Bokstavlighet Naturlige språk er laget av idiom og metafor Formelle språk betyr akkurat det de vil si

Fordeler med NLP

  • Brukere kan stille spørsmål om ethvert emne og få et direkte svar i løpet av sekunder.
  • NLP-systemet gir svar på spørsmålene i naturlig språk
  • NLP-systemet gir eksakte svar på spørsmålene, ingen unødvendig eller uønsket informasjon
  • Nøyaktigheten av svarene øker med mengden relevant informasjon gitt i spørsmålet.
  • NLP-prosessen hjelper datamaskiner med å kommunisere med mennesker på deres språk og skalerer andre språkrelaterte oppgaver
  • Lar deg utføre mer språkbaserte data sammenlignet med et menneske uten tretthet og på en objektiv og konsistent måte.
  • Strukturere en svært ustrukturert datakilde

Ulemper med NLP

  • Kompleks spørrespråk - systemet kan kanskje ikke gi det riktige svaret på spørsmålet som er dårlig formulert eller tvetydig.
  • Systemet er kun bygget for en enkelt og spesifikk oppgave; den er ikke i stand til å tilpasse seg nye domener og problemer på grunn av begrensede funksjoner.
  • NLP-systemet har ikke et brukergrensesnitt som mangler funksjoner som lar brukere samhandle ytterligere med systemet

Sammendrag

  • Natural Language Processing er en gren av AI som hjelper datamaskiner til å forstå, tolke og manipulere menneskelig språk
  • NLP startet da Alan Turing publiserte en artikkel kalt "Machine and Intelligence".
  • NLP fokuserer aldri på stemmemodulering; det trekker på kontekstuelle mønstre
  • Fem essensielle komponenter i naturlig språkbehandling i kunstig intelligens er 1) Morfologisk og leksikalsk analyse 2) Syntaktisk analyse 3) Semantisk analyse 4) Diskursintegrasjon 5) Pragmatisk analyse
  • Tre typer av det naturlige prosess-skrivesystemet er 1)Logografisk 2) Stavelse 3) Alfabetisk
  • Maskinlæring og statistisk slutning er to metoder for implementering av naturlig prosesslæring
  • Viktige bruksområder for NLP er informasjonsinnhenting og nettsøk, besvarelse av spørsmål om grammatikk, tekstoppsummering, maskinoversettelse, etc.
  • Fremtidige datamaskiner eller maskiner ved hjelp av NLP og data Science vil være i stand til å lære av informasjonen på nettet og bruke den i den virkelige verden, men det er mye arbeid som trengs for å gjøre dette
  • NLP er tvetydige mens åpen kildekode-dataspråk er utformet for entydig
  • Den største fordelen med NLP i kunstig intelligens-systemet er at det gir eksakte svar på spørsmålene, ingen unødvendig eller uønsket informasjon
  • Den største ulempen ved NLP-systemet er bygget for en enkelt og spesifikk oppgave, slik at det ikke er i stand til å tilpasse seg nye domener og problemer på grunn av begrensede funksjoner

Oppsummer dette innlegget med: