Natural Language Processing Tutorial: Hvad er NLP? Eksempler
Hvad er naturlig sprogbehandling?
Natural Language Processing (NLP) er en gren af โโkunstig intelligens, der hjรฆlper computere med at forstรฅ, fortolke og manipulere menneskelige sprog som engelsk eller hindi for at analysere og udlede dets betydning. NLP hjรฆlper udviklere med at organisere og strukturere viden til at udfรธre opgaver som oversรฆttelse, opsummering, navngivne enhedsgenkendelse, relationsudtrรฆkning, talegenkendelse, emnesegmentering osv.
NLPs historie
Her er vigtige begivenheder i historien om naturlig sprogbehandling:
1950- NLP startede, da Alan Turing udgav en artikel kaldet "Machine and Intelligence."
1950- Forsรธg pรฅ at automatisere oversรฆttelse mellem russisk og engelsk
1960- Chomskys og andres arbejde med formel sprogteori og generativ syntaks
1990- Probabilistiske og datadrevne modeller var blevet ret standard
2000- En stor mรฆngde tale- og tekstdata bliver tilgรฆngelige
Nรฆste i denne NLP-tutorial vil vi lรฆre, hvordan NLP virker.
Hvordan virker NLP?
Fรธr vi lรฆrer, hvordan NLP virker, lad os forstรฅ, hvordan mennesker bruger sprog-
Hver dag siger vi tusindvis af et ord, som andre mennesker tolker for at gรธre utallige ting. Vi betragter det som en simpel kommunikation, men vi ved alle, at ord stikker meget dybere end som sรฅ. Der er altid en eller anden sammenhรฆng, som vi udleder af, hvad vi siger, og hvordan vi siger det., NLP i Kunstig intelligens fokuserer aldrig pรฅ stemmemodulering; det trรฆkker pรฅ kontekstuelle mรธnstre.
Eksempel:
Man is to woman as king is to __________? Meaning (king) โ meaning (man) + meaning ( woman)=? The answer is- queen
Her kan vi sagtens forholde os sammen, fordi manden er mandskรธn og kvinde er kvindekรธn. Pรฅ samme mรฅde er kongen maskulint kรธn, og dens kvindelige kรธn er dronning.
Eksempel:
Is King to kings as the queen is to_______? The answer is--- queens
Her kan vi se to ord konger og konger, hvor det ene er ental og det andet er flertal. Derfor, nรฅr verdensdronningen kommer, hรฆnger den automatisk sammen med dronninger igen ental flertal.
Her er det stรธrste spรธrgsmรฅl, hvordan ved vi, hvad ord betyder? Lad os sige, hvem vil kalde det dronning?
Svaret er, at vi lรฆrer dette tรฆnker gennem erfaring. Men her er hovedspรธrgsmรฅlet, hvordan computeren ved om det samme?
Vi skal levere nok data til, at Maskiner kan lรฆre gennem erfaring. Vi kan fodre detaljer som
- Hendes Majestรฆt Dronningen.
- Dronningens tale under statsbesรธget
- Dronning Elizabeths krone
- Dronningens mor
- Dronningen er generรธs.
Med ovenstรฅende eksempler forstรฅr maskinen entiteten Queen.
Maskinen opretter ordvektorer som nedenfor. En ordvektor er bygget ved hjรฆlp af omgivende ord.
Maskinen skaber disse vektorer
- Som det lรฆrer fra flere datasรฆt
- Brug maskinlรฆring (f.eks. Deep Learning-algoritmer)
- En ordvektor er bygget ved hjรฆlp af omgivende ord.
Her er formlen:
Betydning (konge) โ betydning (mand) + betydning (kvinde)=?
Dette svarer til at udfรธre simple algebraiske operationer pรฅ ordvektorer:
Vektor (konge) โ vektor (mand) + vektor (kvinde)= vektor(?)
Hvortil maskinen svarer dronning.
Nรฆste i denne tutorial om naturlig sprogbehandling lรฆrer vi om komponenter i NLP.
Komponenter af NLP
Fem hovedkomponenter i naturlig sprogbehandling i AI er:
- Morfologisk og leksikalsk analyse
- Syntaktisk analyse
- Semantisk analyse
- Diskursintegration
- Pragmatisk analyse

Morfologisk og leksikalsk analyse
Leksikalsk analyse er et ordforrรฅd, der inkluderer dets ord og udtryk. Den skildrer analyse, identifikation og beskrivelse af ordenes struktur. Det omfatter opdeling af en tekst i afsnit, ord og sรฆtninger
Individuelle ord analyseres i deres komponenter, og ikke-ord-tokens, sรฅsom tegnsรฆtning, adskilles fra ordene.
Semantisk analyse
Semantisk analyse er en struktur skabt af den syntaktiske analysator, som tildeler betydninger. Denne komponent overfรธrer lineรฆre sekvenser af ord til strukturer. Det viser, hvordan ordene er forbundet med hinanden.
Semantik fokuserer kun pรฅ den bogstavelige betydning af ord, sรฆtninger og sรฆtninger. Dette abstraherer kun ordbogens betydning eller den virkelige betydning fra den givne kontekst. De strukturer, der er tildelt af den syntaktiske analysator, har altid tildelt betydning
F.eks. "farvelรธs grรธn idรฉ." Dette ville blive afvist af Symantec-analysen som farvelรธst her; grรธn giver ingen mening.
Pragmatisk analyse
Pragmatisk analyse beskรฆftiger sig med det overordnede kommunikative og sociale indhold og dets effekt pรฅ fortolkning. Det betyder at abstrahere eller udlede den meningsfulde brug af sprog i situationer. I denne analyse genfortolkes hovedfokus altid pรฅ, hvad der blev sagt, pรฅ hvad der menes.
Pragmatisk analyse hjรฆlper brugerne med at opdage denne tilsigtede effekt ved at anvende et sรฆt regler, der karakteriserer samarbejdsdialoger.
F.eks. "luk vinduet?" skal fortolkes som en anmodning i stedet for en ordre.
Syntaksanalyse
Ordene er almindeligt accepteret som vรฆrende de mindste syntaksenheder. Syntaksen refererer til de principper og regler, der styrer sรฆtningsstrukturen for ethvert enkelt sprog.
Syntaks fokus pรฅ den korrekte rรฆkkefรธlge af ord, som kan pรฅvirke deres betydning. Dette involverer analyse af ordene i en sรฆtning ved at fรธlge sรฆtningens grammatiske struktur. Ordene omdannes til strukturen for at vise, hvordan ordet er relateret til hinanden.
Diskursintegration
Det betyder en fornemmelse af konteksten. Betydningen af โโen enkelt sรฆtning, der afhรฆnger af disse sรฆtninger. Den overvejer ogsรฅ betydningen af โโden fรธlgende sรฆtning.
For eksempel afhรฆnger ordet "det" i sรฆtningen "Han ville det" af den forudgรฅende diskurskontekst.
Nรฆste i denne NLP-tutorial vil vi lรฆre om NLP og skrivesystemer.
NLP og skrivesystemer
Den slags skrivesystem, der bruges til et sprog, er en af โโde afgรธrende faktorer for at bestemme den bedste tilgang til tekstforbehandling. Skrivesystemer kan vรฆre
- Logografisk: et stort antal individuelle symboler reprรฆsenterer ord. Eksempel japansk, mandarin
- Stavelse: Individuelle symboler reprรฆsenterer stavelser
- Alfabetisk: Individuelle symboler reprรฆsenterer lyd
Stรธrstedelen af โโskriftsystemerne bruger det syllabiske eller alfabetiske system. Selv engelsk, med sit relativt enkle skriftsystem baseret pรฅ det romerske alfabet, bruger logografiske symboler, som inkluderer arabiske tal, valutasymboler (S, ยฃ) og andre specielle symboler.
Det giver fรธlgende udfordringer
- Det er en udfordring at udtrรฆkke mening(semantik) fra en tekst
- NLP i AI er afhรฆngig af kvaliteten af โโkorpuset. Hvis domรฆnet er stort, er det svรฆrt at forstรฅ konteksten.
- Der er en afhรฆngighed af karaktersรฆttet og sproget
Sรฅdan implementeres NLP
Nedenfor er angivet populรฆre metoder, der bruges til Natural Learning Process:
Maskinelรฆring: De lรฆrings-nlp-procedurer, der bruges under maskinlรฆring. Den fokuserer automatisk pรฅ de mest almindelige sager. Sรฅ nรฅr vi skriver regler i hรฅnden, er det ofte slet ikke korrekt bekymret for menneskelige fejl.
Statistisk slutning: NLP kan gรธre brug af statistiske inferensalgoritmer. Det hjรฆlper dig med at producere modeller, der er robuste. f.eks. indeholdende ord eller strukturer, som er kendt af alle.
NLP eksempler
I dag er Natural Process learning-teknologi meget brugt teknologi.
Her er almindelige naturlige sprogbehandlingsteknikker:
Informationssรธgning og websรธgning
Google, Yahoo, Bing og andre sรธgemaskiner basere deres maskinoversรฆttelsesteknologi pรฅ NLP deep learning-modeller. Det giver algoritmer mulighed for at lรฆse tekst pรฅ en webside, fortolke dens betydning og oversรฆtte den til et andet sprog.
Grammatikkorrektion:
NLP-teknik er meget udbredt af tekstbehandlingssoftware som MS-word til stave- og grammatikkontrol.
Besvarelse af spรธrgsmรฅl
Indtast nรธgleord for at stille spรธrgsmรฅl pรฅ naturligt sprog.
Tekstopsummering
Processen med at opsummere vigtig information fra en kilde for at producere en forkortet version
Maskinoversรฆttelse
Brug af computerapplikationer til at oversรฆtte tekst eller tale fra et naturligt sprog til et andet.
Fรธlelsesanalyse
NLP hjรฆlper virksomheder med at analysere et stort antal anmeldelser pรฅ et produkt. Det giver ogsรฅ deres kunder mulighed for at give en anmeldelse af det pรฅgรฆldende produkt.
Fremtiden for NLP
- Menneskelig lรฆsbar naturlig sprogbehandling er det stรธrste Al-problem. Det er mest det samme som at lรธse det centrale problem med kunstig intelligens og gรธre computere lige sรฅ intelligente som mennesker.
- Fremtidige computere eller maskiner ved hjรฆlp af NLP vil vรฆre i stand til at lรฆre af informationen online og anvende det i den virkelige verden, men der skal meget arbejde til i denne henseende.
- Natural language toolkit eller nltk bliver mere effektivt
- Kombineret med generering af naturligt sprog vil computere blive mere i stand til at modtage og give nyttig og ressourcestรฆrk information eller data.
Naturligt sprog vs. computersprog
Nedenfor er de vigtigste forskelle mellem naturligt sprog og computersprog:
| Parameter | Naturligt sprog | Computersprog |
|---|---|---|
| tvetydig | De er tvetydige i naturen. | De er designet til at vรฆre utvetydige. |
| Redundans | Naturlige sprog anvender masser af redundans. | Formelle sprog er mindre overflรธdige. |
| Bogstavelighed | Naturlige sprog er lavet af formsprog og metafor | Formelle sprog betyder prรฆcis, hvad de vil sige |
Fordele ved NLP
- Brugere kan stille spรธrgsmรฅl om ethvert emne og fรฅ et direkte svar inden for fรฅ sekunder.
- NLP-systemet giver svar pรฅ spรธrgsmรฅlene i naturligt sprog
- NLP-systemet tilbyder prรฆcise svar pรฅ spรธrgsmรฅlene, ingen unรธdvendig eller uรธnsket information
- Nรธjagtigheden af โโsvarene รธges med mรฆngden af โโrelevant information i spรธrgsmรฅlet.
- NLP-processen hjรฆlper computere med at kommunikere med mennesker pรฅ deres sprog og skalerer andre sprogrelaterede opgaver
- Giver dig mulighed for at udfรธre mere sprogbaserede data sammenlignet med et menneske uden trรฆthed og pรฅ en upartisk og konsekvent mรฅde.
- Strukturering af en meget ustruktureret datakilde
Ulemper ved NLP
- Kompleks forespรธrgselssprog - systemet er muligvis ikke i stand til at give det korrekte svar pรฅ spรธrgsmรฅlet, der er dรฅrligt formuleret eller tvetydigt.
- Systemet er kun bygget til en enkelt og specifik opgave; det er ude af stand til at tilpasse sig nye domรฆner og problemer pรฅ grund af begrรฆnsede funktioner.
- NLP-systemet har ikke en brugergrรฆnseflade, der mangler funktioner, der giver brugerne mulighed for at interagere med systemet yderligere
Resumรฉ
- Natural Language Processing er en gren af โโAI, som hjรฆlper computere med at forstรฅ, fortolke og manipulere menneskeligt sprog
- NLP startede, da Alan Turing udgav en artikel kaldet "Machine and Intelligence".
- NLP fokuserer aldrig pรฅ stemmemodulering; det trรฆkker pรฅ kontekstuelle mรธnstre
- Fem vรฆsentlige komponenter i naturlig sprogbehandling i kunstig intelligens er 1) Morfologisk og leksikalsk analyse 2) Syntaktisk analyse 3) Semantisk analyse 4) Diskursintegration 5) Pragmatisk analyse
- Tre typer af det naturlige processkriftsystem er 1)Logografisk 2) Stavelse 3) Alfabetisk
- Maskinlรฆring og statistisk inferens er to metoder til implementering af Natural Process Learning
- Vรฆsentlige anvendelser af NLP er informationssรธgning og websรธgning, besvarelse af spรธrgsmรฅl til grammatikkorrektion, tekstopsummering, maskinoversรฆttelse osv.
- Fremtidens computere eller maskiner ved hjรฆlp af NLP og data, Science vil vรฆre i stand til at lรฆre af informationen online og anvende det i den virkelige verden, men der skal meget arbejde til i denne henseende
- NLP er tvetydige, mens open source computersprog er designet til utvetydigt
- Den stรธrste fordel ved NLP i kunstig intelligens-systemet er, at det giver nรธjagtige svar pรฅ spรธrgsmรฅlene, ingen unรธdvendig eller uรธnsket information
- Den stรธrste ulempe ved NLP-systemet er kun bygget til en enkelt og specifik opgave, sรฅ det er ude af stand til at tilpasse sig nye domรฆner og problemer pรฅ grund af begrรฆnsede funktioner




