Märkning av problem och dold Markov-modell

Innehållsförteckning:

Anonim

Märkning av meningar

Märkning Mening i bredare mening hänvisar till tillägget av etiketter av verbet, substantiv, etc. i sammanhanget av meningen. Identifiering av POS-taggar är en komplicerad process. Generisk taggning av POS är alltså inte manuellt eftersom vissa ord kan ha olika (tvetydiga) betydelser beroende på meningens mening. Konvertering av text i form av en lista är ett viktigt steg innan märkning eftersom varje ord i listan slingras och räknas för en viss tagg. Se koden nedan för att förstå den bättre

import nltktext = "Hello Guru99, You have to build a very good site, and I love visiting your site."sentence = nltk.sent_tokenize(text)for sent in sentence:print(nltk.pos_tag(nltk.word_tokenize(sent)))

PRODUKTION

[('Hello', 'NNP'), ('Guru99', 'NNP'), (',', ','), ('You', 'PRP'), ('have', 'VBP'), ('build', 'VBN'), ('a', 'DT'), ('very', 'RB'), ('good', 'JJ'), ('site', 'NN'), ('and', 'CC'), ('I', 'PRP'), ('love', 'VBP'), ('visiting', 'VBG'), ('your', 'PRP$'), ('site', 'NN'), ('.', '.')]

Kodförklaring

  1. Kod för att importera nltk (verktygssats för naturligt språk som innehåller undermoduler som meningstoken och ordstoken.)
  2. Text vars taggar ska skrivas ut.
  3. Meningstokenisering
  4. For loop implementeras där ord tokeniseras från mening och tagg för varje ord skrivs ut som utdata.

I Corpus finns det två typer av POS-taggar:

  • Regelbaserad
  • Stokastiska POS-taggar

1. Regelbaserad POS-tagger: För orden som har tvetydig betydelse tillämpas regelbaserad strategi baserad på kontextuell information. Det görs genom att kontrollera eller analysera betydelsen av föregående eller följande ord. Information analyseras från ordets omgivning eller i sig själv. Därför är ord taggade av de grammatiska reglerna för ett visst språk som versaler och skiljetecken. t.ex. Brills tagger.

2.Stochastic POS Tagger: Olika metoder som frekvens eller sannolikhet tillämpas enligt denna metod. Om ett ord mestadels är taggat med en viss tagg i träningsuppsättningen ges det i testmeningen just den taggen. Ordtaggen är inte bara beroende av sin egen tagg utan också av den tidigare taggen. Denna metod är inte alltid korrekt. Ett annat sätt är att beräkna sannolikheten för att en specifik tagg ska inträffa i en mening. Således beräknas den slutliga taggen genom att kontrollera den högsta sannolikheten för ett ord med en viss tagg.

Dold Markov-modell:

Märkningsproblem kan också modelleras med HMM. Det behandlar ingångsmärken som observerbara sekvenser medan taggar betraktas som dolda tillstånd och målet är att bestämma den dolda tillståndssekvensen. Till exempel x = x 1 , x 2 ,…, x n där x är en sekvens av tokens medan y = y 1 , y 2 , y 3 , y 4 ... y n är den dolda sekvensen.

Hur fungerar HMM-modellen?

HMM använder anslutningsfördelning som är P (x, y) där x är ingångssekvensen / tokensekvensen och y är taggsekvensen.

Tagssekvens för x kommer att vara argmax y1 … .yn p (x1, x2,… .xn, y1, y2, y3,…). Vi har kategoriserat taggar från texten, men statistik för sådana taggar är avgörande. Så nästa del räknar dessa taggar för statistisk studie.