Förvirringsmatris i maskininlärning med EXEMPEL

Innehållsförteckning:

Anonim

Vad är förvirringsmatris?

En förvirringsmatris är en prestandamätteknik för maskininlärningsklassificering. Det är en typ av tabell som hjälper dig att känna till klassificeringsmodellens prestanda på en uppsättning testdata för att de verkliga värdena är kända. Uttrycket förvirringsmatris i sig är väldigt enkelt, men dess relaterade terminologi kan vara lite förvirrande. Här ges några enkla förklaringar för denna teknik.

I den här handledningen lär du dig,

  • Vad är förvirringsmatris?
  • Fyra resultat av förvirringsmatrisen
  • Exempel på förvirringsmatris:
  • Hur man beräknar en förvirringsmatris
  • Andra viktiga villkor som använder en förvirringsmatris
  • Varför behöver du förvirringsmatris?

Fyra resultat av förvirringsmatrisen

Förvirringsmatrisen visualiserar noggrannheten hos en klassificerare genom att jämföra de faktiska och förutsagda klasserna. Den binära förvirringsmatrisen består av rutor:

Förvirringstabell
  • TP: True Positive: Förutspådda värden förutses korrekt som faktiska positiva
  • FP: Förutspådda värden förutsagde felaktigt ett faktiskt positivt. dvs negativa värden förutsagda som positiva
  • FN: Falskt negativt: Positiva värden förutsagda som negativa
  • TN: True Negative: Förutsägda värden förutses korrekt som ett faktiskt negativt

Du kan beräkna noggrannhetstestet från förvirringsmatrisen:

Exempel på förvirringsmatris:

Confusion Matrix är en användbar maskininlärningsmetod som låter dig mäta Recall, Precision, Accuracy och AUC-ROC curve. Nedan ges ett exempel för att känna till termerna True Positive, True Negative, False Negative och True Negative.

Verkligt positivt:

Du projicerade positivt och det visar sig vara sant. Till exempel hade du förutspått att Frankrike skulle vinna VM och det vann.

Sann Negativ:

När du förutspådde negativt, och det är sant. Du hade förutsagt att England inte skulle vinna och det förlorade.

Falskt positivt:

Din förutsägelse är positiv och den är falsk.

Du hade förutsagt att England skulle vinna, men det förlorade.

Falskt negativ:

Din förutsägelse är negativ och resultatet är också falsk.

Du hade förutsagt att Frankrike inte skulle vinna, men det vann.

Du bör komma ihåg att vi beskriver förutsagda värden som antingen sant eller falskt eller positivt och negativt.

Hur man beräknar en förvirringsmatris

Här är steg för steg process för att beräkna en förvirringsmatris vid datautvinning

  • Steg 1) Först måste du testa dataset med dess förväntade resultatvärden.
  • Steg 2) Förutsäg alla rader i testdatasetet.
  • Steg 3) Beräkna förväntade förutsägelser och resultat:
  1. Totalt antal korrekta förutsägelser för varje klass.
  2. Totalt antal felaktiga förutsägelser för varje klass.

Därefter är dessa nummer organiserade enligt nedan angivna metoder:

  • Varje rad i matrisen länkar till en förutsagd klass.
  • Varje kolumn i matrisen motsvarar en faktisk klass.
  • Det totala antalet korrekta och felaktiga klassificeringar anges i tabellen.
  • Summan av korrekta förutsägelser för en klass går in i den förutsagda kolumnen och förväntad rad för det klassvärdet.
  • Summan av felaktiga förutsägelser för en klass går till den förväntade raden för det klassvärdet och den förutsagda kolumnen för det specifika klassvärdet.

Andra viktiga villkor som använder en förvirringsmatris

  • Positivt prediktivt värde (PVV): Detta är mycket nära precision. En signifikant skillnad mellan de två terminerna är att PVV tar hänsyn till prevalens. I situationen där klasserna är perfekt balanserade är det positiva prediktiva värdet detsamma som precision.
  • Null Error Rate: Denna term används för att definiera hur många gånger din förutsägelse skulle vara fel om du kan förutsäga majoritetsklassen. Du kan betrakta det som ett basvärde att jämföra din klassificerare.
  • F-poäng: F1-poäng är ett viktat genomsnittligt poäng för det verkliga positiva (återkallande) och precision.
  • Roc-kurva: Roc-kurvan visar de verkliga positiva hastigheterna mot den falska positiva hastigheten vid olika klipppunkter. Det visar också en avvägning mellan känslighet (återkallande och specificitet eller den verkliga negativa räntan).
  • Precision: Precisionsmätvärdet visar noggrannheten för den positiva klassen. Den mäter hur sannolikt förutsägelsen för den positiva klassen är korrekt.

Den maximala poängen är 1 när klassificatorn klassificerar alla positiva värden perfekt. Precision ensam är inte särskilt bra eftersom den ignorerar den negativa klassen. Mätvärdet är vanligtvis ihopkopplat med minnet. Recall kallas också känslighet eller sann positiv hastighet.

  • Känslighet : Känslighet beräknar förhållandet mellan positiva klasser som detekteras korrekt. Denna mätning ger hur bra modellen är att känna igen en positiv klass.

Varför behöver du förvirringsmatris?

Här är fördelar / fördelar med att använda en förvirringsmatris.

  • Den visar hur någon klassificeringsmodell är förvirrad när den gör förutsägelser.
  • Förvirringsmatris ger dig inte bara inblick i de fel som görs av din klassificering utan också typer av fel som görs.
  • Denna uppdelning hjälper dig att övervinna begränsningen med att bara använda klassificeringsnoggrannheten.
  • Varje kolumn i förvirringsmatrisen representerar förekomsterna av den förutsagda klassen.
  • Varje rad i förvirringsmatrisen representerar förekomsten av den aktuella klassen.
  • Det ger insikt inte bara de fel som görs av en klassificering utan också fel som görs.