Vad är övervakad maskininlärning?
I övervakad lärande tränar du maskinen med hjälp av data som är väl märkta . Det betyder att vissa data redan är taggade med rätt svar. Det kan jämföras med lärande som sker i närvaro av en handledare eller en lärare.
En övervakad inlärningsalgoritm lär sig av märkta träningsdata, hjälper dig att förutsäga resultat för oförutsedda data.
Att lyckas bygga, skala och distribuera noggranna övervakade maskininlärningsmodeller tar tid och teknisk expertis från ett team av högt kvalificerade datavetare. Dessutom måste datavetare bygga om modeller för att säkerställa att insikterna förblir sanna tills dess data ändras.
I den här handledningen lär du dig:
- Vad är övervakad maskininlärning?
- Hur övervakat lärande fungerar
- Typer av övervakade maskininlärningsalgoritmer
- Övervakad kontra oövervakad maskininlärningsteknik
- Utmaningar i övervakad maskininlärning
- Fördelar med övervakat lärande:
- Nackdelar med övervakat lärande
- Bästa praxis för övervakat lärande
Hur övervakat lärande fungerar
Du vill till exempel träna en maskin som hjälper dig att förutsäga hur lång tid det tar för dig att köra hem från din arbetsplats. Här börjar du med att skapa en uppsättning märkta data. Dessa uppgifter inkluderar
- Väderförhållanden
- Tid på dagen
- Högtider
Alla dessa detaljer är dina ingångar. Produktionen är den tid det tog att köra hem den specifika dagen.
Du vet instinktivt att om det regnar ute, tar det längre tid att köra hem. Men maskinen behöver data och statistik.
Låt oss nu se hur du kan utveckla en övervakad inlärningsmodell för detta exempel som hjälper användaren att bestämma pendeltiden. Det första du behöver skapa är en träningssats. Den här träningssatsen innehåller den totala pendeltiden och motsvarande faktorer som väder, tid etc. Baserat på den här träningsuppsättningen kanske din maskin ser att det finns ett direkt samband mellan mängden regn och tid det tar att komma hem.
Så det konstaterar att ju mer det regnar, desto längre kör du för att komma tillbaka till ditt hem. Det kan också se sambandet mellan tiden du lämnar jobbet och tiden du är på väg.
Ju närmare du är 18.00 desto längre tid tar det för dig att komma hem. Din maskin kan hitta några av förhållandena med dina märkta data.
Detta är början på din datamodell. Det börjar påverka hur regn påverkar hur människor kör. Det börjar också se att fler reser under en viss tid på dagen.
Typer av övervakade maskininlärningsalgoritmer
Regression:
Regressionsteknik förutspår ett enda utgångsvärde med hjälp av träningsdata.
Exempel : Du kan använda regression för att förutsäga huspriset från träningsdata. Ingångsvariablerna kommer att vara ort, storlek på ett hus etc.
Styrkor : Output har alltid en sannolik tolkning, och algoritmen kan regleras för att undvika övermontering.
Svagheter : Logistisk regression kan underprestera när det finns flera eller icke-linjära beslutsgränser. Denna metod är inte flexibel, så den fångar inte mer komplexa relationer.
Logistisk återgång:
Logistisk regressionsmetod som används för att uppskatta diskreta värden baserat på en uppsättning oberoende variabler. Det hjälper dig att förutsäga sannolikheten för en händelse genom att anpassa data till en logit-funktion. Därför är det också känt som logistisk regression. Som det förutsäger sannolikheten ligger dess utgångsvärde mellan 0 och 1.
Här är några typer av regressionsalgoritmer
Klassificering:
Klassificering innebär att gruppera utdata i en klass. Om algoritmen försöker märka inmatning i två distinkta klasser kallas det binär klassificering. Att välja mellan mer än två klasser kallas multiklassklassificering.
Exempel : Att avgöra om någon kommer att vara ett lånefall.
Styrkor : Klassificeringsträdet fungerar mycket bra i praktiken
Svagheter : Obegränsade, enskilda träd är benägna att överanpassa.
Här är några typer av klassificeringsalgoritmer
Naiva Bayes-klassificerare
Naïve Bayesian-modell (NBN) är enkel att bygga och mycket användbar för stora datamängder. Denna metod består av direkta acykliska diagram med en förälder och flera barn. Det förutsätter oberoende bland barnnoder separerade från sin förälder.
Beslutsträd
Beslutsträd klassificerar förekomst genom att sortera dem baserat på funktionsvärdet. I den här metoden är varje läge en instans. Det ska klassificeras och varje gren representerar ett värde som noden kan anta. Det är en allmänt använd teknik för klassificering. I denna metod är klassificering ett träd som är känt som ett beslutsträd.
Det hjälper dig att uppskatta verkliga värden (kostnad för att köpa en bil, antal samtal, total månadsförsäljning etc.).
Stöd Vector Machine
Support vector machine (SVM) är en typ av inlärningsalgoritm som utvecklades 1990. Denna metod baseras på resultat från statistisk inlärningsteori introducerad av Vap Nik.
SVM-maskiner är också nära kopplade till kärnfunktioner, vilket är ett centralt koncept för de flesta inlärningsuppgifter. Kärnramverket och SVM används inom en mängd olika fält. Det inkluderar multimediainformation, bioinformatik och mönsterigenkänning.
Övervakad kontra oövervakad maskininlärningsteknik
Baserat på | Övervakad teknik för maskininlärning | Oövervakad maskininlärningsteknik |
Indata | Algoritmer tränas med hjälp av märkta data. | Algoritmer används mot data som inte är märkta |
Beräkningskomplexitet | Övervakat lärande är en enklare metod. | Oövervakat lärande är beräkningsmässigt komplext |
Noggrannhet | Mycket noggrann och pålitlig metod. | Mindre noggrann och pålitlig metod. |
Utmaningar i övervakad maskininlärning
Här är utmaningar inför övervakad maskininlärning:
- Irrelevant inmatningsfunktion närvarande träningsdata kan ge felaktiga resultat
- Dataförberedelse och förbehandling är alltid en utmaning.
- Noggrannheten lider när omöjliga, osannolika och ofullständiga värden har matats in som träningsdata
- Om den berörda experten inte är tillgänglig är den andra metoden "brute-force". Det betyder att du måste tänka att rätt funktioner (inmatningsvariabler) för att träna maskinen. Det kan vara felaktigt.
Fördelar med övervakat lärande:
- Med övervakat lärande kan du samla in data eller producera en datautgång från den tidigare erfarenheten
- Hjälper dig att optimera prestandakriterier med hjälp av erfarenhet
- Övervakad maskininlärning hjälper dig att lösa olika typer av verkliga beräkningsproblem.
Nackdelar med övervakat lärande
- Beslutsgränsen kan övertränas om din träningssats som inte har exempel som du vill ha i en klass
- Du måste välja många bra exempel från varje klass medan du tränar klassificeraren.
- Att klassificera big data kan vara en verklig utmaning.
- Utbildning för övervakat lärande kräver mycket beräkningstid.
Bästa praxis för övervakat lärande
- Innan du gör något annat måste du bestämma vilken typ av data som ska användas som en träningssats
- Du måste bestämma strukturen för den inlärda funktionen och inlärningsalgoritmen.
- Hitta motsvarande resultat antingen från mänskliga experter eller från mätningar
Sammanfattning
- I övervakad lärande tränar du maskinen med hjälp av data som är väl märkta.
- Du vill träna en maskin som hjälper dig att förutsäga hur lång tid det tar att köra hem från din arbetsplats är ett exempel på övervakat lärande
- Regression och klassificering är två typer av övervakade tekniker för maskininlärning.
- Övervakat lärande är en enklare metod medan icke övervakat lärande är en komplex metod.
- Den största utmaningen i övervakat lärande är att irrelevant inmatningsfunktion närvarande träningsdata kan ge felaktiga resultat.
- Den största fördelen med övervakat lärande är att det låter dig samla in data eller producera en datautgång från den tidigare erfarenheten.
- Nackdelen med den här modellen är att beslutsgränsen kan vara överbelastad om din träningssats inte har exempel som du vill ha i en klass.
- Som en bästa praxis för övervakning av lärande måste du först bestämma vilken typ av data som ska användas som en träningssats.