Oövervakad maskininlärning: Vad är, algoritmer, exempel

Innehållsförteckning:

Anonim

Oövervakat lärande

Oövervakat lärande är en maskininlärningsteknik där användarna inte behöver övervaka modellen. Istället låter modellen arbeta på egen hand för att upptäcka mönster och information som tidigare inte upptäcktes. Den handlar främst omärkta data.

Oövervakad inlärningsalgoritmer

Oövervakad inlärningsalgoritmer tillåter användare att utföra mer komplexa bearbetningsuppgifter jämfört med övervakat lärande. Även om övervakat lärande kan vara mer oförutsägbart jämfört med andra naturliga inlärningsmetoder. Oövervakade inlärningsalgoritmer inkluderar kluster, anomalidetektering, neurala nätverk etc.

I den här handledningen lär du dig:

  • Exempel på maskinövervakning utan tillsyn
  • Varför oövervakat lärande?
  • Typer av icke-övervakat lärande
  • Kluster
  • Klustringstyper
  • Förening
  • Övervakad kontra oövervakad maskininlärning
  • Tillämpningar av maskinövervakning utan tillsyn
  • Nackdelar med oövervakat lärande

Exempel på maskinövervakning utan tillsyn

Låt oss ta fallet med en baby och hennes familjens hund.

Hon känner till och identifierar den här hunden. Några veckor senare tar en familjevän med sig en hund och försöker leka med barnet.

Baby har inte sett den här hunden tidigare. Men det känner igen många funktioner (2 öron, ögon, gå på 4 ben) är som hennes husdjur. Hon identifierar det nya djuret som en hund. Det här är inlärning utan tillsyn, där man inte lärs ut men man lär sig av uppgifterna (i det här fallet uppgifter om en hund.) Hade detta övervakat lärande, skulle familjevännen ha sagt till barnet att det är en hund.

Varför oövervakat lärande?

Här är de främsta anledningarna till att använda icke-övervakat lärande:

  • Oövervakad maskininlärning hittar alla slags okända mönster i data.
  • Oövervakade metoder hjälper dig att hitta funktioner som kan vara användbara för kategorisering.
  • Det äger rum i realtid, så alla ingångsdata som ska analyseras och märkas i närvaro av elever.
  • Det är lättare att få omärkt data från en dator än märkt data, som behöver manuellt ingripande.

Typer av icke-övervakat lärande

Oövervakade inlärningsproblem grupperas ytterligare i kluster- och associeringsproblem.

Kluster

Clustering är ett viktigt begrepp när det gäller inlärning utan tillsyn. Det handlar främst om att hitta en struktur eller ett mönster i en samling okategoriserade data. Klusteralgoritmer bearbetar dina data och hittar naturliga kluster (grupper) om de finns i data. Du kan också ändra hur många kluster dina algoritmer ska identifiera. Det låter dig justera granulariteten för dessa grupper.

Det finns olika typer av kluster du kan använda:

Exklusiv (partitionering)

I den här klustringsmetoden grupperas data på ett sådant sätt att en data endast kan tillhöra ett kluster.

Exempel: K-betyder

Agglomerativ

I denna klustringsteknik är varje data ett kluster. De iterativa förbindelserna mellan de två närmaste klusterna minskar antalet kluster.

Exempel: Hierarkiskt kluster

Överlappande

I denna teknik används fuzzy uppsättningar för att klustera data. Varje punkt kan tillhöra två eller flera kluster med separata grader av medlemskap.

Här kommer data att associeras med ett lämpligt medlemsvärde. Exempel: Fuzzy C-Means

Probabilistisk

Denna teknik använder sannolikhetsfördelning för att skapa kluster

Exempel: Följande nyckelord

  • "mans sko."
  • "damskor."
  • "kvinnors handske."
  • "mans handske."

kan grupperas i två kategorier "sko" och "handske" eller "man" och "kvinnor."

Klustringstyper

  • Hierarkiskt kluster
  • K-betyder kluster
  • K-NN (k närmaste grannar)
  • Huvudsaklig komponentanalys
  • Singulärvärdesfaktorisering
  • Oberoende komponentanalys

Hierarkisk gruppering:

Hierarkisk klustring är en algoritm som bygger en hierarki av kluster. Det börjar med all data som tilldelas ett eget kluster. Här kommer två nära kluster att vara i samma kluster. Denna algoritm slutar när det bara finns ett kluster kvar.

K-betyder klustring

K betyder att det är en iterativ klusteralgoritm som hjälper dig att hitta det högsta värdet för varje iteration. Initialt väljs önskat antal kluster. I den här klustringsmetoden måste du gruppera datapunkterna i k-grupper. Ett större k betyder mindre grupper med mer granularitet på samma sätt. En lägre k betyder större grupper med mindre granularitet.

Utgången från algoritmen är en grupp "etiketter". Det tilldelar datapunkt till en av k-grupperna. I k-betyder kluster definieras varje grupp genom att skapa en centroid för varje grupp. Centroiderna är som hjärtat i klustret, som fångar de punkter som ligger närmast dem och lägger till dem i klustret.

K-medelkluster definierar ytterligare två undergrupper:

  • Agglomerativt kluster
  • Dendrogram

Agglomerativ kluster:

Denna typ av K-betyder kluster börjar med ett fast antal kluster. Den allokerar all data till det exakta antalet kluster. Denna klustermetod kräver inte antalet kluster K som ingång. Agglomerationsprocessen börjar med att forma varje data som ett enda kluster.

Denna metod använder ett visst avståndsmått, minskar antalet kluster (en i varje iteration) genom att slå samman processen. Slutligen har vi ett stort kluster som innehåller alla objekt.

Dendrogram:

I Dendrogram-klustermetoden representerar varje nivå ett möjligt kluster. Dendrogrammets höjd visar likhetsnivån mellan två sammanfogningskluster. Ju närmare botten av processen de är mer liknande kluster som är att hitta gruppen från dendrogram som inte är naturligt och mest subjektivt.

K- Närmaste grannar

K- närmaste granne är den enklaste av alla maskininlärningsklassificatorer. Det skiljer sig från andra maskininlärningstekniker genom att det inte producerar en modell. Det är en enkel algoritm som lagrar alla tillgängliga fall och klassificerar nya instanser baserat på ett likhetsmått.

Det fungerar mycket bra när det finns ett avstånd mellan exemplen. Inlärningshastigheten är långsam när träningsuppsättningen är stor och avståndsberäkningen är liten.

Huvudkomponentanalys:

Om du vill ha ett högre dimensionellt utrymme. Du måste välja en bas för det utrymmet och endast de 200 viktigaste poängen för den grunden. Denna bas är känd som en huvudkomponent. Den delmängd du väljer utgör ett nytt utrymme som är litet i storlek jämfört med det ursprungliga utrymmet. Det bibehåller så mycket av komplexiteten i data som möjligt.

Förening

Föreningsregler tillåter dig att skapa associering mellan dataobjekt i stora databaser. Den här tekniken utan tillsyn handlar om att upptäcka intressanta relationer mellan variabler i stora databaser. Till exempel människor som köper ett nytt hem mest sannolikt att köpa nya möbler.

Andra exempel:

  • En undergrupp av cancerpatienter grupperade efter deras genuttrycksmätningar
  • Grupper av shoppare baserat på deras webb- och köphistorik
  • Filmgrupp efter betyg från filmtittare

Övervakad kontra oövervakad maskininlärning

Parametrar Övervakad teknik för maskininlärning Oövervakad maskininlärningsteknik
Indata Algoritmer tränas med hjälp av märkta data. Algoritmer används mot data som inte är märkta
Beräkningskomplexitet Övervakat lärande är en enklare metod. Oövervakat lärande är beräkningsmässigt komplext
Noggrannhet Mycket noggrann och pålitlig metod. Mindre noggrann och pålitlig metod.

Tillämpningar av maskinövervakning utan tillsyn

Några tillämpningar av oövervakad maskininlärningsteknik är:

  • Clustering delar automatiskt datasetet i grupper baserat på deras likheter
  • Detektering av avvikelser kan upptäcka ovanliga datapunkter i din dataset. Det är användbart för att hitta bedrägliga transaktioner
  • Association mining identifierar uppsättningar objekt som ofta förekommer tillsammans i din dataset
  • Latenta variabla modeller används ofta för förbehandling av data. Som att minska antalet funktioner i en datamängd eller att sönderdela datamängden i flera komponenter

Nackdelar med oövervakat lärande

  • Du kan inte få exakt information om datasortering, och utdata som data som används i övervakat lärande är märkt och inte känt
  • Mindre noggrannhet i resultaten beror på att ingångsdata inte är kända och inte märkta av människor i förväg. Detta innebär att maskinen behöver göra det själv.
  • Spektralklasserna motsvarar inte alltid informationsklasser.
  • Användaren måste spendera tid på att tolka och märka de klasser som följer den klassificeringen.
  • Spektrala egenskaper hos klasser kan också förändras över tiden så att du inte kan ha samma klassinformation när du flyttar från en bild till en annan.

Sammanfattning

  • Oövervakat lärande är en maskininlärningsteknik där du inte behöver övervaka modellen.
  • Oövervakad maskininlärning hjälper dig att hitta alla slags okända mönster i data.
  • Clustering and Association är två typer av icke-övervakat lärande.
  • Fyra typer av klustermetoder är 1) Exklusiva 2) Agglomerativa 3) Överlappande 4) Probabilistiska.
  • Viktiga klustringstyper är: 1) Hierarkiskt kluster 2) K-betyder kluster 3) K-NN 4) Huvudkomponentanalys 5) Singular Value-sönderdelning 6) Oberoende komponentanalys.
  • Föreningsregler tillåter dig att skapa associering mellan dataobjekt i stora databaser.
  • I övervakad inlärning utbildas algoritmer med hjälp av märkta data medan i övervakad inlärning används algoritmer mot data som inte är märkta.
  • Anomalidetektering kan upptäcka viktiga datapunkter i din dataset som är användbart för att hitta falska transaktioner.
  • Den största nackdelen med oövervakad inlärning är att du inte kan få exakt information om datasortering.