Faktor i R: kategorisk variabel & Kontinuerliga variabler

Innehållsförteckning:

Anonim

Vad är faktor i R?

Faktor i R är en variabel som används för att kategorisera och lagra data med ett begränsat antal olika värden. Den lagrar data som en vektor av heltalvärden. Faktor i R är också känd som en kategorisk variabel som lagrar både sträng- och heltaldatavärden som nivåer. Faktor används mest i statistisk modellering och utforskande dataanalys med R.

I en dataset kan vi skilja mellan två typer av variabler: kategoriska och kontinuerliga .

  • I beskrivande statistik för kategoriska variabler i R är värdet begränsat och vanligtvis baserat på en viss begränsad grupp. Till exempel kan en kategorivariabel i R vara länder, år, kön, yrke.
  • En kontinuerlig variabel kan dock ta alla värden, från heltal till decimal. Vi kan till exempel ha intäkter, pris på en aktie, etc ...

Kategoriska variabler

Kategoriska variabler i R lagras i en faktor. Låt oss kontrollera koden nedan för att konvertera en teckenvariabel till en faktorvariabel i R. Tecken stöds inte i maskininlärningsalgoritmen, och det enda sättet är att konvertera en sträng till ett heltal.

Syntax

factor(x = character(), levels, labels = levels, ordered = is.ordered(x))

Argument:

  • x : En vektor med kategoriska data i R. Behöver vara en sträng eller ett heltal, inte decimal.
  • Nivåer : En vektor med möjliga värden som tas av x. Detta argument är valfritt. Standardvärdet är den unika listan med objekt i vektorn x.
  • Etiketter : Lägg till en etikett till x-kategoridata i R. Till exempel kan 1 ta etiketten "man" medan 0, etiketten "kvinna".
  • beställt : Bestäm om nivåerna ska ordnas i kategoridata i R.

Exempel:

Låt oss skapa en faktor dataram.

# Create gender vectorgender_vector <- c("Male", "Female", "Female", "Male", "Male")class(gender_vector)# Convert gender_vector to a factorfactor_gender_vector <-factor(gender_vector)class(factor_gender_vector)

Produktion:

## [1] "character"## [1] "factor"

Det är viktigt att omvandla en sträng till faktorvariabel i R när vi utför Machine Learning-uppgiften.

En kategorisk variabel i R kan delas in i nominell kategorisk variabel och ordinal kategorisk variabel .

Nominell kategorisk variabel

En kategorisk variabel har flera värden men ordningen spelar ingen roll. Till exempel man eller kvinna. Kategoriska variabler i R har ingen ordning.

# Create a color vectorcolor_vector <- c('blue', 'red', 'green', 'white', 'black', 'yellow')# Convert the vector to factorfactor_color <- factor(color_vector)factor_color

Produktion:

## [1] blue red green white black yellow## Levels: black blue green red white yellow

Från faktor_färgen kan vi inte säga någon ordning.

Ordinär kategorisk variabel

Ordinära kategoriska variabler har en naturlig ordning. Vi kan ange ordningen, från den lägsta till den högsta med order = TRUE och högst till lägsta med order = FALSE.

Exempel:

Vi kan använda sammanfattning för att räkna värdena för varje faktorvariabel i R.

# Create Ordinal categorical vectorday_vector <- c('evening', 'morning', 'afternoon', 'midday', 'midnight', 'evening')# Convert `day_vector` to a factor with ordered levelfactor_day <- factor(day_vector, order = TRUE, levels =c('morning', 'midday', 'afternoon', 'evening', 'midnight'))# Print the new variablefactor_day

Produktion:

## [1] evening morning afternoon middaymidnight evening 

Exempel:

## Levels: morning < midday < afternoon < evening < midnight# Append the line to above code# Count the number of occurence of each levelsummary(factor_day)

Produktion:

## morning midday afternoon evening midnight## 1 1 1 2 1

R beställde nivån från 'morgon' till 'midnatt' enligt vad som anges i nivåparantesen.

Kontinuerliga variabler

Kontinuerliga klassvariabler är standardvärdet i R. De lagras som numeriska eller heltal. Vi kan se det från datasetet nedan. mtcars är en inbyggd dataset. Den samlar information om olika typer av bilar. Vi kan importera den med hjälp av mtcars och kontrollera klassen för variabeln mpg, mil per gallon. Det returnerar ett numeriskt värde som indikerar en kontinuerlig variabel.

dataset <- mtcarsclass(dataset$mpg)

Produktion

## [1] "numeric"