Vad är R-programmeringsspråk? Introduktion & Grunderna i R

Innehållsförteckning:

Anonim

Vad är R Software?

R är ett programmeringsspråk och fri programvara som utvecklats av Ross Ihaka och Robert Gentleman 1993. R har en omfattande katalog med statistiska och grafiska metoder. Det inkluderar maskininlärningsalgoritmer, linjär regression, tidsserier, statistisk slutsats för att nämna några. De flesta av R-biblioteken är skrivna i R, men för tunga beräkningsuppgifter föredras C, C ++ och Fortran-koder.

R anförtros inte bara av akademiker, men många stora företag använder också R-programmeringsspråk, inklusive Uber, Google, Airbnb, Facebook och så vidare.

Dataanalys med R görs i en serie steg; programmera, transformera, upptäcka, modellera och kommunicera resultaten

  • Program : R är ett tydligt och tillgängligt programmeringsverktyg
  • Transform : R består av en samling bibliotek utformade speciellt för datavetenskap
  • Upptäck : Undersök data, förfina din hypotes och analysera dem
  • Modell : R erbjuder ett brett utbud av verktyg för att fånga rätt modell för dina data
  • Kommunicera : Integrera koder, grafer och utdata till en rapport med R Markdown eller bygga blanka appar för att dela med världen

I denna introduktionshandledning lär du dig R

  • Vad används R för?
  • R efter bransch
  • R-paket
  • Kommunicera med R
  • Varför använda R?
  • Ska du välja R?
  • Är R svårt?

Vad används R för?

  • Statistisk slutsats
  • Dataanalys
  • Maskininlärningsalgoritm

R efter bransch

Om vi ​​bryter ner användningen av R efter bransch ser vi att akademiker kommer först. R är ett språk att göra statistik. R är förstahandsvalet inom sjukvårdsindustrin, följt av regering och konsultation.

R-paket

De primära användningarna av R är och kommer alltid att vara statistik, visualisering och maskininlärning. Bilden nedan visar vilket R-paket som fick flest frågor i Stack Overflow. På topp 10 är de flesta relaterade till en dataforskares arbetsflöde: dataförberedelse och kommunicera resultaten.

Alla R-bibliotek, nästan 12k, lagras i CRAN. CRAN är en fri och öppen källkod. Du kan ladda ner och använda de många biblioteken för att utföra maskininlärning eller tidsserie-analys.

Kommunicera med R

R har flera sätt att presentera och dela arbete, antingen genom ett markdown-dokument eller en blank app. Allt kan värdas i Rpub, GitHub eller företagets webbplats.

Nedan följer ett exempel på en presentation på Rpub

Rstudio accepterar markdown för att skriva ett dokument. Du kan exportera dokumenten i olika format:

  • Dokument:
    • HTML
    • PDF / Latex
    • Ord
  • Presentation
    • HTML
    • PDF-beamer

Rstudio har ett bra verktyg för att enkelt skapa en app. Nedan följer ett exempel på en app med Världsbankens data.

Varför använda R?

Datavetenskap formar hur företag driver sina företag. Utan tvekan kommer att hålla sig borta från artificiell intelligens och maskin leda till att företaget misslyckas. Den stora frågan är vilket verktyg / språk ska du använda?

De finns många verktyg tillgängliga på marknaden för att utföra dataanalys. Att lära sig ett nytt språk kräver lite tid. Bilden nedan visar inlärningskurvan jämfört med den affärsförmåga ett språk erbjuder. Det negativa förhållandet innebär att det inte finns någon gratis lunch. Om du vill ge bästa insikt från data måste du spendera lite tid på att lära dig lämpligt verktyg, vilket är R.

Överst till vänster i diagrammet kan du se Excel och PowerBI. Dessa två verktyg är enkla att lära sig men erbjuder inte enastående affärsförmåga, särskilt när det gäller modellering. I mitten kan du se Python och SAS. SAS är ett dedikerat verktyg för att köra en statistisk analys för företag, men det är inte gratis. SAS är en klick-och-kör-programvara. Python är dock ett språk med en monoton inlärningskurva. Python är ett fantastiskt verktyg för att distribuera Machine Learning och AI men saknar kommunikationsfunktioner. Med en identisk inlärningskurva är R en bra avvägning mellan implementering och dataanalys.

När det gäller datavisualisering (DataViz) hade du förmodligen hört talas om Tableau. Tableau är utan tvekan ett bra verktyg för att upptäcka mönster genom grafer och diagram. Dessutom är det inte tidskrävande att lära sig Tableau. Ett stort problem med datavisualisering är att du kanske hamnar i att aldrig hitta ett mönster eller bara skapa massor av värdelösa diagram. Tableau är ett bra verktyg för snabb visualisering av data eller Business Intelligence. När det gäller statistik och beslutsverktyg är R mer lämpligt.

Stack Overflow är ett stort community för programmeringsspråk. Om du har ett kodproblem eller behöver förstå en modell är Stack Overflow här för att hjälpa till. Under året har andelen frågeställningar ökat kraftigt för R jämfört med de andra språken. Denna trend är naturligtvis starkt korrelerad med den blomstrande åldern för datavetenskap men den återspeglar efterfrågan på R-språk för datavetenskap.

Inom datavetenskap finns det två verktyg som konkurrerar med varandra. R och Python är förmodligen programmeringsspråket som definierar datavetenskap.

Ska du välja R?

Datavetare kan använda två utmärkta verktyg: R och Python. Du kanske inte har tid att lära dig båda, speciellt om du börjar lära dig datavetenskap. Lärande statistisk modellering och algoritmär mycket viktigare än att lära sig ett programmeringsspråk. Ett programmeringsspråk är ett verktyg för att beräkna och kommunicera din upptäckt. Den viktigaste uppgiften inom datavetenskap är hur du hanterar data: import, rengöring, förberedelse, funktionsteknik, funktionsval. Detta bör vara ditt primära fokus. Om du försöker lära dig R och Python samtidigt utan en gedigen bakgrund i statistik är det helt enkelt dumt. Datavetare är inte programmerare. Deras jobb är att förstå uppgifterna, manipulera dem och avslöja det bästa tillvägagångssättet. Om du funderar på vilket språk du ska lära dig, låt oss se vilket språk som passar dig bäst.

Datavetenskapens främsta publik är affärsprofessionell. I verksamheten är kommunikation en stor betydelse. Det finns många sätt att kommunicera: rapport, webbapp, instrumentpanel. Du behöver ett verktyg som gör allt detta tillsammans.

Är R svårt?

För många år sedan var R ett svårt språk att bemästra. Språket var förvirrande och inte lika strukturerat som de andra programmeringsverktygen. För att övervinna denna stora fråga utvecklade Hadley Wickham en samling paket som kallas tidyverse. Spelets regel förändrades på det bästa. Datamanipulation blir trivialt och intuitivt. Att skapa ett diagram var inte så svårt längre.

De bästa algoritmerna för maskininlärning kan implementeras med R. Paket som Keras och TensorFlow gör det möjligt att skapa avancerad maskininlärningsteknik. R har också ett paket för att utföra Xgboost, en av de bästa algoritmerna för Kaggle-tävling.

R kan kommunicera med det andra språket. Det är möjligt att ringa Python, Java, C ++ i R. World of big data är också tillgänglig för R. Du kan ansluta R till olika databaser som Spark eller Hadoop.

Slutligen har R utvecklats och möjliggjort parallellisering för att påskynda beräkningen. Faktum är att R kritiserades för att bara använda en CPU åt gången. Med det parallella paketet kan du utföra uppgifter i olika kärnor på maskinen.

Sammanfattning

I ett nötskal är R ett utmärkt verktyg för att utforska och undersöka data. Utförlig analys som kluster, korrelation och datareduktion görs med R. Detta är den mest avgörande delen, utan en bra funktionsteknik och modell, kommer distributionen av maskininlärning inte att ge meningsfulla resultat.