Vad är Data Lake? Det är arkitektur

Innehållsförteckning:

Anonim

Vad är Data Lake?

En Data Lake är ett lagringsförvar som kan lagra stora mängder strukturerad, halvstrukturerad och ostrukturerad data. Det är en plats att lagra alla typer av data i sitt ursprungliga format utan fasta begränsningar för kontostorlek eller fil. Det erbjuder hög datamängd för att öka analytisk prestanda och integrerad integration.

Data Lake är som en stor container som liknar riktigt sjö och floder. Precis som i en sjö har du flera bifloder som kommer in, en datasjö har strukturerad data, ostrukturerad data, maskin till maskin, loggar som flödar igenom i realtid.

Data Lake demokratiserar data och är ett kostnadseffektivt sätt att lagra all organisations data för senare bearbetning. Forskningsanalytiker kan fokusera på att hitta meningsmönster i data och inte i själva data.

Till skillnad från ett hierarkiskt Dataware-hus där data lagras i Files and Folder har Data lake en platt arkitektur. Varje dataelement i en Data Lake får en unik identifierare och taggas med en uppsättning metadatainformation.

I den här handledningen lär du dig-

  • Vad är Data Lake?
  • Varför Data Lake?
  • Data Lake Architecture
  • Nyckeldata Lake Concepts
  • Mognadssteg i Data Lake
  • Bästa metoder för implementering av Data Lake:
  • Skillnad mellan datasjöar och datalager
  • Fördelar och risker med att använda Data Lake:

Varför Data Lake?

Huvudsyftet med att bygga en datasjö är att erbjuda en oraffinerad bild av data till datavetare.

Anledningar till att använda Data Lake är:

  • Med början av lagringsmotorer som Hadoop har lagring av olika information blivit lätt. Det finns inget behov av att modellera data i ett schema över hela företaget med en Data Lake.
  • Med ökningen av datamängden, datakvaliteten och metadata ökar också kvaliteten på analyserna.
  • Data Lake erbjuder affärsflexibilitet
  • Maskininlärning och artificiell intelligens kan användas för att göra lönsamma förutsägelser.
  • Det erbjuder en konkurrensfördel för den genomförande organisationen.
  • Det finns ingen datasilostruktur. Data Lake ger 360 graders syn på kunder och gör analysen mer robust.

Data Lake Architecture

Figuren visar arkitekturen för en Business Data Lake. De lägre nivåerna representerar data som mestadels är i vila medan de övre nivåerna visar transaktionsdata i realtid. Denna data flödar genom systemet med ingen eller liten latens. Följande är viktiga nivåer i Data Lake Architecture:

  1. Förtäringsnivå : Nivåerna till vänster visar datakällorna. Data kan laddas in i datasjön i satser eller i realtid
  2. Insights Tier: Nivåerna till höger representerar forskningssidan där insikter från systemet används. SQL, NoSQL-frågor eller till och med excel kan användas för dataanalys.
  3. HDFS är en kostnadseffektiv lösning för både strukturerad och ostrukturerad data. Det är en landningszon för all data som ligger i systemet.
  4. Destillationsnivån tar data från lagringsdäcket och konverterar den till strukturerad data för enklare analys.
  5. Bearbetar tierkörningsanalysalgoritmer och användarfrågor med varierande realtid, interaktiv, batch för att generera strukturerad data för enklare analys.
  6. Unified operations-nivå reglerar systemhantering och övervakning. Det inkluderar revision och kompetenshantering, datahantering, arbetsflödeshantering.

Nyckeldata Lake Concepts

Följande är viktiga Data Lake-koncept som man behöver förstå för att helt förstå Data Lake-arkitekturen

Förtäring av data

Dataintag gör det möjligt för anslutare att hämta data från olika datakällor och ladda dem i Data Lake.

Upptagning av data stöder:

  • Alla typer av strukturerad, halvstrukturerad och ostrukturerad data.
  • Flera intag som batch, realtid, engångsbelastning.
  • Många typer av datakällor som databaser, webbservrar, e-post, IoT och FTP.

Datalagring

Datalagring ska vara skalbar, erbjuder kostnadseffektiv lagring och möjliggör snabb åtkomst till datautforskning. Den bör stödja olika dataformat.

Datastyrning

Datastyrning är en process för hantering av tillgänglighet, användbarhet, säkerhet och integritet hos data som används i en organisation.

säkerhet

Säkerhet måste implementeras i varje lager av datasjön. Det börjar med Storage, Unearthing och Consumption. Det grundläggande behovet är att stoppa åtkomst för obehöriga användare. Det bör stödja olika verktyg för att komma åt data med lätt att navigera GUI och instrumentpaneler.

Autentisering, redovisning, auktorisering och dataskydd är några viktiga funktioner i datasäkerhet.

Datakvalitet:

Datakvalitet är en viktig del av Data Lake-arkitekturen. Data används för att exakta affärsvärde. Att extrahera insikter från data av dålig kvalitet leder till insikter av dålig kvalitet.

Upptäckt av data

Data Discovery är ett annat viktigt steg innan du kan börja förbereda data eller analys. I detta skede används märkningsteknik för att uttrycka dataförståelsen genom att organisera och tolka de data som intas i datasjön.

Datagranskning

Två stora datagranskningsuppgifter spårar ändringar i nyckeldatasetet.

  1. Spåra ändringar av viktiga datasetelement
  2. Fångar hur / när / och vem som ändrar till dessa element.

Datagranskning hjälper till att utvärdera risker och efterlevnad.

Datalinje

Denna komponent behandlar datans ursprung. Det handlar främst om var det flyttar över tiden och vad som händer med det. Det underlättar felkorrigeringar i en dataanalysprocess från ursprung till destination.

Datautforskning

Det är början på dataanalysen. Det hjälper till att identifiera rätt dataset är viktigt innan du startar Data Exploration.

Alla givna komponenter måste arbeta tillsammans för att spela en viktig roll i Data Lake-byggnaden som lätt kan utvecklas och utforska miljön.

Mognadssteg i Data Lake

Definitionen av Data Lake Maturity-steg skiljer sig från lärobok till andra. Även om kärnan förblir densamma. Efter mognad är scendefinitionen ur lekmannas synvinkel.

Steg 1: Hantera och ta in data i stor skala

Det första steget i datamognad innebär förbättrad förmåga att transformera och analysera data. Här måste företagsägare hitta verktygen enligt deras kompetens för att få mer data och bygga analytiska applikationer.

Steg 2: Bygga den analytiska muskeln

Detta är ett andra steg som innebär att man förbättrar förmågan att transformera och analysera data. I detta skede använder företagen det verktyg som passar bäst för deras kompetens. De börjar skaffa mer data och bygga applikationer. Här används kapaciteterna i företagets datalager och data lake tillsammans.

Steg 3: EDW och Data Lake fungerar tillsammans

Detta steg handlar om att få data och analyser i händerna på så många människor som möjligt. I det här steget börjar datasjön och företagslageret att arbeta i en fackförening. Båda spelar sin roll i analyser

Steg 4: Företagskapacitet i sjön

I detta mognadssteg i datasjön läggs företagsfunktioner till Data Lake. Antagande av informationsstyrning, informationslivscykelhantering och hantering av metadata. Men väldigt få organisationer kan nå denna mognadsnivå, men detta tal kommer att öka i framtiden.

Bästa metoder för implementering av Data Lake:

  • Arkitektoniska komponenter, deras interaktion och identifierade produkter bör stödja inbyggda datatyper
  • Design av Data Lake bör drivas av vad som är tillgängligt istället för vad som krävs. Schemat och datakravet definieras inte förrän det ifrågasätts
  • Design bör styras av engångskomponenter integrerade med service API.
  • Upptäckt, intag, lagring, administration, kvalitet, transformation och visualisering bör hanteras oberoende.
  • Data Lake-arkitekturen ska skräddarsys för en specifik bransch. Det bör säkerställa att nödvändiga funktioner för den domänen är en inneboende del av designen
  • Snabbare ombordstigning av nyligen upptäckta datakällor är viktigt
  • Data Lake hjälper anpassad hantering för att extrahera maximalt värde
  • Data Lake bör stödja befintliga tekniker och metoder för företagshantering

Utmaningar med att bygga en datasjö:

  • I Data Lake är datavolymen högre, så processen måste vara mer beroende av programmatisk administration
  • Det är svårt att hantera glesa, ofullständiga, flyktiga data
  • Bredare omfattning av dataset och källa behöver större datastyrning och support

Skillnad mellan datasjöar och datalager

Parametrar Datasjöar Datalager
Data Datasjöar lagrar allt. Data Warehouse fokuserar endast på affärsprocesser.
Bearbetning Uppgifterna är i huvudsak obearbetade Mycket bearbetade data.
Typ av data Det kan vara strukturerat, halvstrukturerat och strukturerat. Det är mestadels i tabellform och struktur.
Uppgift Dela datastyrning Optimerad för datainhämtning
Rörlighet Mycket smidig, konfigurera och konfigurera om efter behov. Jämför med Data lake, det är mindre smidigt och har fast konfiguration.
Användare Data Lake används mest av Data Scientist Affärspersonal använder i stor utsträckning datalager
Lagring Datasjöns design för billig lagring. Dyrt lagringsutrymme som ger snabba svarstider används
säkerhet Erbjuder mindre kontroll. Tillåter bättre kontroll av data.
Ersättning av EDW Data lake kan vara källa för EDW Kompletterande till EDW (inte ersättning)
Schema Schema vid läsning (inga fördefinierade scheman) Schema vid skrivning (fördefinierade scheman)
Databehandling Hjälper till snabbt intag av nya data. Tidsödande att introducera nytt innehåll.
Data granularitet Data med låg detaljnivå eller detaljnivå. Data i sammanfattningen eller aggregerad detaljnivå.
Verktyg Kan använda öppen källkod / verktyg som Hadoop / Map Reduce Mestadels kommersiella verktyg.

Fördelar och risker med att använda Data Lake:

Här är några stora fördelar med att använda en Data Lake:

  • Hjälper till med produktjonisering och avancerad analys
  • Erbjuder kostnadseffektiv skalbarhet och flexibilitet
  • Erbjuder värde från obegränsade datatyper
  • Minskar långsiktiga ägandekostnader
  • Tillåter ekonomisk lagring av filer
  • Snabbt anpassningsbar till förändringar
  • Den största fördelen med datasjön är centraliseringen av olika innehållskällor
  • Användare, från olika avdelningar, kan vara utspridda runt om i världen och kan ha flexibel tillgång till data

Risk för att använda Data Lake:

  • Efter en tid kan Data Lake förlora relevans och fart
  • Det finns en större risk när du designar Data Lake
  • Ostrukturerad data kan leda till ostyrt Chao, oanvändbar data, olika & komplexa verktyg, företagssamarbete, enhetligt, konsekvent och vanligt
  • Det ökar också lagring och beräknar kostnader
  • Det finns inget sätt att få insikter från andra som har arbetat med uppgifterna eftersom det inte finns någon redogörelse för slutsatserna från tidigare analysers
  • Den största risken för datasjöar är säkerhet och åtkomstkontroll. Ibland kan data placeras i en sjö utan någon tillsyn, eftersom en del av uppgifterna kan ha integritets- och regleringsbehov

Sammanfattning:

  • En Data Lake är ett lagringsförvar som kan lagra stora mängder strukturerad, halvstrukturerad och ostrukturerad data.
  • Huvudsyftet med att bygga en datasjö är att erbjuda en oraffinerad bild av data till datavetare.
  • Unified operations tier, Processing tier, Destillation tier och HDFS är viktiga lager av Data Lake Architecture
  • Förtäring av data, datalagring, datakvalitet, data granskning, datautforskning, data upptäckt är några viktiga komponenter i Data Lake Architecture
  • Design av Data Lake bör drivas av vad som är tillgängligt istället för vad som krävs.
  • Data Lake minskar långsiktiga ägandekostnader och möjliggör ekonomisk lagring av filer
  • Den största risken för datasjöar är säkerhet och åtkomstkontroll. Ibland kan data placeras i en sjö utan någon tillsyn, eftersom en del av uppgifterna kan ha integritets- och regleringsbehov.