Vad är Data Lake? Det är arkitektur

Vad är Data Lake?

En Data Lake är ett lagringsförvar som kan lagra stora mängder strukturerad, halvstrukturerad och ostrukturerad data. Det är en plats att lagra alla typer av data i sitt ursprungliga format utan fasta begränsningar för kontostorlek eller fil. Det erbjuder hög datamängd för att öka analytisk prestanda och integrerad integration.

Data Lake är som en stor container som liknar riktigt sjö och floder. Precis som i en sjö har du flera bifloder som kommer in, en datasjö har strukturerad data, ostrukturerad data, maskin till maskin, loggar som flödar igenom i realtid.

Data Lake demokratiserar data och är ett kostnadseffektivt sätt att lagra all organisations data för senare bearbetning. Forskningsanalytiker kan fokusera på att hitta meningsmönster i data och inte i själva data.

Till skillnad från ett hierarkiskt Dataware-hus där data lagras i Files and Folder har Data lake en platt arkitektur. Varje dataelement i en Data Lake får en unik identifierare och taggas med en uppsättning metadatainformation.

I den här handledningen lär du dig-

Vad är Data Lake?
Varför Data Lake?
Data Lake Architecture
Nyckeldata Lake Concepts
Mognadssteg i Data Lake
Bästa metoder för implementering av Data Lake:
Skillnad mellan datasjöar och datalager
Fördelar och risker med att använda Data Lake:

Varför Data Lake?

Huvudsyftet med att bygga en datasjö är att erbjuda en oraffinerad bild av data till datavetare.

Anledningar till att använda Data Lake är:

Med början av lagringsmotorer som Hadoop har lagring av olika information blivit lätt. Det finns inget behov av att modellera data i ett schema över hela företaget med en Data Lake.
Med ökningen av datamängden, datakvaliteten och metadata ökar också kvaliteten på analyserna.
Data Lake erbjuder affärsflexibilitet
Maskininlärning och artificiell intelligens kan användas för att göra lönsamma förutsägelser.
Det erbjuder en konkurrensfördel för den genomförande organisationen.
Det finns ingen datasilostruktur. Data Lake ger 360 graders syn på kunder och gör analysen mer robust.

Data Lake Architecture

Figuren visar arkitekturen för en Business Data Lake. De lägre nivåerna representerar data som mestadels är i vila medan de övre nivåerna visar transaktionsdata i realtid. Denna data flödar genom systemet med ingen eller liten latens. Följande är viktiga nivåer i Data Lake Architecture:

Förtäringsnivå : Nivåerna till vänster visar datakällorna. Data kan laddas in i datasjön i satser eller i realtid
Insights Tier: Nivåerna till höger representerar forskningssidan där insikter från systemet används. SQL, NoSQL-frågor eller till och med excel kan användas för dataanalys.
HDFS är en kostnadseffektiv lösning för både strukturerad och ostrukturerad data. Det är en landningszon för all data som ligger i systemet.
Destillationsnivån tar data från lagringsdäcket och konverterar den till strukturerad data för enklare analys.
Bearbetar tierkörningsanalysalgoritmer och användarfrågor med varierande realtid, interaktiv, batch för att generera strukturerad data för enklare analys.
Unified operations-nivå reglerar systemhantering och övervakning. Det inkluderar revision och kompetenshantering, datahantering, arbetsflödeshantering.

Nyckeldata Lake Concepts

Följande är viktiga Data Lake-koncept som man behöver förstå för att helt förstå Data Lake-arkitekturen

Förtäring av data

Dataintag gör det möjligt för anslutare att hämta data från olika datakällor och ladda dem i Data Lake.

Upptagning av data stöder:

Alla typer av strukturerad, halvstrukturerad och ostrukturerad data.
Flera intag som batch, realtid, engångsbelastning.
Många typer av datakällor som databaser, webbservrar, e-post, IoT och FTP.

Datalagring

Datalagring ska vara skalbar, erbjuder kostnadseffektiv lagring och möjliggör snabb åtkomst till datautforskning. Den bör stödja olika dataformat.

Datastyrning

Datastyrning är en process för hantering av tillgänglighet, användbarhet, säkerhet och integritet hos data som används i en organisation.

säkerhet

Säkerhet måste implementeras i varje lager av datasjön. Det börjar med Storage, Unearthing och Consumption. Det grundläggande behovet är att stoppa åtkomst för obehöriga användare. Det bör stödja olika verktyg för att komma åt data med lätt att navigera GUI och instrumentpaneler.

Autentisering, redovisning, auktorisering och dataskydd är några viktiga funktioner i datasäkerhet.

Datakvalitet:

Datakvalitet är en viktig del av Data Lake-arkitekturen. Data används för att exakta affärsvärde. Att extrahera insikter från data av dålig kvalitet leder till insikter av dålig kvalitet.

Upptäckt av data

Data Discovery är ett annat viktigt steg innan du kan börja förbereda data eller analys. I detta skede används märkningsteknik för att uttrycka dataförståelsen genom att organisera och tolka de data som intas i datasjön.

Datagranskning

Två stora datagranskningsuppgifter spårar ändringar i nyckeldatasetet.

Spåra ändringar av viktiga datasetelement
Fångar hur / när / och vem som ändrar till dessa element.

Datagranskning hjälper till att utvärdera risker och efterlevnad.

Datalinje

Denna komponent behandlar datans ursprung. Det handlar främst om var det flyttar över tiden och vad som händer med det. Det underlättar felkorrigeringar i en dataanalysprocess från ursprung till destination.

Datautforskning

Det är början på dataanalysen. Det hjälper till att identifiera rätt dataset är viktigt innan du startar Data Exploration.

Alla givna komponenter måste arbeta tillsammans för att spela en viktig roll i Data Lake-byggnaden som lätt kan utvecklas och utforska miljön.

Mognadssteg i Data Lake

Definitionen av Data Lake Maturity-steg skiljer sig från lärobok till andra. Även om kärnan förblir densamma. Efter mognad är scendefinitionen ur lekmannas synvinkel.

Steg 1: Hantera och ta in data i stor skala

Det första steget i datamognad innebär förbättrad förmåga att transformera och analysera data. Här måste företagsägare hitta verktygen enligt deras kompetens för att få mer data och bygga analytiska applikationer.

Steg 2: Bygga den analytiska muskeln

Detta är ett andra steg som innebär att man förbättrar förmågan att transformera och analysera data. I detta skede använder företagen det verktyg som passar bäst för deras kompetens. De börjar skaffa mer data och bygga applikationer. Här används kapaciteterna i företagets datalager och data lake tillsammans.

Steg 3: EDW och Data Lake fungerar tillsammans

Detta steg handlar om att få data och analyser i händerna på så många människor som möjligt. I det här steget börjar datasjön och företagslageret att arbeta i en fackförening. Båda spelar sin roll i analyser

Steg 4: Företagskapacitet i sjön

I detta mognadssteg i datasjön läggs företagsfunktioner till Data Lake. Antagande av informationsstyrning, informationslivscykelhantering och hantering av metadata. Men väldigt få organisationer kan nå denna mognadsnivå, men detta tal kommer att öka i framtiden.

Bästa metoder för implementering av Data Lake:

Arkitektoniska komponenter, deras interaktion och identifierade produkter bör stödja inbyggda datatyper
Design av Data Lake bör drivas av vad som är tillgängligt istället för vad som krävs. Schemat och datakravet definieras inte förrän det ifrågasätts
Design bör styras av engångskomponenter integrerade med service API.
Upptäckt, intag, lagring, administration, kvalitet, transformation och visualisering bör hanteras oberoende.
Data Lake-arkitekturen ska skräddarsys för en specifik bransch. Det bör säkerställa att nödvändiga funktioner för den domänen är en inneboende del av designen
Snabbare ombordstigning av nyligen upptäckta datakällor är viktigt
Data Lake hjälper anpassad hantering för att extrahera maximalt värde
Data Lake bör stödja befintliga tekniker och metoder för företagshantering

Utmaningar med att bygga en datasjö:

I Data Lake är datavolymen högre, så processen måste vara mer beroende av programmatisk administration
Det är svårt att hantera glesa, ofullständiga, flyktiga data
Bredare omfattning av dataset och källa behöver större datastyrning och support

Skillnad mellan datasjöar och datalager

Parametrar	Datasjöar	Datalager
Data	Datasjöar lagrar allt.	Data Warehouse fokuserar endast på affärsprocesser.
Bearbetning	Uppgifterna är i huvudsak obearbetade	Mycket bearbetade data.
Typ av data	Det kan vara strukturerat, halvstrukturerat och strukturerat.	Det är mestadels i tabellform och struktur.
Uppgift	Dela datastyrning	Optimerad för datainhämtning
Rörlighet	Mycket smidig, konfigurera och konfigurera om efter behov.	Jämför med Data lake, det är mindre smidigt och har fast konfiguration.
Användare	Data Lake används mest av Data Scientist	Affärspersonal använder i stor utsträckning datalager
Lagring	Datasjöns design för billig lagring.	Dyrt lagringsutrymme som ger snabba svarstider används
säkerhet	Erbjuder mindre kontroll.	Tillåter bättre kontroll av data.
Ersättning av EDW	Data lake kan vara källa för EDW	Kompletterande till EDW (inte ersättning)
Schema	Schema vid läsning (inga fördefinierade scheman)	Schema vid skrivning (fördefinierade scheman)
Databehandling	Hjälper till snabbt intag av nya data.	Tidsödande att introducera nytt innehåll.
Data granularitet	Data med låg detaljnivå eller detaljnivå.	Data i sammanfattningen eller aggregerad detaljnivå.
Verktyg	Kan använda öppen källkod / verktyg som Hadoop / Map Reduce	Mestadels kommersiella verktyg.

Fördelar och risker med att använda Data Lake:

Här är några stora fördelar med att använda en Data Lake:

Hjälper till med produktjonisering och avancerad analys
Erbjuder kostnadseffektiv skalbarhet och flexibilitet
Erbjuder värde från obegränsade datatyper
Minskar långsiktiga ägandekostnader
Tillåter ekonomisk lagring av filer
Snabbt anpassningsbar till förändringar
Den största fördelen med datasjön är centraliseringen av olika innehållskällor
Användare, från olika avdelningar, kan vara utspridda runt om i världen och kan ha flexibel tillgång till data

Risk för att använda Data Lake:

Efter en tid kan Data Lake förlora relevans och fart
Det finns en större risk när du designar Data Lake
Ostrukturerad data kan leda till ostyrt Chao, oanvändbar data, olika & komplexa verktyg, företagssamarbete, enhetligt, konsekvent och vanligt
Det ökar också lagring och beräknar kostnader
Det finns inget sätt att få insikter från andra som har arbetat med uppgifterna eftersom det inte finns någon redogörelse för slutsatserna från tidigare analysers
Den största risken för datasjöar är säkerhet och åtkomstkontroll. Ibland kan data placeras i en sjö utan någon tillsyn, eftersom en del av uppgifterna kan ha integritets- och regleringsbehov

Sammanfattning:

En Data Lake är ett lagringsförvar som kan lagra stora mängder strukturerad, halvstrukturerad och ostrukturerad data.
Huvudsyftet med att bygga en datasjö är att erbjuda en oraffinerad bild av data till datavetare.
Unified operations tier, Processing tier, Destillation tier och HDFS är viktiga lager av Data Lake Architecture
Förtäring av data, datalagring, datakvalitet, data granskning, datautforskning, data upptäckt är några viktiga komponenter i Data Lake Architecture
Design av Data Lake bör drivas av vad som är tillgängligt istället för vad som krävs.
Data Lake minskar långsiktiga ägandekostnader och möjliggör ekonomisk lagring av filer
Den största risken för datasjöar är säkerhet och åtkomstkontroll. Ibland kan data placeras i en sjö utan någon tillsyn, eftersom en del av uppgifterna kan ha integritets- och regleringsbehov.

Vad är Data Lake? Det är arkitektur

Innehållsförteckning:

Vad är Data Lake?

Varför Data Lake?

Data Lake Architecture

Nyckeldata Lake Concepts

Förtäring av data

Datalagring

Datastyrning

säkerhet

Datakvalitet:

Upptäckt av data

Datagranskning

Datalinje

Datautforskning

Mognadssteg i Data Lake

Steg 1: Hantera och ta in data i stor skala

Steg 2: Bygga den analytiska muskeln

Steg 3: EDW och Data Lake fungerar tillsammans

Steg 4: Företagskapacitet i sjön

Bästa metoder för implementering av Data Lake:

Skillnad mellan datasjöar och datalager

Fördelar och risker med att använda Data Lake:

Sammanfattning:

# 076: Anpassad rubrik för videosektionen - CSS-tricks

# 075: Anpassad rubrik för Almanaken - CSS-tricks

# 072: CSSing the Footer, Part 2 - CSS-tricks

# 100: Almanack Styling, del 1 - CSS-tricks

# 079: Flytta Live Database Local - CSS-tricks

# 132: Introduktion till forumen - CSS-tricks

# 133: Forums Wrangling, del 1 - CSS-tricks

# 136: Förstå Vanilla Forums Theme Overrides - CSS-tricks

# 135: Forums Wrangling, del 3, inloggning - CSS-tricks

# 134: Forums Wrangling, del 2 - CSS-tricks

Naturlig sortering med inlägg meta_key - CSS-tricks

Flytta WordPress Admin Bar till botten - CSS-tricks

Output Utdrag manuellt - CSS-tricks

Gör Archives.php Inkludera anpassade inläggstyper - CSS-tricks

Infoga bilder i figurelement från Media Uploader - CSS-tricks