Datalagerarkitektur, begrepp och komponenter

Innehållsförteckning:

Anonim

Begrepp för datalager

Det grundläggande konceptet för ett datalager är att underlätta en enda version av sanningen för ett företag för beslutsfattande och prognoser. Ett datalager är ett informationssystem som innehåller historiska och kommutativa data från enstaka eller flera källor. Data Warehouse Concepts förenklar rapporterings- och analysprocessen för organisationer.

Kännetecken för datalager

Datalagerbegrepp har följande egenskaper:

  • Ämnesorienterad
  • Integrerad
  • Tidsvariant
  • Icke-flyktig

Ämnesorienterad

Ett datalager är ämnesorienterat eftersom det erbjuder information om ett tema istället för företagens pågående verksamhet. Dessa ämnen kan vara försäljning, marknadsföring, distribution etc.

Ett datalager fokuserar aldrig på den pågående verksamheten. Istället lade den tonvikten på modellering och analys av data för beslutsfattande . Det ger också en enkel och kortfattad bild av det specifika ämnet genom att utesluta data som inte är till hjälp för beslutsprocessen.

Integrerad

I Data Warehouse betyder integration att man skapar en gemensam måttenhet för alla liknande data från den olika databasen. Uppgifterna måste också lagras i Datawarehouse på vanligt och allmänt acceptabelt sätt.

Ett datalager utvecklas genom att integrera data från olika källor som en mainframe, relationsdatabaser, platta filer osv. Dessutom måste den hålla konsekventa namngivningskonventioner, format och kodning.

Denna integration hjälper till med effektiv analys av data. Konsistens i namngivningskonventioner, attributmått, kodningsstruktur etc. måste säkerställas. Tänk på följande exempel:

I exemplet ovan finns tre olika applikationer märkta A, B och C. Information som lagras i dessa applikationer är kön, datum och balans. Varje applikations data lagras dock på olika sätt.

  • I applikation lagrar ett könsfält logiska värden som M eller F
  • I applikation B är könsfältet ett numeriskt värde,
  • I applikation C-applikationen lagras könsfält i form av ett teckenvärde.
  • Samma är fallet med datum och balans

Efter omvandlings- och rengöringsprocessen lagras dock alla dessa data i vanligt format i datalagret.

Tidsvariant

Tidshorisonten för datalager är ganska omfattande jämfört med operativsystem. Data som samlas in i ett datalager känns igen med en viss period och erbjuder information ur historisk synvinkel. Den innehåller ett element av tid, uttryckligen eller implicit.

En sådan plats där Datawarehouse-data visar tidsvariation i posten för postnyckeln. Varje primärnyckel som ingår i DW bör ha antingen implicit eller uttryckligen ett tidselement. Som dagen, veckomånaden etc.

En annan aspekt av tidsvariationen är att när data har infogats i lagret kan de inte uppdateras eller ändras.

Icke-flyktig

Datalager är också icke-flyktigt innebär att tidigare data inte raderas när nya data matas in i det.

Data är skrivskyddad och uppdateras regelbundet. Detta hjälper också till att analysera historisk data och förstå vad och när det hände. Det kräver inte mekanismer för transaktionsprocesser, återhämtning och samtidighetskontroll.

Aktiviteter som radera, uppdatera och infoga som utförs i en operativ applikationsmiljö utelämnas i datalagermiljö. Endast två typer av datahantering som utförs i datalagring är

  1. Data laddas
  2. Datatillgång

Här är några stora skillnader mellan Application och Data Warehouse

Operativ applikation Datalager
Komplext program måste kodas för att säkerställa att datauppgraderingsprocesser bibehåller hög integritet hos slutprodukten. Den här typen av problem inträffar inte eftersom datauppdatering inte utförs.
Data placeras i en normaliserad form för att säkerställa minimal redundans. Data lagras inte i normaliserad form.
Teknik som behövs för att stödja frågor om transaktioner, dataåterställning, återställning och upplösning eftersom dess dödläge är ganska komplicerat. Det erbjuder relativt enkel teknik.

Datalagerarkitektur

Data Warehouse Architecture är komplex eftersom det är ett informationssystem som innehåller historiska och kommutativa data från flera källor. Det finns tre tillvägagångssätt för att konstruera lagerlager för datalager: Single Tier, Two Tier och Three Tier. Denna 3-stegsarkitektur för Data Warehouse förklaras nedan.

Ensidig arkitektur

Målet med ett enda lager är att minimera mängden data som lagras. Detta mål är att ta bort dataredundans. Denna arkitektur används inte ofta i praktiken.

Tvådelad arkitektur

Tvåskiktsarkitektur är ett av datalagerskikten som separerar fysiskt tillgängliga källor och datalager. Denna arkitektur kan inte utökas och stöder inte heller ett stort antal slutanvändare. Det har också anslutningsproblem på grund av nätverksbegränsningar.

Tre-lagers datalagerarkitektur

Detta är den mest använda Architecture of Data Warehouse.

Den består av topp-, mellan- och bottennivå.

  1. Nedre nivå: Databasens servrar som bottennivå. Det är vanligtvis ett relationsdatabassystem. Data rensas, transformeras och laddas in i detta lager med hjälp av backend-verktyg.
  2. Mellanivå: Mellanivån i datalager är en OLAP-server som implementeras med antingen ROLAP- eller MOLAP-modell. För en användare presenterar denna applikationsnivå en abstrakt vy av databasen. Detta lager fungerar också som en medlare mellan slutanvändaren och databasen.
  3. Toppnivå: Det översta nivån är ett frontklientlager. Toppnivå är de verktyg och API som du ansluter och hämtar data från datalagret. Det kan vara frågaverktyg, rapporteringsverktyg, hanterade frågeverktyg, analysverktyg och verktyg för datautvinning.

Datawarehouse-komponenter

Vi kommer att lära oss om Datawarehouse-komponenterna och arkitekturen för datalager med diagram som visas nedan:

Datalagerarkitektur

Data Warehouse är baserat på en RDBMS-server som är en central informationsförvaring som är omgiven av några viktiga datalagringskomponenter för att göra hela miljön funktionell, hanterbar och tillgänglig.

Det finns huvudsakligen fem datalagerkomponenter:

Datalagerdatabas

Den centrala databasen är grunden för datalagringsmiljön. Denna databas är implementerad på RDBMS-tekniken. Även om denna typ av implementering begränsas av det faktum att traditionellt RDBMS-system är optimerat för transaktionsdatabasbehandling och inte för datalagring. Till exempel ad hoc-fråga, flertabellanslutningar, aggregat är resurskrävande och bromsar prestanda.

Därför används alternativa tillvägagångssätt till databas enligt nedan -

  • I ett datahus distribueras relationsdatabaser parallellt för att möjliggöra skalbarhet. Parallella relationsdatabaser tillåter också delat minne eller delad ingenting-modell på olika multiprocessorkonfigurationer eller massivt parallella processorer.
  • Nya indexstrukturer används för att kringgå relationell tabellskanning och förbättra hastigheten.
  • Användning av flerdimensionell databas (MDDB) för att övervinna alla begränsningar som är placerade på grund av de relationsdata Warehouse-modellerna. Exempel: Essbase från Oracle.

Sourcing, Acquisition, Clean-up and Transformation Tools (ETL)

Data sourcing, transformation och migreringsverktyg används för att utföra alla konverteringar, sammanfattningar och alla ändringar som behövs för att omvandla data till ett enhetligt format i datalageret. De kallas också Extract, Transform and Load (ETL) Tools.

Deras funktionalitet inkluderar:

  • Anonymisera data enligt reglerna.
  • Eliminera oönskade data i operativa databaser från att laddas till datalager.
  • Sök och ersätt vanliga namn och definitioner för data som kommer från olika källor.
  • Beräkning av sammanfattningar och härledda data
  • Om data saknas fyller du dem med standardvärden.
  • Av duplicerad upprepad data som kommer från flera datakällor.

Dessa extraherings-, omvandlings- och laddningsverktyg kan generera cron-jobb, bakgrundsjobb, Cobol-program, skalskript etc. som regelbundet uppdaterar data i datawarehouse. Dessa verktyg är också användbara för att underhålla metadata.

Dessa ETL-verktyg måste hantera utmaningar som heterogenitet i databas och data.

Metadata

Namnet Meta Data föreslår några tekniska datalagringskoncept på hög nivå. Det är dock ganska enkelt. Metadata är data om data som definierar datalagret. Den används för att bygga, underhålla och hantera datalagret.

I Data Warehouse Architecture spelar metadata en viktig roll eftersom den anger källan, användningen, värdena och funktionerna för datalagerdata. Den definierar också hur data kan ändras och bearbetas. Det är nära kopplat till datalagret.

En rad i försäljningsdatabasen kan till exempel innehålla:

4030 KJ732 299.90

Detta är meningslösa uppgifter tills vi konsulterar Meta som säger att det var

  • Modellnummer: 4030
  • Försäljnings-ID: KJ732
  • Totalt försäljningsbelopp på $ 299,90

Därför är Meta Data viktiga ingredienser i omvandlingen av data till kunskap.

Metadata hjälper till att svara på följande frågor

  • Vilka tabeller, attribut och nycklar innehåller datalagret?
  • Var kom uppgifterna ifrån?
  • Hur många gånger laddas data om?
  • Vilka omvandlingar applicerades med rengöring?

Metadata kan klassificeras i följande kategorier:

  1. Tekniska metadata: Denna typ av metadata innehåller information om lager som används av datalagerdesigners och administratörer.
  2. Business Meta Data: Denna typ av metadata innehåller detaljer som ger slutanvändarna ett sätt att förstå information som lagras i datalagret.

Frågeverktyg

Ett av de främsta syftena med datalagring är att ge information till företag för att fatta strategiska beslut. Frågeverktyg tillåter användare att interagera med datalagersystemet.

Dessa verktyg faller i fyra olika kategorier:

  1. Fråga och rapporteringsverktyg
  2. Verktyg för applikationsutveckling
  3. Data mining verktyg
  4. OLAP-verktyg

1. Fråga och rapporteringsverktyg:

Fråga och rapporteringsverktyg kan delas in i ytterligare

  • Rapporteringsverktyg
  • Hanterade sökverktyg

Rapporteringsverktyg:

Rapporteringsverktyg kan delas in i produktionsrapporteringsverktyg och skrivare för skrivbordsrapporter.

  1. Rapportförfattare: Denna typ av rapporteringsverktyg är verktyg som är utformade för slutanvändare för deras analys.
  2. Produktionsrapportering: Denna typ av verktyg gör det möjligt för organisationer att generera regelbundna operativa rapporter. Det stöder också stora volymjobb som utskrift och beräkning. Några populära rapporteringsverktyg är Brio, Business Objects, Oracle, PowerSoft, SAS Institute.

Hanterade frågeverktyg:

Denna typ av åtkomstverktyg hjälper slutanvändare att lösa hak i databas och SQL och databasstruktur genom att infoga metalager mellan användare och databas.

2. Verktyg för applikationsutveckling:

Ibland uppfyller inte inbyggda grafiska och analytiska verktyg en organisations analytiska behov. I sådana fall utvecklas anpassade rapporter med applikationsutvecklingsverktyg.

3. Data mining verktyg:

Data mining är en process för att upptäcka meningsfull ny korrelation, patens och trender genom att bryta stora mängder data. Data mining verktyg används för att göra denna process automatisk.

4. OLAP-verktyg:

Dessa verktyg är baserade på begrepp i en flerdimensionell databas. Det gör det möjligt för användare att analysera data med hjälp av detaljerade och komplexa flerdimensionella vyer.

Datalager Bussarkitektur

Datalagerbuss bestämmer dataflödet i ditt lager. Dataflödet i ett datalager kan kategoriseras som Inflow, Upflow, Downflow, Outflow och Meta flow.

När man designar en databuss måste man ta hänsyn till de delade dimensionerna, fakta över datamärken.

Data Marts

En datamart är ett åtkomstlager som används för att få ut data till användarna. Det presenteras som ett alternativ för stora datalager eftersom det tar mindre tid och pengar att bygga. Det finns dock ingen standarddefinition av en datamart skiljer sig från person till person.

I ett enkelt ord är Data mart ett dotterbolag till ett datalager. Datamart används för partition av data som skapas för den specifika användargruppen.

Datamärken kan skapas i samma databas som Datawarehouse eller en fysiskt separat databas.

Bästa metoder för datalagerarkitektur

För att utforma datalagerarkitektur måste du följa nedanstående bästa metoder:

  • Använd datalagermodeller som är optimerade för informationshämtning, vilket kan vara dimensionellt läge, denormaliserat eller hybrid.
  • Välj lämplig designmetod som uppifrån och ner och nedåt och uppåt i Data Warehouse
  • Behöver säkerställa att data bearbetas snabbt och exakt. Samtidigt bör du ta ett tillvägagångssätt som konsoliderar data till en enda version av sanningen.
  • Utforma noggrant datainsamlings- och rengöringsprocessen för datalager.
  • Designa en MetaData-arkitektur som gör det möjligt att dela metadata mellan komponenterna i Data Warehouse
  • Överväg att implementera en ODS-modell när informationshämtningsbehovet är nära botten av dataabstraktionspyramiden eller när det finns flera operativa källor som krävs för att komma åt.
  • Man bör se till att datamodellen är integrerad och inte bara konsoliderad. I så fall bör du överväga 3NF datamodell. Det är också perfekt för att skaffa ETL- och datarengöringsverktyg

Sammanfattning:

  • Datalager är ett informationssystem som innehåller historiska och kommutativa data från enstaka eller flera källor. Dessa källor kan vara traditionellt datalager, molndatalager eller virtuellt datalager.
  • Ett datalager är ämnesorienterat eftersom det erbjuder information om ämnet istället för organisationens pågående verksamhet.
  • I Data Warehouse betyder integration att man skapar en gemensam måttenhet för alla liknande data från de olika databaserna
  • Datalager är också icke-flyktigt innebär att tidigare data inte raderas när nya data matas in i det.
  • Ett Datawarehouse är tidsvariant eftersom data i en DW har hög hållbarhet.
  • Det finns huvudsakligen 5 komponenter i Data Warehouse Architecture: 1) Databas 2) ETL-verktyg 3) Metadata 4) Frågeställningar 5) DataMarts
  • Dessa är fyra huvudkategorier av frågeverktyg 1. Fråga och rapportering, verktyg 2. Verktyg för applikationsutveckling, 3. Verktyg för datautvinning 4. OLAP-verktyg
  • Data sourcing, transformation och migreringsverktygen används för att utföra alla konverteringar och sammanfattningar.
  • I Data Warehouse Architecture spelar metadata en viktig roll eftersom den anger källan, användningen, värdena och funktionerna för datalagerdata.