Innan vi går till introduktion till Big Data måste du först veta
Vad är data?
Mängderna, tecknen eller symbolerna på vilka operationer utförs av en dator, som kan lagras och sändas i form av elektriska signaler och registreras på magnetiska, optiska eller mekaniska inspelningsmedier.
Låt oss nu lära oss Big Data introduktion
Vad är Big Data?
Big Data är en samling data som är enorm i volym men som växer exponentiellt med tiden. Det är en data med så stor storlek och komplexitet att inget av traditionella datahanteringsverktyg kan lagra eller bearbeta det effektivt. Big data är också en data men med enorm storlek.
I den här handledningen lär du dig,
- Vad är data?
- Vad är Big Data?
- Exempel på Big Data
- Typer av stora data
- Kännetecken för Big Data
- Fördelar med Big Data Processing
Exempel på Big Data
Nedan följer några av Big Data-exemplen-
The New York Stock Exchange genererar ungefär en terabyte av nya handels data per dag.
Sociala media
Statistiken visar att 500 + terabyte ny data intas i databaserna på sociala medier Facebook , varje dag. Dessa data genereras huvudsakligen i termer av foto- och videouppladdningar, meddelandeutbyte, kommentarer osv.
En enda jetmotor kan generera 10 + terabyte data på 30 minuters flygtid. Med många tusen flygningar per dag når generering av data upp till många Petabyte.
Typer av stora data
Följande är typerna av Big Data:
- Strukturerad
- Ostrukturerad
- Halvstrukturerad
Strukturerad
Alla data som kan lagras, nås och bearbetas i form av fast format kallas "strukturerade" data. Under tidsperioden har talang inom datavetenskap uppnått större framgång när det gäller att utveckla tekniker för att arbeta med sådan typ av data (där formatet är välkänt i förväg) och även dra nytta av det. Men nuförtiden förutspår vi problem när storleken på sådan data växer i stor utsträckning, typiska storlekar är i rasen av flera zettabyte.
Vet du? 10 21 byte lika med 1 zettabyte eller en miljard terabyte bildar en zettabyte .
När man tittar på dessa siffror kan man lätt förstå varför namnet Big Data ges och föreställa sig utmaningarna med lagring och bearbetning.
Vet du? Data som lagras i ett relationsdatabashanteringssystem är ett exempel på en 'strukturerad' data.
Exempel på strukturerad data
En tabell 'Anställd' i en databas är ett exempel på strukturerad data
Anställnings-ID | Anställd Namn | Kön | Avdelning | Lön_In_lacs |
---|---|---|---|---|
2365 | Rajesh Kulkarni | Manlig | Finansiera | 650000 |
3398 | Pratibha Joshi | Kvinna | Administration | 650000 |
7465 | Shushil Roy | Manlig | Administration | 500000 |
7500 | Shubhojit Das | Manlig | Finansiera | 500000 |
7699 | Priya Sane | Kvinna | Finansiera | 550000 |
Ostrukturerad
Alla data med okänd form eller struktur klassificeras som ostrukturerade data. Förutom att storleken är enorm, innebär ostrukturerad data flera utmaningar när det gäller dess bearbetning för att hämta värde ur den. Ett typiskt exempel på ostrukturerad data är en heterogen datakälla som innehåller en kombination av enkla textfiler, bilder, videoklipp etc. Nu har organisationer dagligen tillgång till mycket data med dem men tyvärr vet de inte hur man kan hämta värde på det sedan dessa data är i sin råa form eller ostrukturerade format.
Exempel på ostrukturerad data
Resultatet returneras av 'Google Search'
Halvstrukturerad
Halvstrukturerad data kan innehålla båda formerna av data. Vi kan se semistrukturerade data som en strukturerad form men den definieras faktiskt inte med t.ex. en tabelldefinition i relationell DBMS. Exempel på semistrukturerade data är data som representeras i en XML-fil.
Exempel på halvstrukturerad data
Personuppgifter lagrade i en XML-fil-
Prashant Rao Male 35 Seema R. Female 41 Satish Mane Male 29 Subrato Roy Male 26 Jeremiah J. Male 35
Datatillväxt genom åren
Observera att webbapplikationsdata, som är ostrukturerade, består av loggfiler, transaktionshistorikfiler etc. OLTP-system är byggda för att fungera med strukturerad data där data lagras i relationer (tabeller).
Kännetecken för Big Data
Stora data kan beskrivas med följande egenskaper:
- Volym
- Mängd
- Hastighet
- Variabilitet
(i) Volym - Namnet Big Data i sig är relaterat till en storlek som är enorm. Storleken på data spelar en mycket avgörande roll för att bestämma värdet på data. Huruvida en viss data faktiskt kan betraktas som Big Data eller inte beror också på datamängden. Följaktligen är 'Volym' en egenskap som måste beaktas när man hanterar Big Data.
(ii) Variation - Nästa aspekt av Big Data är dess variation .
Variation hänvisar till heterogena källor och typ av data, både strukturerade och ostrukturerade. Under tidigare dagar var kalkylark och databaser de enda datakällorna som de flesta av programmen beaktade. Numera övervägs också data i form av e-post, foton, videor, övervakningsenheter, PDF-filer, ljud etc. i analysapplikationerna. Denna mängd ostrukturerad data innebär vissa problem för lagring, brytning och analys av data.
(iii) Hastighet - Termen "hastighet" avser hastigheten för generering av data. Hur snabbt data genereras och bearbetas för att möta kraven bestämmer den verkliga potentialen i data.
Big Data Velocity handlar om den hastighet med vilken data strömmar in från källor som affärsprocesser, applikationsloggar, nätverk och sociala mediasidor, sensorer, mobila enheter etc. Dataflödet är massivt och kontinuerligt.
(iv) Variabilitet - Detta hänvisar till inkonsekvensen som kan visas av data ibland, vilket hämmar processen att kunna hantera och hantera data effektivt.
Fördelar med Big Data Processing
Möjligheten att bearbeta Big Data medför flera fördelar, till exempel-
- Företag kan använda extern intelligens när de fattar beslut
Tillgång till sociala data från sökmotorer och webbplatser som facebook, twitter gör det möjligt för organisationer att finjustera sina affärsstrategier.
- Förbättrad kundservice
Traditionella kundfeedback-system ersätts av nya system designade med Big Data-teknik. I dessa nya system används Big Data och naturliga språkbehandlingstekniker för att läsa och utvärdera konsumenternas svar.
- Tidig identifiering av risk för produkten / tjänsterna, om någon
- Bättre driftseffektivitet
Big Data-teknologier kan användas för att skapa ett mellanstationer eller landningszon för nya data innan de identifierar vilka data som ska flyttas till datalagret. Dessutom hjälper en sådan integration av Big Data-teknologier och datalager en organisation att ladda ner data som sällan har åtkomst.
Sammanfattning
- Big Data definition: Big Data definieras som data som är enorma i storlek. Bigdata är en term som används för att beskriva en datainsamling som är enorm i storlek och ändå växer exponentiellt med tiden.
- Big Data analytics-exempel inkluderar börser, sociala mediasidor, jetmotorer etc.
- Big Data kan vara 1) strukturerad, 2) ostrukturerad, 3) halvstrukturerad
- Volym, variation, hastighet och variation är få Big Data-egenskaper
- Förbättrad kundservice, bättre operativ effektivitet, bättre beslutsfattande är några fördelar med Bigdata