Alla definierar Big Data med en uppsättning av 3 eller 4 eller 10 Vs. Ger dessa V oss verkligen definitionen av Big Data-konceptet eller är det något annat som de försöker berätta för oss? Det främsta skälet till att använda denna V-baserade karaktärisering är att lyfta fram de utmaningar som följer med denna Big Data. Utmaningar som – fånga, rengöra, kurera, integrering, lagring, bearbetning och många fler.
Dessa V ger anvisningar för hur du förbereder dig för de troliga utmaningarna. Utmaningar som kan komma din väg när du skulle börja hantera din Big Data som:
Dessa V förklarar de viktiga aspekterna av Big Data och en Big Data-strategi som organisationen inte kan ignorera. Låt oss titta på alla V som bidrar till olika attribut för Big Data:
1. Volym:
100 terabyte data laddas upp dagligen till Facebook; Akamai analyserar 75 miljoner händelser om dagen för att rikta onlineannonser; Walmart hanterar 1 miljon kundtransaktioner varje timme. 90 % av all data som någonsin skapats har genererats under de senaste 2 åren.
Ovanstående siffror visar verkligen vad det betyder när vi säger stora volymer data. Det är dessa första egenskaper hos data som gör det till en stor data. Denna stora mängd data i sin tur innebär en utmaning för oss att lagra denna data.
Se även: Bästa 19 gratis verktygen för datautvinning
2. Hastighet:
1n 1999, varje minut varje dag, laddar vi upp 100 timmar video på YouTube, skickade över 200 miljoner e-postmeddelanden och skickar 300 000 tweets.
Underliggande volymsiffror är en ännu större trend, vilket är att 90 % av befintlig data har skapats under bara de senaste två åren. Detta skildrar hastigheten eller hastigheten med vilken data skapas, lagras, analyseras och visualiseras.
Utmaningen organisationer har är att hantera den enorma hastighet som data skapas och används i realtid.
3. Variety
Tidigare var all data som skapades strukturerad data, den passade snyggt in i kolumner och rader men de dagarna är över. 90 % av data som genereras idag är ostrukturerad och kommer i alla former – från geo-spatial data till tweets som kan analyseras med avseende på innehåll och känslor, till visuell data som foton och videor.
Mångfalden beskriver en av de största utmaningarna med big data. Det kan vara ostrukturerat och det kan innehålla så många olika typer av data från XML till video till SMS. Att organisera data på ett meningsfullt sätt är ingen enkel uppgift, särskilt när själva data ändras snabbt.
4. Variabilitet
Variabilitet förväxlas ofta med Variation. Ett enkelt exempel för att särskilja det är: tänk på Starbucks – det har så många smaker i Cold Coffee. Detta är variation. För anta att du köper Cafe Mocha varje dag och det smakar och doftar lite annorlunda från alla tidigare dagar. Det är Variabilitet.
Variabilitet i big Datas sammanhang hänvisar till några olika saker. En är antalet inkonsekvenser i uppgifterna. Dessa måste hittas med anomali och avvikande detekteringsmetoder för att någon meningsfull analys ska kunna inträffa. Big data är också variabel på grund av mängden datadimensioner som härrör från flera olika datatyper och källor. Variabilitet kan också hänvisa till den inkonsekventa hastigheten med vilken big data laddas in i din databas.
Se även: Bästa verktyg för offlinedatarensning
5. Sannhet
Det som är avgörande för att förstå Big Data är den röriga, bullriga karaktären hos den och mängden arbete som går ner för att producera en korrekt datauppsättning innan analysen ens kan börja. Det är värdelöst om data som analyseras är felaktiga eller ofullständiga.
Denna situation uppstår när dataströmmar kommer från olika källor som presenterar en mängd olika format med varierande signal-brus-förhållanden. Det kan vara fullt av ackumulerade fel när det når Big Data Analytics.
Veracity handlar om att se till att data är korrekta, vilket kräver processer för att förhindra att dålig data ackumuleras i dina system. Det enklaste exemplet är kontakter som kommer in i ditt marknadsföringsautomationssystem med falska namn och felaktig kontaktinformation. Hur många gånger har du sett Musse Pigg i din databas? Det är den klassiska utmaningen "skräp in, skräp ut".
6. Visualisering
Detta är den svåra delen av Big Data, som misslyckas med vilket gör denna enorma mängd data värdelös. En kärnuppgift för alla Big Data-bearbetningssystem är att omvandla den enorma omfattningen av det till något lätt att förstå och handlingsbart. För mänsklig konsumtion är en av de bästa metoderna för detta att konvertera det till grafiska format.
Nuvarande verktyg för visualisering av big data står inför tekniska utmaningar p.g.a. begränsningar av in-memory-teknik och dålig skalbarhet, funktionalitet och svarstid. Traditionella grafer kan inte uppfylla behovet av att rita en miljard datapunkter, så du behöver olika sätt att representera data som datakluster eller använda trädkartor, solstrålar, parallella koordinater, cirkulära nätverksdiagram eller konträd.
7 . Värde
Värde är slutspelet. Det potentiella värdet av Big Data är enormt. Efter att ha tagit hand om volym, hastighet, variation, variabilitet, sanningsenlighet och visualisering – vilket tar mycket tid och ansträngning – är det viktigt att vara säker på att din organisation får värde från data.
Självklart , data i sig är inte alls värdefull. Värdet ligger i de analyser som gjorts på den datan och hur data omvandlas till information och så småningom omvandlar den till kunskap.
Ovanstående 7 V:n berättar om 3 viktiga aspekter av Big Data, dvs definition, egenskaper och utmaningar. Men när folk började forska om big data för att uppfinna metoder för att möta tidigare nämnda 7 V:s utmaningar, stötte de på några andra V:s. Även om de inte spelar den avgörande rollen i big data utan kompletterar listan över egenskaper och utmaningar.
8. Giltighet
I likhet med sanningsenlighet avser giltighet hur korrekta och korrekta uppgifterna är för avsedd användning. Big Data sanningsenlighet är en giltighetsfråga, vilket innebär att uppgifterna är korrekta och korrekta för den avsedda användningen. Tydligt giltig data är nyckeln för att fatta rätt beslut. Datavalidering är en som certifierar oförstörd dataöverföring.
9. Viabilitet
Tänk bara på följande påståenden:
Vår första uppgift är att bedöma livskraften för dessa data eftersom vi, med så många olika data och variabler att ta hänsyn till när vi bygger en effektiv prediktiv modell, vill snabbt och kostnadseffektivt effektivt testa och bekräfta en viss variabels relevans innan du investerar i skapandet av en komplett modell. Med andra ord, vi vill validera den hypotesen innan vi vidtar ytterligare åtgärder och, i processen att fastställa livskraften för en variabel, kan vi utöka vår syn för att avgöra om andra variabler – de som inte var en del av vår initiala hypotes – har en meningsfull inverkan på våra önskade eller observerade resultat.
10. Volatilitet
Hur gammal måste din data vara innan den anses vara irrelevant, historisk eller inte användbar längre? Hur länge behöver data sparas?
När vi talar om volatiliteten hos Big Data kan vi enkelt komma ihåg lagringspolicyn för strukturerad data som vi implementerar varje dag i våra företag. När lagringsperioden löper ut kan vi enkelt förstöra den.
På grund av hastigheten och volymen av big data måste dess volatilitet övervägas noggrant. Du behöver nu upprätta regler för datavaluta och tillgänglighet samt säkerställa snabb hämtning av information vid behov.
11. Sårbarhet
Kommer du ihåg Ashley Madison Hack 2015? Eller minns du i maj 2016 CRN rapporterade "en hacker som heter Peace publicerade data på den mörka webben för att sälja, som påstås inkludera information om 167 miljoner LinkedIn-konton och 360 miljoner e-postmeddelanden och lösenord för MySPace-användare.
Big Data för med sig nya säkerhetsproblem. Speciellt med dessa egenskaper blir det en utmaning att utveckla ett säkerhetsprogram för Big Data. När allt kommer omkring är ett dataintrång ett stort intrång.
Så vad säger allt detta om big datas natur? Tja, det är massivt och snabbt expanderande, men det är också bullrigt, rörigt, ständigt föränderligt, i hundratals format och praktiskt taget värdelöst utan analys och visualisering.
Volym, hastighet och variation är inte bara nyckelparametrarna av Big Data, men de är också anledningen till att ge upphov till konceptet Big Data och de viktigaste skiljedragen mellan normal data och Big Data. Även om de är inneboende i själva Big Data, är de andra V:s Variabilitet, sanningsenlighet, visualisering och värde viktiga attribut som återspeglar den gigantiska komplexitet som Big Data presenterar för dem som skulle bearbeta, analysera och dra nytta av det.
Utan tvekan är Big Data en nyckeltrend som företagens IT måste anpassas till med korrekta datorinfrastrukturer. Men utan högpresterande analyser och datavetare för att förstå det hela riskerar du att helt enkelt skapa stora kostnader utan att skapa värdet som leder till affärsfördelar.
Läs: 0