Er datavidenskab og big data hadoop samme? Er der nogen forskel mellem dem, eller betyder de begge det samme?


Svar 1:

Nej, bestemt ikke.

Lad os diskutere dette problem i tre dele:

Data Science er en specialisering til at løse forskellige problemer ved hjælp af forskellige metoder fra statistik, kombinatorik, matematik og datalogi osv.)

Big Data: Big data i en bred visning er et koncept med håndtering af enorme data (udtrykket enorme er relative) uden for traditionelle metoder.

Hadoop: Hadoop er en ramme, eller vi kan sige et miljø, der kan bruges til at styre og analysere enorme datasæt ved hjælp af forskellige værktøjer (PIG, HIVE, Scoop, Fume osv.)

Referencer:

Hadoop-tutorial

Datavidenskab

Big data


Svar 2:

Jeg formoder, at du troede "Data science" og "Big Data Hadoop" som to forskellige ting, men de er faktisk tre. Data Science, Big Data og Hadoop har forskellige betydninger.

Lad os antage, at du er studerende i 10. klasse. Du har fået et job med at finde gennemsnittet af karakterer i hvert emne scoret af dine klassekammerater. Du har 50 studerende i din klasse, der studerer 5 fag hver. At finde gennemsnittet er ingen raketvidenskab, så du gør det hele i et excelark. Nu beder din lærer dig om at foretage den samme beregning for alle sektion A, B og C på omkring 150 studerende. Excel-ark er igen tilstrækkeligt. Nu vil du vide, hvad der ville være de gennemsnitlige karakterer for videnskab scoret af elever i 10. klasse over hele landet, hvilket er omkring 14.316.861 studerende i 2016. Du kan muligvis ikke gemme så meget data i et excelark, så du vil gemme det i en database som MySQL eller Oracle. Du kører en SQL-forespørgsel for at finde gennemsnittet. Nu er du nysgerrig efter at kende tendensen til, hvordan gennemsnittet er bevæget sig siden de sidste 20 år i Science for klasse 10, der er omkring 3000000 poster. Hvis du skulle finde gennemsnittet af alle 5 fag og ikke kun videnskab, ville du håndtere 30000000 x 5 poster. Dataene er store nu, hvilket også kaldes “Big Data”.

Big Data - ekstremt store datasæt, der kan analyseres beregningsmæssigt for at afsløre mønstre, tendenser og foreninger, især relateret til menneskelig adfærd og interaktioner.- Fra Wikipedia

Du burde sandsynligvis ikke gemme så meget data i din MySQL eller Oracle og køre din SQL-forespørgsel på millioner af poster. Jeg har aldrig behandlet så meget data i en SQL-database, så jeg vil ikke kommentere deres ydeevne, men jeg brugte Hadoop til at håndtere enorme mængder datasæt, meget større end den studerendes database, vi taler om. Hadoop er en ramme, der distribuerer dataene i flere systemer, så alle systemer kan udføre beregninger parallelt og derved øge den samlede beregningshastighed, også kaldet Distribueret computing. Hadoop har sit eget filsystem, som er et datalagringssystem til Big Data.

Datavidenskab i lægmand er en videnskab til at forstå, hvad man skal gøre med dataene, store eller små. Indtil nu forsøgte vi kun at finde gennemsnittet af scoringer, men en dataforsker ville gå ud over og se efter måder at finde, hvad der kan gøres med gennemsnittet. For en organisation vil han hjælpe dem med at tage forretningsbeslutninger og finde mønstre, der vil hjælpe cheferne med at træffe bedre beslutninger og allokere ressourcer til at øge overskuddet. De fleste dataforskere bruger måske ikke engang Hadoop, hvis de ikke har at gøre med Big Data, de bruger normalt R lang eller Python til beregninger.

Big Data er et koncept.Hadoop er et værktøj. Data Science er et felt inden for datalogi.


Svar 3:

Jeg formoder, at du troede "Data science" og "Big Data Hadoop" som to forskellige ting, men de er faktisk tre. Data Science, Big Data og Hadoop har forskellige betydninger.

Lad os antage, at du er studerende i 10. klasse. Du har fået et job med at finde gennemsnittet af karakterer i hvert emne scoret af dine klassekammerater. Du har 50 studerende i din klasse, der studerer 5 fag hver. At finde gennemsnittet er ingen raketvidenskab, så du gør det hele i et excelark. Nu beder din lærer dig om at foretage den samme beregning for alle sektion A, B og C på omkring 150 studerende. Excel-ark er igen tilstrækkeligt. Nu vil du vide, hvad der ville være de gennemsnitlige karakterer for videnskab scoret af elever i 10. klasse over hele landet, hvilket er omkring 14.316.861 studerende i 2016. Du kan muligvis ikke gemme så meget data i et excelark, så du vil gemme det i en database som MySQL eller Oracle. Du kører en SQL-forespørgsel for at finde gennemsnittet. Nu er du nysgerrig efter at kende tendensen til, hvordan gennemsnittet er bevæget sig siden de sidste 20 år i Science for klasse 10, der er omkring 3000000 poster. Hvis du skulle finde gennemsnittet af alle 5 fag og ikke kun videnskab, ville du håndtere 30000000 x 5 poster. Dataene er store nu, hvilket også kaldes “Big Data”.

Big Data - ekstremt store datasæt, der kan analyseres beregningsmæssigt for at afsløre mønstre, tendenser og foreninger, især relateret til menneskelig adfærd og interaktioner.- Fra Wikipedia

Du burde sandsynligvis ikke gemme så meget data i din MySQL eller Oracle og køre din SQL-forespørgsel på millioner af poster. Jeg har aldrig behandlet så meget data i en SQL-database, så jeg vil ikke kommentere deres ydeevne, men jeg brugte Hadoop til at håndtere enorme mængder datasæt, meget større end den studerendes database, vi taler om. Hadoop er en ramme, der distribuerer dataene i flere systemer, så alle systemer kan udføre beregninger parallelt og derved øge den samlede beregningshastighed, også kaldet Distribueret computing. Hadoop har sit eget filsystem, som er et datalagringssystem til Big Data.

Datavidenskab i lægmand er en videnskab til at forstå, hvad man skal gøre med dataene, store eller små. Indtil nu forsøgte vi kun at finde gennemsnittet af scoringer, men en dataforsker ville gå ud over og se efter måder at finde, hvad der kan gøres med gennemsnittet. For en organisation vil han hjælpe dem med at tage forretningsbeslutninger og finde mønstre, der vil hjælpe cheferne med at træffe bedre beslutninger og allokere ressourcer til at øge overskuddet. De fleste dataforskere bruger måske ikke engang Hadoop, hvis de ikke har at gøre med Big Data, de bruger normalt R lang eller Python til beregninger.

Big Data er et koncept.Hadoop er et værktøj. Data Science er et felt inden for datalogi.