Co je Data Science? Úvod, Základní Concepts & Zpracovat
Co je to Data Science?
Data Science je oblast studia, která zahrnuje extraczískávání poznatků z obrovského množství dat pomocí různých vědeckých metod, algoritmů a procesů. Pomáhá vám odhalit skryté vzorce v nezpracovaných datech. Termín datová věda se objevil v důsledku vývoje matematické statistiky, analýzy dat a... velké údajů.
Datová věda je interdisciplinární obor, který vám umožňuje...tracznalosti ze strukturovaných nebo nestrukturovaných dat. Datová věda vám umožňuje převést obchodní problém do výzkumného projektu a poté ho převést zpět do praktického řešení.
Proč Data Science?
Zde jsou významné výhody používání technologie Data Analytics:
- Data jsou ropou pro dnešní svět. Se správnými nástroji, technologiemi, algoritmy můžeme data využít a převést je na výraznou obchodní výhodu
- Data Science vám může pomoci odhalit podvody pomocí pokročilých algoritmů strojového učení
- Pomůže vám to předejít významným finančním ztrátám
- Umožňuje budovat schopnost inteligence ve strojích
- Můžete provádět analýzu sentimentu, abyste změřili loajalitu zákazníků ke značce
- Umožňuje vám přijímat lepší a rychlejší rozhodnutí
- Pomáhá vám doporučit správný produkt správnému zákazníkovi a zlepšit tak vaše podnikání

Komponenty datové vědy
Statistika
Statistika je nejkritičtější jednotkou základů datové vědy a je to metoda nebo věda shromažďování a analýzy numerických dat ve velkém množství za účelem získání užitečných informací.
Vizualizace
Technika vizualizace vám pomáhá přistupovat k obrovskému množství dat ve snadno srozumitelných a stravitelných vizuálech.
Strojové učení
Strojové učení zkoumá vytváření a studium algoritmů, které se učí předpovídat nepředvídaná/budoucí data.
Hluboké učení
Hluboké učení metoda je nový výzkum strojového učení, kde algoritmus vybírá model analýzy, který se má následovat.
Data Science Process
Nyní v tomto Výuka datové vědy, naučíme se Data Science Process:
1. Objev
Krok zjišťování zahrnuje získání dat ze všech identifikovaných interních a externích zdrojů, což vám pomůže odpovědět na obchodní otázku.
Údaje mohou být:
- Protokoly z webových serverů
- Data shromážděná ze sociálních médií
- Datové soubory sčítání
- Data streamovaná z online zdrojů pomocí rozhraní API
2. Příprava
Data mohou mít mnoho nekonzistencí, jako jsou chybějící hodnoty, prázdné sloupce, nesprávný formát dat, které je třeba vyčistit. Před modelováním musíte zpracovat, prozkoumat a upravit data. Čím čistší jsou vaše data, tím lepší jsou vaše předpovědi.
3. Plánování modelu
V této fázi musíte určit metodu a techniku, jak nakreslit vztah mezi vstupními proměnnými. Plánování modelu se provádí pomocí různých statistických vzorců a vizualizační nástroje. Některé z nástrojů používaných pro tento účel jsou služby analýzy SQL, R a SAS/access.
4. Stavba modelu
V tomto kroku začíná vlastní proces vytváření modelu. Zde Data scientist distribuuje datové sady pro školení a testování. Techniky jako asociace, klasifikace a shlukování jsou aplikovány na trénovací datovou sadu. Jakmile je model připraven, je testován proti „testovací“ datové sadě.
5. Operanacionalizovat
V této fázi dodáváte konečný základní model se zprávami, kódem a technickými dokumenty. Model je po důkladném testování nasazen do produkčního prostředí v reálném čase.
6. Sdělte výsledky
V této fázi jsou klíčová zjištění sdělena všem zainteresovaným stranám. To vám pomůže rozhodnout, zda jsou výsledky projektu úspěšné nebo neúspěšné na základě vstupů z modelu.
Data Science Jobs Role
Nejvýznamnější pracovní pozice Data Scientist jsou:
- Datový vědec
- Datový inženýr
- Analyzátor dat
- Statistik
- Data Architect
- Správce dat
- Business Analyst
- Data/Analytics Manager
Pojďme se podrobně dozvědět, co každá role obnáší:
Datový vědec
Role: Data Scientist je profesionál, který spravuje obrovské množství dat, aby pomocí různých nástrojů, technik, metodologií, algoritmů atd. přišel s přesvědčivými obchodními vizemi.
Jazyky: R, SAS, Python, SQL, Hive, Matlab, Prase, Spark
Datový inženýr
Role: Role a datový inženýr je práce s velkým množstvím dat. Vyvíjí, konstruuje, testuje a udržuje architektury, jako jsou rozsáhlé systémy zpracování a databáze.
Jazyky: SQL, Hive, R, SAS, Matlab, Python, Java, Ruby, C++ a Perl
Analyzátor dat
Role: Datový analytik je zodpovědný za těžbu obrovského množství dat. Budou hledat vztahy, vzorce, trendy v datech. Later bude poskytovat přesvědčivé reporty a vizualizace pro analýzu dat, aby bylo možné přijímat nejschůdnější obchodní rozhodnutí.
Jazyky: R, Python, HTML, JS, C, C++, SQL
Statistik
Role: Statistik shromažďuje, analyzuje a rozumí kvalitativním a kvantitativním datům pomocí statistických teorií a metod.
Jazyky: SQL, R, Matlab, Tableau, Python, Perl, Sparka Úl
Správce dat
Role: Správce dat by měl zajistit, aby databáze je přístupný všem relevantním uživatelům. Také zajišťuje, že funguje správně a chrání jej před suchý.
Jazyky: Ruby on Rails, SQL, Java, C# a Python
Business Analyst
Role: Tento profesionál potřebuje zlepšit obchodní procesy. Je prostředníkem mezi obchodním týmem a IT oddělením.
Jazyky: SQL, Tableau, Power BI a, Python
Přečtěte si také Otázky a odpovědi k rozhovoru Data Science: Klikněte zde
Nástroje pro datovou vědu
| Analýza dat | Skladování dat | Vizualizace dat | Strojové učení |
|---|---|---|---|
| R, Spark, Python a SAS | Hadoop, SQL, Úl | R, Výjev, Drsný | Spark, Azure ML studio, Mahout |
Rozdíl mezi datovou vědou a BI (Business Intelligence)
| parametry | Business Intelligence | Data Science |
|---|---|---|
| Vnímání | ohlédnutí zpět | Těšíme se |
| Zdroje dat | Strukturovaná data. Většinou SQL, ale nějakou dobu Data Warehouse) | Strukturovaná a nestrukturovaná data. Stejně jako protokoly, SQL, NoSQL nebo text |
| Přístup | Statistiky a vizualizace | Statistiky, strojové učení a graf |
| důraz | Minulost a současnost | Analýza a neurolingvistické programování |
| Tools | Pentaho. Microsoft Bl, QlikView, | R, TensorFlow |
Přečtěte si také rozdíl mezi Data Science vs Machine: Klikněte zde
Aplikace datové vědy
Některé aplikace Data Science jsou:
Hledání na internetu
Vyhledávání Google využívá technologii Data science k vyhledání konkrétního výsledku během zlomku sekundy
Systémy doporučení
Vytvořit systém doporučení. Například „doporučení přátelé“ na Facebooku nebo navrhovaná videa na YouTube, vše se děje s pomocí Data Science.
Rozpoznávání obrazu a řeči
Řeč rozpoznává systémy jako Siri, Google Assistant a Alexa běžící na technice Data science. Facebook navíc rozpozná vašeho přítele, když s ním nahrajete fotku, s pomocí Data Science.
Herní svět
EA Sports, Sony, Nintendo využívají technologii Data science. To vylepší váš herní zážitek. Hry jsou nyní vyvíjeny pomocí technik strojového učení a mohou se samy aktualizovat, když přejdete na vyšší úrovně.
Online srovnání cen
PriceRunner, Junglee, Shopzilla pracují na mechanismu Data science. Zde jsou data načítána z příslušných webových stránek pomocí API.
Výzvy technologie Data Science
- Pro přesnou analýzu je zapotřebí velké množství informací a dat
- Není k dispozici dostatečný počet talentů pro datovou vědu
- Vedení neposkytuje finanční podporu týmu pro vědu o datech
- Nedostupnost/obtížný přístup k datům
- Podnikatelé s rozhodovací pravomocí efektivně nevyužívají výsledky datové vědy
- Vysvětlit datovou vědu ostatním je obtížné
- Problémy se soukromím
- Nedostatek významného doménového experta
- Pokud je organizace velmi malá, nemůže mít tým Data Science
Shrnutí
- Datová věda je oblast studia, která se zabývá extraczískávání poznatků z obrovského množství dat pomocí různých vědeckých metod, algoritmů a procesů.
- Statistika, vizualizace, hluboké učení, strojové učení jsou důležité koncepty datové vědy.
- Data Science Process prochází objevováním, přípravou dat, plánováním modelu, vytvářením modelů, Operanacionalizovat, sdělovat výsledky.
- Důležité pracovní role Data Scientist jsou: 1) Data Scientist 2) Data Engineer 3) Data Analyst 4) Statistics 5) Data Architect 6) Data Admin 7) Business Analyst 8) Data/Analytics Manager.
- R, SQL, Python, SaS jsou základní nástroje Data science.
- Předpovědi Business Intelligence se dívají zpět, zatímco pro Data Science se dívá dopředu.
- Důležité aplikace datové vědy jsou 1) Internetové vyhledávání 2) Doporučovací systémy 3) Rozpoznávání obrazu a řeči 4) Herní svět 5) Online srovnání cen.
- Velká rozmanitost informací a dat je největší výzvou technologie Data science.



