Na začátku, kdy člověk vstupuje do Data Science je velmi důležité pochopit, co se skrývá za různými označeními. Lidé si umějí některé pojmy mýlit a proto bych v tomto článku rád velmi zrychleně prošel přes některé základní součásti.
Data Science je proces
Za tímto výrazem se skrývá celá posloupnost úkolů, které musí datascience inženýr provést.
První fáze je silně propojena s byznysem. Používají se zde proto různé byznys výrazy (Business Intelligence). Jak efektivně umíme využít software k dosažení cílů firmy? Pracovat pro firmu jako data scientist vyžaduje pochopení potřeb byznysu. V této fázi je také velmi důležité odkomunikovat, jaké jsou možnosti Data Science a čeho lze reálně dosáhnout a co ne. Spousta manažerů totiž nerozumí technické stránce věci a ty jako datascience inženýr jsi tam na to, abys jim to vysvětlil lidskou řečí.
Druhá fáze je příprava dat. Nějaká data může mít firma již nasbíraná, jiná je třeba koupit nebo najít nový způsob jak sesbírat to, co potřebuješ. Takže tady se budeš hrabat v databázích, vytahovat různá data, spojovat všechno dohromady do nějakého smysluplného celku. Také musíš umět vizualizovat tato data, abys viděl, co máš na ruce. Třeba si ověřit, že data mají tu kvalitu, jakou očekáváš. Často se totiž stává, že data jsou vadná, nekvalitní, v jiných jednotkách a podobně. Na to si musíš dávat velký pozor.
Ve třetí fázi začneme pracovat na modelu. To, co jsme zjistili v předchozích krocích, musíme „přeložit“ do řeči machine learning. Jaký model použít (vzhledem k tomu, jaká máš data), jaké informace se z modelu umíme dozvědět a jak to souvisí s byznysem.
Čtvrtá fáze by nám měla vyplivnout hotový model připravený k používání. Tady všechny ty naše úvahy a předpoklady musíme přetavit do kódu a natrénovat model na datech. Zní to jednotuše, ale není to úplně easy. Hlavně to záleží na tom, jak kvalitní data máš k dispozici.
Pátá fáze se opět dotýká silně byznysu. V první řadě musíme umět zhodnotit, zda model skutečně řeší náš problém, který jsme chtěli vyřešit a zda je v tom dobrý. Zde zvykneme vytáhnout další data, která model ještě neviděl (testovací data) a otestovat úspěšnost modelu. Výstupem by měla být krásná prezentace se všelijakými grafy a vysvětlivkami, aby to ti "shora" pochopili a dali ti palec nahoru.
Machine Learning
Machine Learning je součástí Data Science a věnuje se algoritmům, programování a trénování modelu. Tento výraz si lidé zaměňují s umělou inteligencí. Abychom v tom měli jasno, umělá inteligence využívá techniky machine learning, aby napodobila lidskou inteligenci obecně. Umělá inteligence se zabývá také tím, jak lidé interagují s inteligentním agentem a aby se lidé cítili pohodlně, když interagují se strojem. Čili je tam toho zahrnuto mnohem více (např. i psychologie). Machine Learning je tady a nyní a dennodenně se používá. Jsou to pokročilé algoritmy a techniky, které zpracují nějaká data a vyplivují výsledek. Jsou úzce specializovány na jeden a jediný úkol. ML technik a algoritmů je mnoho a každý řeší určitý malinký podíl té umělé inteligence.
Slovník
Toto odvětví se jen tak hemží různými výrazy. Tyto stránky obsahují základní výrazy, na které určitě narazíš a je dobré vědět, co znamenají:
Datasety
Existuje několik stránek, které nabízejí svá data veřejně a zdarma. Jinak je většinou třeba za data tvrdě platit a kopec firem si na shromažďování dat vytvořily byznys.
Googlene jistě pomůže najít mnohé stránky, které nabízejí svá data. Zde je seznam několika populárních stránek:
Pokud chceš vědět více o Data Science a Machine Learningu, přihlas se do mého
online kurzu Python Data Science.Pokud máš připomínky nebo dotazy k článku, směle se ptej v komentářích.