Popis kurzu Machine Learning v Pythone
Jsou data scientisté kouzelníci když tvrdí, že dokážou předpovědět budoucnost? To rozhodně ne. :) Jednoduše vidí ve svém okolí “funkci” a odhadnou ji pomocí prediktivního modelu. Například, sesbírají data o počasí a pomocí nich předpovídají kolik lidí se rozhodne pořídit si zmrzlinu následující den.
V tomto kurzu se naučíte vytvářet prediktivní modely pomocí strojového učení (machine learning)! Po absolvování kurzu budete vědět vše potřebné k vybrání vhodného prediktivního modelu, jeho správné vytvoření a vyhodnocení jeho úspěšnosti.
Víme, že nejlépe se člověk naučí nové dovednosti jejich praktikováním, a proto je pro vás připraveno 15 praktických programovacích cvičení v Jupyter noteboocích s úkoly a vysvětleními jednotlivých konceptů.
Co se v kurzu Machine Learning v Pythonu naučíte
Celkový obsah kurzu je 9 hodin. Prostředí, ve kterém budete během kurzu programovat se nazývá Jupyter notebooky s Pythonem. Níže je uveden seznam oblastí, kterým se v kurzu věnujeme:
- "Prvotní (baseline) model": Na začátku si řekneme, co vás v kurzu čeká a rovnou začneme is učením! Ukážeme si základní baseline model, kterým můžeme začít prediktivní modelování.
- “Evaluace modelu a kompozitní kód”: Vytvoříme si náš první prediktivní model a povíme si o různých metrikách, pomocí kterých hodnotíme jeho předpovědi. Také se naučíme psát profesionální kód, který se používá v reálném světě.
- „Rozhodovací stromy a tuning hyperparametrů“: V této části se naučíte o modelu s názvem „rozhodovací strom“, který dokáže předpovědět mezi dvěma cílovými kategoriemi. Pro zlepšení výkonnosti modelu se naučíme kontrolovat nastavení, takzvané hyperparametry.
- „Náhodný les a kNN algoritmus“: Když jsme se již naučili jak funguje „rozhodovací strom“, můžeme na našich znalostech stavět a posunout se k modelu „náhodného lesa“, který se běžně používá v praxi. Také si ukážeme model s názvem kNN, který k vytvoření předpovědí využívá algoritmus "nejbližších sousedů" a jeho bratra - rNN model.
- „Lineární regrese“: Touto částí přecházíme do oblasti lineárních modelů. Naučíme se o jednom z nejdůležitějších modelů s názvem lineární regrese, pomocí které vytvoříme předpovědi a budeme pozorovat, jaký efekt mají vstupní data na vytvořenou předpověď.
- “Regularizované modely”: V této části se naučíme o 3 regularizovaných modelech, které jsou variacemi lineární regrese: Lasso, Ridge a Elastic Net. Tyto modely jsou velmi užitečné, například, v regulovaných prostředích jako je bankovnictví nebo pojišťovnictví.
- „Logistická regrese“: Dalším z lineárních modelů je logistická regrese, která dokáže předpovědět dvě nebo více cílových kategorií. Ukážeme si také jak použít výstupy z tohoto modelu. Shrneme si také předpoklady lineárních modelů, které nám mohou pomoci zlepšit výkonnost modelu.
- “Clustering-shlukování”: V této části se naučíme o modelech kMeans a DBSCAN, které fungují na principu “shlukování dat” s podobnými vlastnostmi a na základě těchto skupin vytvářejí předpovědi.
- “Redukce dimenzionality a detekce anomálií”: Vysvětlíme si, jak fungují algoritmy, které redukují dimenzionalitu vstupních dat. Také si ukážeme, jak nám machine learning pomáhá pro detekování anomálií v datech.
Pro koho je kurz Machine Learning v Pythonu vhodný
Začněme pomyslným "strašákem" - matematikou. Mnoho lidí má z modelů strojního učení a umělé inteligence příliš velký respekt. Mají pocit, že musí skvěle zvládat matematiku, aby tyto modely mohly pochopit a používat. Tuto obavu ovšem vůbec nemusíte mít. :) Všechny metody v kurzu budou vysvětlovány velmi intuitivní a vizuální. V kurzu se nachází minimum různých matematických zápisů a rovnic. Během kurzu nahlédneme „pod kapotu“ různých modelů a metod a pochopíme jak fungují i bez komplexních matematických zápisů. Zároveň si však povíme o všech důležitých předpokladech, které musíme splnit, aby se v našem modelu něco nezkazilo.
Kurz je přímým pokračováním našeho kurzu Vytváření atributů pro Machine Learning v Pythonu, ve kterém učíme o správné přípravě dat pro machine learning modely. Doporučujeme tedy nejprve absolvovat tento kurz, abyste získali potřebné základy práce se scikit-learn knihovnou. Kromě toho se prosím ujistěte, že splňujete vstupní požadavky popsané níže:
- zvládáte práci s Jupyter notebooky,
- dokážete pracovat s knihovnou pandas a zpracovávat v ní data,
- víte co jsou Numpy pole a zvládáte základní operace s nimi,
- máte základní konceptuální přehled o světě Data Science a přístupech změny dat na
- hodnotné informace (popis, objevování, inference, prediktivní modelování),
- zvládáte středoškolskou matematiku a základy deskriptivní statistiky (průměr, medián, modus, variabilita, atd.).
Co po kurzu dokážete a co si odnesete?
V posledních letech firmy nabízejí mnoho pozic s názvem „Data Scientist“. Obvyklým požadavkem je schopnost aplikovat prediktivní modelování v Pythonu. Přesně tuto schopnost získáte v kurzu. Absolventi tohoto kurzu často fungují na pozici „Junior Data Scientist“, případně jsou v roli „experimentátorů“. Experimentují s různými daty ve firmách a vytvářejí jednoduché prototypy modelů strojního učení. Pokud se nějaký z těchto experimentů vydaří, začnou spolupracovat se zkušenějšími data scientisty na vytvoření kompletního produktu datové vědy z jejich časného prototypu.
Z kurzu si odnesete praktické zkušenosti s vytvářením modelů strojního učení nad strukturovanými daty. Budete vědět, jak fungují algoritmy prediktivních modelů a ovládat různé evaluační techniky na základě použitého modelu.
V případě, že směřujete v budoucnosti do Data Science pozice, která vyžaduje i práci se zpracováním obrázků a textu pomocí machine learningu, můžete přímo pokračovat do dalšího kurzu s názvem “Neuronové sítě, machine learning pro text a obrázky”.
Co je potřeba k absolvování kurzu Machine Learning v Pythonu
- Vlastní laptop. Firemní laptop může způsobovat problémy, například, při přístupech na Google Drive prostředí nebo při instalaci knihoven.
- Základní znalost angličtiny: Minimální pasivní znalost na úrovni čtení textu jelikož pro knihovny, o kterých se budeme učit jsou vytvořeny dokumentace v anglickém jazyce. Všechny video tutoriály jsou však ve slovenském jazyce.
- Stabilní internetové připojení. Pro sledování video lekcí či práci na cvičeních je internetové připojení neustále zapotřebí.
- Aktualizovaný internetový prohlížeč Google Chrome, Microsoft Edge nebo Mozilla Firefox.
- (doporučeno) Google účet. S Jupyter notebooky doporučujeme pracovat v prostředí Google Colaboratory. V případě, že Google účet nemáte a ani si jej nechcete zakládat, bude k dispozici druhá alternativa pro lokální práci s Jupyter notebooky.
Co všechno s kurzem Machine Learning v Pythonu získáte
-
15 Jupyter notebooků, ve kterých si nejen prakticky vyzkoušíte jednotlivé koncepty, ale můžete je používat jako osobní referenci ve vašem (budoucím) zaměstnání,
-
video tutoriály o Machine Learningu v Pythonu,
- moderované diskusní fórum, ve kterém na vaše dotazy odpovídá autor kurzu Róbert Barcík,
-
certifikát o absolvování online kurzu Machine Learning v Pythonu,
-
garance vrácení peněz do 14 dnů v případě nespokojenosti s kurzem.