Popis online kurzu Vytváření atributů pro Machine Learning v Pythonu
Kurz Vytváření atributů pro Machine Learning v Pythonu vás naučí, jak přeměnit syrová data na hodnotné atributy, které výrazně zlepší výkonnost modelů strojového učení.
V úvodní části kurzu se dozvíte, proč je třeba data upravit před jejich použitím v prediktivních modelech – tento proces nazýváme „feature engineering“. Budeme pracovat v knihovně scikit-learn, která je světovým standardem v oblasti tvorby modelů strojního učení.
Pomocí této knihovny budete tvořit z číselných hodnot numerické atributy a naučíte se, jak vyřešit extrémní hodnoty (outliers), které se v datech mohou nacházet. Protože prediktivní modely neumí pracovat s daty, která jsou ve formě textu, jako je například „žlutá“, „oranžová“, „červená“, naučíte se jak tyto hodnoty přeměnit na čísla. V závěru kurzu si vysvětlíme, že ne všechny atributy, které jsme vytvořili, je vhodné použít v prediktivním modelu. Naučíte se techniky pro výběr těch atributů, které mohou být pro model hodnotné v procesu nazvaném “feature selection”.
Po absolvování tohoto kurzu budete tedy vědět vše potřebné pro správné vytváření a vyjmutí atributů pro vytvoření silných a robustních prediktivních modelů.
Víme, že nejlépe se člověk naučí nové dovednosti jejich praktikováním, a proto je pro vás připraveno 7 praktických programovacích cvičení v Jupyter noteboocích s úkoly a vysvětleními jednotlivých konceptů.
Co se v kurzu Vytváření atributů pro Machine Learning v Pythonu naučíte
Celkový obsah kurzu je 6 hodin. Prostředí, ve kterém budete během kurzu programovat se nazývá Jupyter notebooky s Pythonem. Níže je uveden seznam oblastí, kterým se v kurzu věnujeme:
- "Úvod do vytváření atributů": První části kurzu si vysvětlíme proč potřebujeme data upravit předtím než je poskytneme prediktivnímu modelu - tento proces se nazývá "feature engineering".
- „Úvod do stavových transformací a scikit-learn knihovny“: V této části si ukážeme důležitý koncept stavových transformací. Představíme si knihovnu scikit-learn, kterou budeme během programu používat. Tato knihovna je dnes světovým standardem pro vytváření modelů strojního učení.
- “Numerické atributy”: Pomocí různých technik se naučíme jak vytvořit numerické atributy prostřednictvím změny škály původních numerických dat. Také si vysvětlíme, jaké problémy mohou způsobit extrémní hodnoty (outliers) a naučíme se, jak tyto hodnoty odstraňujeme z dat pomocí knihovny feature_engine.
- “Kategorické atributy”: Datasety často obsahují data v podobě krátkého textu, jako například kategorie. Protože prediktivní modely nedokážou s textovými daty pracovat, ukážeme si, jak můžeme text přeměnit na čísla. Naučíte se také pracovat s knihovnou category_encoders, pomocí které umíme definovat pořadí kategorií, které se v datech přirozeně nachází.
- “Atributy času a data”: Datasety často obsahují data, ve kterých je vyjádřen čas události (například, kdy si zákazník zakoupil produkt). Ukážeme si, jak můžeme z těchto dat získat hodnotné atributy.
- “Chybějící hodnoty”: Datasety občas nejsou kompletní. Ukážeme si jak efektivně a vědecky dokážeme vyřešit problémy spojené s chybějícími hodnotami tak, abychom neuškodili našemu prediktivnímu modelu.
- „Vybírání atributů“: Vytvořili jsme již mnoho atributů, a proto je třeba z nich vybrat ty, které jsou pro prediktivní model hodnotné. Ukážeme si základní techniky filtrování a vybírání atributů, které nám pomohou při vytváření silného prediktivního modelu.
Pro koho je kurz Vytváření atributů pro Machine Learning v Pythonu vhodný
Kurz Vytváření atributů pro Machine Learning v Pythonu je vhodný pro všechny, kteří mají předchozí zkušenosti s analýzou dat v Pythonu a chtějí si rozšířit obzory v Data Science. Kurz je pro vás ideální, pokud směřujete v budoucnosti do Data Science pozice, která vyžaduje schopnost vytvářet prediktivní modely. V tomto kurzu získáte nezbytné základy k tomu, abyste pro tyto prediktivní modely uměli správně připravit data, řešit chybějící hodnoty, které se v datasetech častokrát nacházejí a vybrat vhodné atributy.
Pro úspěšné absolvování tohoto kurzu se prosím ujistěte, že splňujete následující požadavky:
- zvládáte práci s Jupyter notebooky,
- dokážete pracovat s knihovnou pandas a zpracovávat v ní data,
- víte co jsou Numpy pole a zvládáte základní operace s nimi,
- zvládáte středoškolskou matematiku a základy deskriptivní statistiky (průměr, medián, modus, variabilita, atd.).
Kurz je vhodný pro absolventy našeho kurzu “Zpracování dat v Pythonu”.
Co po kurzu dokážete a co si odnesete?
- Praktické zkušenosti s vytvářením atributů, jejich výběrem a se scikit-learn knihovnou, která se využívá v reálném světě v různých odvětvích.
- Dokážete vhodně a správně připravit numerické a kategorické atributy pro použití v prediktivních modelech.
- Dokážete získat hodnotné atributy z datasetů, které obsahují informace o datu a čase.
- Umíte používat techniky k řešení chybějících a extrémních hodnot v datech, která mohou být problém pro prediktivní modely.
- Dokážete aplikovat metody pro vybrání vhodných atributů.
V případě, že směřujete v budoucnosti do Data Science pozice, která vyžaduje schopnost umět tvořit prediktivní modely, můžete přímo pokračovat do našeho dalšího kurzu „Machine learning v Pythonu“, který danou tématiku pokrývá.
Co je zapotřebí k absolvování kurzu?
- Vlastní laptop. Firemní laptop může způsobovat problémy, například, při přístupech na Google Drive prostředí nebo při instalaci knihoven.
- Základní znalost angličtiny: Minimální pasivní znalost na úrovni čtení textu jelikož pro knihovny, o kterých se budeme učit jsou vytvořeny dokumentace v anglickém jazyce. Všechny video tutoriály jsou však ve slovenském jazyce.
- Stabilní internetové připojení. Pro sledování video lekcí či práci na cvičeních je internetové připojení neustále zapotřebí.
- Aktualizovaný internetový prohlížeč Google Chrome, Microsoft Edge nebo Mozilla Firefox.
- (doporučeno) Google účet. S Jupyter notebooky doporučujeme pracovat v prostředí Google Colaboratory. V případě, že Google účet nemáte a ani si jej nechcete zakládat, bude k dispozici druhá alternativa pro lokální práci s Jupyter notebooky.
Co všechno s kurzem Vytváření atributů pro Machine Learning v Pythonu získáte
-
7 Jupyter notebooků, ve kterých si nejen prakticky vyzkoušíte jednotlivé koncepty, ale můžete je používat jako osobní referenci ve vašem (budoucím) zaměstnání,
-
videotutoriály o Vytváření atributů pro Machine Learning v Pythonu,
-
moderované diskusní fórum, ve kterém na vaše dotazy odpovídá autor kurzu Róbert Barcík,
-
certifikát o absolvování online kurzu Vytváření atributů pro Machine Learning v Pythonu
-
garance vrácení peněz do 14 dnů v případě nespokojenosti s kurzem.