Этот курс рассчитан на специалистов, которые имеют опыт работы с подобного рода технологиями и хотят выучить современные методы машинного обучения с использованием технологии BigData. Эти методы используются при поиске скрытых закономерностей, анализе данных и решении задач прогнозирования и классификации.
По окончанию курса Вы сможете строить системы машинного обучения на основе данных большого объема. Для этого в программу обучения входит фреймворк Spark. Также без особых усилий сможете использовать язык программирования Python, решать задачи классификации, кластеризации и регрессии с помощью алгоритмов машинного обучения. Кроме этого, сможете профессионально оценивать качество моделей.
Python – это активно развивающийся язык программирования, который откроет Вам дорогу для работы с разноплановыми и интересными проектами.
Курсы Python для Data Science: учебная программа курса.
Модуль 1.
- Знакомство с машинным обучением и Data science.
- Задачи машинного обучения и науки о данных.
- Анализ данных с помощью Python.
- Машинное обучение и его типы.
- Модель машинного обучения и его составляющие.
- Понятие машинного обучения и его важность.
Модуль 2.
- Язык программирования Python и его основы.
- Интерпретация и запуск программ.
- Особенности языка.
- Типизация и структура данных.
- Разветвления и циклы операторов контроля исполнения.
Модуль 3.
- Функциональное программирование.
- Суть, генерация, итерация.
- Для чего нужен Python. Инструментарий и функции.
Модуль 4.
- Объектно-ориентированный подход к программированию в Python.
- Пространство имен и сфера их использования.
- Работа с системой импорта, пакетами и модулями.
Модуль 5.
- Анализ данных, их исследование и подготовка.
- Программные библиотеки: Pandas, NumPy, SciPy, Matplotlib, Seaborn.
Модуль 6.
- Подготовка данных к анализу: основные проблемы.
- Факторные переменные и их изменение.
- Как бороться с пробелами в данных.
- Информативные переменные.
- Мультиколлинеарность.
- Скалирование данных.
Модуль 7.
- Основные регрессионные модели.
- Виды регрессии.
- Алгоритм для автоматической классификации объектов.
- Оценка качества регрессии.
- Регрессионные модели и их апгрейд.
Модуль 8.
- Классификация.
- Логистическая регрессия: что это.
- Регрессионный анализ и его методы.
- Наивный Байесовский классификатор.
- Функция оценки качества классификации.
Улучшение моделей классификации.
Модуль 9.
- Основные модели снижения размерности и кластеризации.
- Метод кластерного анализа.
- Алгоритм DBSCAN.
- Анализ соответствий.
Модуль 10.
- Ансамбли и деревья решений.
- Основные древовидные модели.
- Алгоритм машинного обучения Random forest.
- Алгоритм Lighthbm и XGBOOST.
- Ансамблевые модели и изменение гиперпараметров.
Модуль 11.
- Улучшение качества машинного обучения.
- Аугментация данных.
- Конструирование признаков.
- Перекрестная проверка.
- Как бороться с дисбалансом данных и переобучением.
- Регулирование модели.
Модуль 12.
- Нейронные сети.
- Нейросетевая библиотека Keras.
- Библиотека TensorFlow.
- Рекуррентная нейронная сеть и генеративно-состязательная сеть.
Модуль 13.
- Работа с Big Data.
- Источники данных.
- Пакет pySpark – инструмент для молниеносных кластерных вычислений.
Модуль 14.
- Улучшаем качество моделей.
- Курсовой проект и его обсуждение.
- Итоги курса.












