Big Data

Big Data Course

В результате прохождения курса студенты овладеют современными методами и алгоритмами теории интеллектуального анализа больших данных и машинного обучения. Цель курса — формирование реальных навыков в анализе, обработке, поиске шаблонов и построении прогнозов на основе данных.

Длительность курса 36 часов (12 занятий). Занятия проходят в вечернее время 2-3 раза в неделю.

Приобретаемые знания и навыки

После курса вы сможете:

  • анализировать и обрабатывать большие и сверхбольшие данные в различных форматах с целью поддержки принятия решений
  • находить шаблоны в больших и сверхбольших базах данных и массивах текста
  • строить прогнозы с использованием современных методов и алгоритмов интеллектуального анализа данных;
  • использовать программное обеспечение для интеллектуального анализа данных в практической работе.

Программа курса

1. Общие сведения о интеллектуальный анализ данных (ИАД) и машинное обучение

  • Общие сведения о крупных данные и интеллектуальный анализ данных.
  • Задачи ИАД. Обзор методов ИАД и машинного обучения
  • Процесс ИАД. Подготовка данных.
  • Практическое применение ИАД.

2. Методы и алгоритмы классификации

  • Методы построения деревьев решений. Методика «разделяй и властвуй».
  • Алгоритм покрытия. Алгоритм CART.
  • Байесовские методы классификации.
  • Построение математических функции классификации. Метод опорных векторов: линейный и нелинейный случаи.
  • Системы с нечеткой логикой. Нечетко-нейронные системы. Настройка нечетко-нейронных систем.
  • Решение практических задач классификации.

3. Методы и алгоритмы кластеризации

  • Иерархическая кластеризация: агломеративного и дивизимний алгоритмы. Методы соседства. Понятие дендрограммы.
  • Статистические методы k-средних, ЭМ и их модификации.
  • Методы кластеризации на основе теории графов. Алгоритмы нахождения минимального покрывающего дерева. Алгоритм Борувка.
  • Алгоритм Форел и его модификации.
  • Метод самоорганизующихся карт Кохонена. Метод стохастического градиента. Интерпретация карт.
  • Анализ результатов кластеризации. Решение практических задач.

4. Методы и алгоритмы построения ассоциативных правил. Секвенциальный анализ

  • Общие сведения. Показатели полезности ассоциативных правил.
  • Алгоритмы Apriori и FP-роста. Понятие FP-дерева (префиксного дерева).
  • Шаблоны последовательностей. Алгоритм AprioriAll.
  • Поиск ассоциативных правил в иерархиях данных. Алгоритм GSP.
  • Решение практических задач поиска ассоциативных правил и шаблонов последовательностей.

5. Ансамбли моделей ИАД

  • Виды ансамблей. Понятие беггинга. Смесь моделей ИАД.
  • Комбинирование результатов прогнозов, полученных моделями ИАД.
  • Методы расчета коэффициентов относительной важности (весов) моделей в ансамбле.
  • Понятие бустинга. Алгоритм AdaBoost. Обоснование бустинга. Градиентный бустинг.
  • Сравнение моделей ИАД. Оценки эффективности и ошибок моделей. Lift- и Profit-кривые. ROC-анализ.

6. Методы и алгоритмы анализа текстовой информации (text mining)

  • Этапы text mining. Предварительная обработка документов. Выявление ключевых понятий. Аннотирование текстов.
  • Методы категоризации (рубрикации) текстов.
  • Методы поиска релевантных документов на основе множества запросов. Методы обучения ранжирование.
  • Решение практических задач text mining.

Минимальные требования

  • Очень желательно (но не обязательно) владение знаниями теории вероятностей: дискретная и непрерывная случайная величина, математическое ожидание, дисперсия, условное математическое ожидание;
  • Владение на начальном уровне языком программирования Python.

Документ об окончании курса

Сертификат Учебного центра Softline об окончании курса и справка об обучении установленного образца: 

Сертификат Softline_образец Cправка

Информация о курсе

1320 бел. р. (дист) с НДС 20%

Вендор: Python, Java, JS, C#, C++
Код курса: BD
Продолжительность: 12 дня / 36 ак. часов
Направление: Data Science / Machine Learning
Экзамен :
Проектирование и развертывание Microsoft Exchange Server 2016 / 2019
20345-2
очно | дистанционно, 26-30 апреля; 3-7 мая
Проектирование безопасности средствами Check Point R80.10
CCSE-R80.10
дистанционно, 26-28 апреля, 20-22 мая, 3-5 июня
Все предложения
Записаться на курс

Название курса и комментарии*

Имя*

Фамилия*

Отчество*

Компания

Телефон*

Email*

Настоящим, в соответствии с ч.2.ст.18 Закона Республики Беларусь от 10.11.2008 N 455-З(ред. от 11.05.2016) "Об информации, информатизации и защите информации", отправляя данную форму, вы подтверждаете свое согласие на сбор, обработку и хранение ООО «СофтЛайнБел» Ваших персональных данных. ООО «СофтЛайнБел» гарантирует конфиденциальность получаемой от Вас информации. Сбор, обработка и хранение персональных данных осуществляется в целях эффективного оказания услуг, исполнения договоров и пр.