Образовательная программа по работе с Big Data

Яндекс
Сбербанк-Технологии (Сбертех)
Openstat
операторы «большой тройки»
компании из ритейл-сегмента
e-commerce
Spotify
МТС
IBM
Cloudera

создание распределённой инфраструктуры на основе Hadoop
технологии обработки данных
применение подходящих алгоритмов машинного обучения
проекты на реальных массивах информации

Программирование Java/С++/Python или аналоги
SQL и базы данных
Теория вероятности и статистика

Развёртывание распределённой инфраструктуры на Hadoop
Предварительная обработка исходных данных
Создание модели предсказания на основе машинного обучения
Применение различных алгоритмов машинного обучения
Проверка и калибровка модели

сбор, доставка, хранение и обработка массивов данных в банках, аналитических сервисах, телекоммуникационных и IT компаниях

Хранение и обработка данных (HADOOP/HDFS, Cassandra, ElasticSearch)
Нереляционная распределенная БД (HBASE, Hive, IMPALA, BigSQL, HAWQ)
Инструменты машинного обучения для Java (MAHOUT)
Инструменты машинного обучения для Python (SCIKIT-LEARN / PANDAS)

организация потоков данных (RabbitMQ, Apache Kafka) и обработка «на лету» (Riak, Aerospike, GEM)

разработка рекомендательных систем (компания-кинопрокатчик Netflix создала передовую рекомендательную систему, которая стала залогом процветания бизнеса)

Анализ социальных графов
Создание мультиклассных классификаторов на основе анализа веб-логов

задачи из Kaggle
алгоритмы показа рекламы

основы теории вероятностей и математической статистики
основы теории машинного обучения

--