Рейтинг@Mail.ru
Авторские онлайн-курсы от ведущих IT-разработчиков

Hadoop. Система для обработки больших объемов данных

9 модулей 3 часа в неделю
Евгений Чернов, Руководитель отдела анализа запросов в Поиск@Mail.ru, преподаватель Техносферы (проект МГУ и Mail.ru)

Курс посвящен методам обработки больших объемов данных (BigData) с помощью системы Hadoop. После прохождения курса вы получите знания основных способов хранения и методов обработки больших объемов данных, поймете принципы работы распределенных систем в контексте фреймворка Hadoop и освоите практические навыки разработки приложений, используя программную модель MapReduce.

  • Введение
    • Вводный урок курса
    • Что такое Hadoop?
  • Распределенная файловая система HDFS
    • Архитектура HDFS
    • Shell-команды
    • Java API
  • MapReduce. Введение
    • Парадигма MapReduce
    • Фреймворк MapReduce
    • Java API. Введение
    • Java API. Продолжение
    • Hadoop Streaming
  • Решение задач с помощью MapReduce
    • Алгоритмы на MapReduce
    • Реляционные функции
    • Расчет TF-IDF
  • Алгоритмы на графах в MapReduce
    • Графы в MapReduce
    • Поиск кратчайшего пути в графе
    • PageRank
    • Проблемы MR-алгоритмов на графах
  • Pig и Hive
    • Pig
    • Основные операторы PigLatin
    • Hive
    • Pig vs Hive
  • NoSQL базы данных: HBase и Cassandra
    • Способы хранения данных
    • NoSQL
    • Введение в HBase
    • Архитектура HBase
    • Cassandra
  • Spark
    • Основные понятия Spark
    • Операторы Spark
    • Фреймворк Spark
  • YARN. MapReduce 2.0
    • Что такое YARN?
    • Компоненты YARN
    • MapReduce 2.0
    • Заключительный урок
Сертификат
Mail.Ru
Формат курса
Видео-лекции, решение проверочных заданий
Язык
Русский
Целевая аудитория
Студенты старших курсов, разработчики начального и среднего уровня. Также курс будет полезен тем, кто уже имеет небольшой опыт работы с Hadoop.
Создано
Mail.Ru Group
SHARE
Требования

Знание языков программирования не является обязательным, но очень желательно. В курсе есть примеры программ и в практических задачах нужно уметь читать и писать код. При этом используются Java и Python. Глубокого знания этих языков не требуется и проблем не будет, если вы знаете только С++. Нужно быть знакомым с Linux и уметь работать в командной строке. Желательно хотя бы немного знать английский язык, т.к. в курсе встречаются термины и надписи на английском.

Описание

BigData, MapReduce, облачные вычисления, NoSQL. Все эти понятия стали популярными в последние годы. И все они связаны с распределенной обработкой больших объемов данных. Hadoop - одна из самых популярных open-source систем для обработки больших объемов данных. Необходимость в таких системах растет с каждым годом - все больше компаний сталкиваются с проблемой растущего объема данных.

Facebook, Twitter, Yahoo!, Bing, Mail.ru - это далеко не полный список компаний, которые используют Hadoop. Многие из них, при этом, активно участвуют в его развитии. И это неслучайно, т.к. именно большие интернет-компании первыми столкнулись с проблемой обработки больших объемов данных: как их надежно хранить, как обрабатывать, как получать быстрый доступ на их изменение. Сейчас Hadoop используется не только в интернет-компаниях, но и во многих других сферах, где возникает проблема с объемом данных (экономика, астрономия, биология, физика и т.д.)

Записывайтесь на наш курс и вы узнаете современные методы хранения и обработки больших объемов данных на примере системы Hadoop.

Раздел в стадии разработки, следите за нашими обновлениями!