Data Engineer, Москва
Команда DWH агрегирует в себе накопленную экспертизу и лучшие практики холдинга в области построения хранилищ данных и аналитических приложений. Мы превращаем информационный хаос в чётко организованную систему, которая позволяет собирать, обрабатывать и анализировать любые объёмы данных. В нашей команде убеждены, что системы хранилищ данных должны максимально помогать людям — автоматизировать рутинные задачи, собирать и анализировать сырые данные, подготавливать почву для удобного и аргументированного принятия решений.
Мы ищем BigData-инженера, готового принять активное участие в разработке одного из крупнейших хранилищ группы компании: десятки петабайт данных, количество узлов кластера более 400, ежедневный прирост информации составляет десятки терабайт. В хранилище собрана информация большинства ключевых бизнес-юнитов компании, которая описывает поведение пользователей рунета: события посещений сайтов, клики (показы) рекламы, использование мобильных приложений, профили соцсетей пользователя, действия пользователей в соцсетях и их публичные сообщения и т. д. Все это позволяет составить достаточно полную картину поведения пользователя во всех сервисах mail.ru и строить на полученных данных сложные математические модели.
Наш стек технологий включает, но не ограничивается:
- Database Systems: MySQL, Tarantool, ClickHouse;
- Hadoop: Hive, Spark, MapReduce, Kafka;
- DataFlow/ETL: Luigi, Airflow;
- Business Inteligence: Tableau, Redash, SuperSet;
- Continuous Integration: Jenkins, GitLab CI;
- IssueTracking / KnwoledgeBase: Jira, Confluence;
- Monitoring: Sentry, Graphite, Grafana, Prometheus, Telegraf.
Задачи
- Участие в роли BigData Engineer в проекте построения системы обработки и хранения разнородной информации из различных бизнес-юнитов компании на базе Hadoop (BigData DWH);
- исследование большого объёма необработанных данных, накопленных в компании;
- построение и оптимизация нетривиальных ETL-процессов обработки больших данных, участие в построении процессов потребления данных на всех этапах, их трансформации от появления информации в конкретном бизнес-юните до монетизации полученных знаний;
- взаимодействие с командой Data Scientist и совместная реализация стабильного расчёта математических моделей;
- поддержка и модификация созданного решения, ответственность за доступность сервиса для внутренних потребителей и корректность предоставляемых для принятия решений данных.
Требования
- Не менее года релевантного опыта работы;
- опыт работы с большими объёмами данных, понимание стека технологий Hadoop, глубокое знание Spark или Hive (плюсом будет знание Java, Scala в контексте обработки больших данных);
- опыт организации ETL-процессов обработки данных (плюсом будет знание code-driven ETL Luigi, Airflow);
- знание классических алгоритмов и структур данных (плюсом будет опыт разработки на Python);
- знания в области теории обработки и хранения информации;
- ссылки на публичные репозитории (статьи с примерами работы приветствуются).
Мы предлагаем
Формат работы
Уровень
График работы
VK Реклама
Наша команда развивает платформу VK Реклама, объединяющую все крупнейшие в России и СНГ социальные сети и сервисы с общим охватом более 140 млн человек.