DataFlow

Доверьте работу с данными аналитикам данных
Что такое DataFlow?
DataFlow - платформа, позволяющая контролировать процесс обработки данных с момента их получения до реального применения моделей машинного обучения. С помощью DataFlow аналитики данных могут управлять вычислениями на hadoop-кластере так же просто, как на локальной машине
Используйте привычные интерфейсы jupyter и zeppelin notebook, внедряйте результаты машинного обучения в реальные процессы бизнеса в несколько кликов мышкой. Теперь использовать всю мощь инструментов обработки больших данных стало просто, как никогда
Кому нужен DataFlow? Зачем он появился?
Он нужен был нам. Так и появился
Конфликт
Наши специалисты на протяжении многих лет работают на Hadoop

Мы ежедневно сталкивались с однотипными задачами
Кульминация
Теряли рабочие часы, прибыль и желание жить

В процессе автоматизации мы создали множество полезных инструментов
Развязка
Объединив их все удобным интерфейсом мы получили DataFlow
Как обычно запускается новая модель?

Какие проблемы решает Dataflow?
У дата инженеров, devops'ов и разработчиков есть свой стек технологий - java, scala, свой scheduler и прочее. С их помощью они раскатывают на прод модели дата аналитиков.

У дата аналитиков есть python с отличными готовыми библиотеками. После создания модели на локальной машине её надо перенести на прод. Тут возникает 3 проблемы:
У аналитика нет прямого доступа к данным и понимания как и что именно хранится на кластере
Потеря данных
Потеря точности
При переносе с python на java/scala. KPI достигался на локальной машине, но в проде возможны сюрпризы
Потеря времени
И все остальные прелести парного программирования аналитика с разработчиком/дата инженером
DataFlow решает эти проблемы
Возможности
DataFlow ускоряет и упрощает 4 основных задачи дата аналитика
Импорт и экспорт
Легко управляйте входящими и исходящими потоками данных вашего hadoop-кластера. Настраивайте логику получения данных из любых источников, интегрируйте результаты вашей работы с любыми системами
Моделирование
Создавайте предсказательные модели и контролируйте всю цепочку расчетов на hadoop-кластере. Визуализация взаимосвязей между расчетами позволяет легко понять, как используются ваши данные
Исследование
Исследуйте данные в привычном интерфейсе jupyter и легко переносите расчеты из «блокнота» на «боевой» кластер
Мониторинг
Контролируйте все этапы обработки данных. Следите за качеством моделей машинного обучения, контролируйте доступность данных, своевременно реагируйте на любые изменения
FAQ
Что нужно, чтобы начать пользоваться DataFlow?
Только hadoop-кластер и желание автоматизировать рутинную работу
Что мне надо знать, чтобы работать c DataFlow?
Стандартный набор аналитика данных - python + SQL. И дополнительно pyspark для создания расчетов на кластере
А я смогу использовать SciKit-Learn на кластере?
Да, в этом вся прелесть :-). Удобство локальных инструментов для работы с кластером
Сколько нужно дата-инженеров, чтобы поддерживать систему?
Мы считаем, что за данные должны полностью отвечать аналитики, поэтому - ни одного
А есть какие-то ограничения на количество расчетов?
Со стороны DataFlow ограничений нет. Количество расчетов ограничивается только вычислительной мощностью вашего кластера
А если я знаю python, но никогда не работал с Hadoop кластером?
Напишите нам об этом в форме обратной связи - мы вас научим!
Стоимость подписки
Оставь заявку и пользуйся DataFlow 2 месяца бесплатно!

Подробнее про возможности тарифов
Pro
Цена за месяц, от
$2 000
Моделирование

Мониторинг
Заказать
Business
Цена за месяц, от
$3 000
Настройка уведомлений на email

Дополнительные источники данных
Заказать
Business plus
Цена за месяц, от
$4 000
Уведомления по SMS

Поддержка - специальный SLA
Заказать
Запишись и узнай про все возможности DataFlow

Ближайший вебинар через
Дней
Часов
Минут
Секунд
Для получения дополнительной информации или триальной версии заполните форму ниже
Введите email
Введите имя
Используете ли Вы Hadoop
Нажимая на кнопку "Отправить" Вы соглашаетесь с Политикой конфиденциальности