Дата лейк на заводе: как собрать все данные в один цифровой водоём и научиться ловить «золотую рыбку» - Информационный промышленный сайт
  • Производим приборы для поверки и калибровки концевых мер длины, индикаторов, квадрантов, измерительных головок и преобразователей.
    Оснащаем метрологические и заводские лаборатории, внедряем цифровизацию и автоматизацию измерений, включая многомерный контроль.

    Реклама. ООО ИМЦ «Микро», ИНН 7804051103
    erid: F7NfYUJCUneTUwpm52BF
    Узнать больше
  • цифровизация
    4 июля 2025

    Дата лейк на заводе: как собрать все данные в один цифровой водоём и научиться ловить «золотую рыбку»

    На предприятиях сегодня кипит цифровая жизнь, в процессе которой собирается огромный объём данных с датчиков, систем управления, камер, оборудования и других источников. Но зачастую большая часть этой информации просто пылится в старых базах и архивах, которые никто не использует. 

    В этой статье расскажем, как предприятия решают эту проблему с помощью строительства дата лейк (Data Lake) — цифровых озёр данных, в которые можно собирать всю информацию: от телеметрии и видео с камер до аудита процессов и журналов от оборудования. И, если правильно подойти к построению, в таких озёрах можно ловить «золотую рыбку» в виде ощутимых эффектов для бизнеса.

    В традиционные хранилища попадают отфильтрованные данные, которые уже были обработаны для определённых бизнес-аспектов или сценариев использования. В отличие от них дата лейк аккумулируют данные в исходном, необработанном виде. Это позволяет гибко использовать их для различных аналитических задач. Также озёра дают возможность объединять данные реального времени с историческими, собирать пакетные и потоковые данные, обеспечивая управление ими, безопасность и контроль. 

    Почему традиционных систем больше не хватает

    Уровень цифровой зрелости промышленных компаний достиг 45%, и более 70% предприятий сохранили или увеличили инвестиции в цифровое развитие в 2024 году. Затраты на промышленную автоматизацию выросли и составили около 83 млрд рублей

    Основными драйверами роста являются потребность в обработке больших объёмов данных, развитие ИИ и машинного обучения, а также переход на гибридные облачные решения. Для этого на современном производстве есть набор ИТ-инструментов: MES, ERP, SCADA, PLM, LIMS и ещё десятки аббревиатур. 

    Каждая из этих систем выполняет свою важную функцию: одни управляют производственным расписанием, другие следят за логистикой, третьи контролируют автоматику и процессы. Однако все они «живут» в разных мирах и не всегда могут обмениваться данными, а уж тем более — давать целостную картину происходящего.

    Цифровые риски для промышленности — 2025: кибератаки, импортозамещение ИТ, дефицит кадров

    Основная проблема — в том, что эти системы предназначены для решения операционных задач, а не аналитических. Они не умеют хранить исторические данные в нужном объёме, не хранят метаданные, не могут работать с неструктурированной информацией и чаще всего не интегрированы друг с другом. 

    В результате до 80% всех данных, собираемых на предприятиях, остаются неиспользованными, но при этом потенциально могут помочь повысить эффективность, избежать аварий, сократить износ оборудования, оптимизировать энергопотребление и минимизировать риски ущерба для экологии.

    Дата лейк: цифровой водоём, где всё на виду

    Дата лейк — это не просто хранилище. Это инфраструктура, которая позволяет собирать, сохранять и обрабатывать данные в любом виде, от любого источника и с любой частотой. У него нет строгой схемы, как в классическом хранилище данных. Вы можете положить в него и текстовый файл, и таблицу, и изображение с камеры и т. д. 

    В промышленных условиях это особенно важно, потому что данные на производстве бывают крайне разнообразными и разноформатными. Все эти потоки стекаются в озеро, где можно их анализировать вместе, выявлять закономерности и делать прогнозы. В 2023 году мировой рынок дата лейк оценивался в $16,6 млрд, и прогнозируется рост до $90 млрд к 2032 году при среднегодовом темпе роста 21,3%. 

    Сегодня в промышленности дата лейк стали фундаментом для развития более сложных цифровых подходов: построения цифровых двойников, внедрения автономных систем управления, адаптивного планирования и оптимизации энергопотребления. Поэтому предприятия рассматривают дата лейк не как локальный ИТ-проект, а как основу будущей цифровой трансформации.

    Откуда текут цифровые потоки: что подключают к дата лейк

    На производстве данные рождаются на каждом шагу. 

    • В цеху это оборудование: станки, датчики, контроллеры. 
    • В логистике — информация о перемещении грузов, складах, сроках доставки. 
    • В лабораториях — анализы, измерения, журналы качества. 
    • В офисе — отчёты, заявки, письма, нормативно-справочная информация. 

    Все эти потоки можно подключить к дата лейк, используя специальные коннекторы и адаптеры. Современные платформы позволяют удобно интегрировать между собой промышленные системы, базы данных, хранилища, ML-платформы, внешние системы и многое другое.

    Как построить архитектуру, чтобы не развалилось под нагрузкой

    С точки зрения уровня цифровизации промышленные компании редко бывают идеальными. Старое оборудование, нестабильная связь между цехами, данные в неизвестных форматах, ограниченные ресурсы на местах. Поэтому дата лейк должен быть устойчивым к этим реалиям. 

    Хорошая архитектура масштабируется, не падает при сбое, адаптируется к изменениям и не требует перестройки всей ИТ-инфраструктуры. А главное, должна быть прозрачной и предсказуемой в эксплуатации.

    системы цифрового мониторинга производства
    Фото: ru.freepik.com

    В основе такой системы, как правило, лежит Hadoop-совместимая платформа — она хорошо справляется с большими объёмами и разнообразием данных. Учитывая, что зачастую речь идёт об огромных массивах неструктурированных и полуструктурированных данных, срок хранения которых заранее не определён и может исчисляться годами, имеет смысл использовать масштабируемые хранилища, оптимальные с точки зрения стоимости, — например, HDFS или S3-совместимый Ozone. 

    Чтобы извлекать ценность из этих данных, необходимы современные аналитические движки, такие как Impala и Trino, которые поддерживают не только HDFS, но и протокол S3. Для оркестрации потоков данных часто применяется Apache Airflow — удобный инструмент для управления пайплайнами. 

    При этом важно, чтобы вся архитектура могла встраиваться в существующие ИТ-процессы без кардинальной перестройки, дополняя их, а не нарушая. Применение подходов CI/CD позволяет постоянно улучшать систему, добавлять новые модули и обрабатывать ошибки без простоев.

    Важно уделить внимание инфраструктуре передачи данных. Если в одном цеху сигнал стабилен, а в другом — падает раз в час, архитектура должна предусматривать буферизацию, локальное хранение и автоматическое восстановление потоков. Также необходимо решать вопросы безопасности и прав доступа: кому можно видеть какие данные, как обеспечить шифрование на всех этапах.

    CI/CD-подходы помогают регулярно обновлять пайплайны обработки, подключать новые источники и запускать эксперименты. Особенно важно заранее подумать о модели данных: как вы будете связывать телеметрию с объектами, сменами, партиями продукции? От этого зависит и аналитика, и надёжность выводов. 

    Грамотно спроектированная модель позволяет сразу встраивать расчёты в бизнес-процессы и использовать данные в реальном времени, а не с недельной задержкой.

    Что делать с данными дальше

    Получить данные — только начало. Их нужно очистить, дополнить метаданными, нормализовать. Один и тот же параметр может называться по-разному на разных участках, единицы измерения могут не совпадать. Важно связать данные с контекстом: к какому оборудованию относятся, в каком режиме оно работало, кто был оператором. 

    Только после этого аналитика начинает приносить пользу. Особенно ценно — создать карту данных: понять, какие источники есть, какие важны, какие данные дублируются или конфликтуют.

    единая цифровая экосистема предприятия
    Фото: freepik.com

    На базе дата лейк можно строить предиктивное обслуживание, обнаружение аномалий, прогнозирование простоев. Но даже простые визуализации — например, дашборды с текущими значениями и отклонениями — уже оказываются ценными инструментами. 

    Главное, чтобы эти визуализации были понятны, не перегружены и регулярно обновлялись. Аналитика должна не усложнять, а помогать.

    Хорошей практикой является создание витрин данных под конкретные роли: оператор видит показатели линии, мастер — статистику по сменам, технолог — данные по качеству. Тогда каждый получает нужное без перегрузки и может действовать быстрее.

    Типовые сложности и сколько это стоит

    Здесь важно честно признать: ни один дата лейк не строится без проблем. Вот несколько ошибок, с которыми чаще всего сталкиваются промышленные компании.

    • Начинают проект без чётких целей: данные накапливаются в надежде, что пригодятся, но никто не знает, зачем.
    • Недостаточно внимания уделяют качеству данных: на выходе аналитика не работает.
    • Делают слишком сложные интерфейсы: пользователи просто не заходят в систему.

    Любой дата лейк требует инвестиций: инфраструктура, лицензии, компетенции, поддержка. Точные цифры зависят от масштаба предприятия, но в среднем счёт идёт на миллионы рублей. 

    Как измерить отдачу? Через сокращение простоев, экономию ресурсов, повышение выхода годной продукции.

    Иногда ROI видно быстро — например, когда система позволяет избежать дорогостоящей поломки или аварии. В других случаях — через более точное планирование или снижение перерасхода энергоресурсов. Но оценивать эффект нужно комплексно, включая снижение рисков, улучшение принятия решений и повышение прозрачности процессов.

    Например, в компании «Норникель» экосистема «Озеро данных» включает четыре основных компонента:  

    • Data-платформа для обработки и хранения данных любого типа; 
    • контейнеризация для развёртывания и промышленного использования ML-приложений и IML-инстансов;  
    • ML-платформа для корпоративной разработки и внедрения машинного обучения;  
    • ML-кластеры, обеспечивающие геораспределённую инфраструктуру для запуска решений на производственных площадках.  

    Благодаря Data-платформе «Норникель» может в почти реальном времени обрабатывать данные с датчиков оборудования, пакетную информацию из реляционных систем, подключать ML-модели, проводить анализ и формировать отчёты через интегрированные BI-инструменты. 

    На данный момент объём хранилища в экосистеме «Озеро данных» достигает около 1,5 ПБ. В работе находятся девять промышленных потоков данных, передающих более 2000 показателей в режиме, близком к реальному времени, и свыше 3000 показателей — в офлайн-режиме. Реализовано более 10 бизнес-кейсов в различных сферах, включая экономику и финансы, производственные и технологические процессы, а также голосовые помощники. 

    Фото: ru.freepik.com

    Примеры внедрённых решений в «Норникеле»:

    — Контроль качества производственных данных на карбонильном никелевом производстве (Кольская ГМК) и на линии дробления-измельчения («ГРК Быстринское»). Технология помогает заранее выявлять неисправности измерительных приборов и ускоряет принятие решений. Благодаря ей время обнаружения некорректных данных сократилось на 30%.  

    — Система-советчик по смешиванию концентратов (цех обезвоживания и складирования на Надеждинском металлургическом заводе, Заполярный филиал). Помогает операторам выбирать оптимальные параметры технологического процесса.  

    — Система-советчик для печи взвешенной плавки (Надеждинский металлургический завод, Заполярный филиал).  

    Когда дата лейк не нужен

    Иногда дата лейк бывает избыточен. Например, если предприятие небольшое, с одной производственной линией и 50 ГБ данных в месяц, проще и дешевле обойтись SQL-хранилищем с визуализацией. Или если бизнес не готов работать с данными: нет компетенций, нет задач, нет культуры принятия решений на основе цифр.

    Главный вывод: дата лейк — это не про технологии, а про зрелость. Он работает только тогда, когда есть цели, команда, архитектура и постоянное развитие. Иначе получится не озеро, а болото. Но, если подходить к нему как к стратегической инвестиции, постепенно наращивая масштаб, то эффект от внедрения может стать не просто ощутимым, а трансформационным для всего предприятия.

    Что дальше: дата-меш, дата-фабрик, цифровые двойники

    Дата лейк — это только первый шаг. Следующий этап — дата-меш, когда каждая команда или департамент управляет своими данными как самостоятельным продуктом. Данные каталогизированы и прозрачны.

    Параллельно развивается концепция дата-фабрик — интеллектуальная прослойка, которая соединяет все системы, базы и хранилища между собой. Она знает, где какие данные лежат, помогает найти, связать и доставить их в нужное место. 

    При этом автоматизирует кучу рутинных процессов: очистку, доступ, безопасность, передачу. На базе этих подходов строятся цифровые двойники производств, автономные цеха, прогнозирующие системы логистики и умные платформы техобслуживания.

    Дата лейк на промышленном предприятии — это не просто цифровое хранилище, а шаг в сторону управления бизнесом на основе данных. Это возможность превратить разрозненные данные в эффективный инструмент для управленческих решений на всех этапах работы бизнеса. 

    Уже сегодня крупные промышленные компании закинули удочки в цифровые озёра — строят полноценные дата-платформы на базе отечественных решений и получают от них реальную выгоду.

    Автор: Максим Власюк, директор департамента по работе с промышленным сектором Группы Arenadata

    Автоматизация
    Рекомендуем
    Подпишитесь на дайджест «Промышленные страницы»
    Ежемесячная рассылка для специалистов отрасли
    Популярное на сайте
    Бизнес-кейсы
    Индустрия 4.0
    Подпишитесь на Телеграм-канал