Каталог данных как основа промышленного ИИ
Промышленность входит в этап, где искусственный интеллект (ИИ) становится инструментом управления производством, ремонтами, качеством, логистикой и безопасностью. Однако нередко он не приносит ожидаемого эффекта или вовсе не работает. Причина в том, что предприятие не понимает, какие данные у него есть, откуда они поступили, кто за них отвечает и можно ли им доверять.
Сегодня ключевая задача промышленного предприятия состоит не в выборе нейросети для внедрения, а в понимании того, готова ли система управления данными к использованию ИИ в принципе. И именно здесь на первый план выходят системы управления данными (Data Governance, MDM) и прозрачная архитектура данных.
Почему промышленности сложнее, чем банкам и ретейлу
У банков и ретейла тоже есть большие объёмы данных, но промышленный контур устроен сложнее: данные здесь живут во множестве источников, например, в ПО для автоматизации и управления производственными процессами (MES-системах), АСУ ТП, датчиках промышленного интернета вещей, лабораторных системах и так далее.
В результате один и тот же объект может называться по-разному в разных системах: насос — агрегатом в производственном контуре, ремонтной единицей в системе технического обслуживания и позицией в проектной документации. Показатель простоя оборудования рассчитывается в производстве иначе, чем в ремонтах и экономике. Для человека это создаёт неудобства, а для ИИ становится серьёзной проблемой.
Промышленному искусственному интеллекту нужны не только большие объёмы данных, но и контекст: смысл показателя, единицы измерения, источник, частота обновления, режим работы оборудования, история обработки, уровень доверия к данным и ответственный за исправление ошибки. Без этого модель способна найти корреляцию, но не сможет дать управляемый результат. Проще говоря, она будет скорее угадывать, чем помогать производству.
На практике это особенно критично для задач предиктивного обслуживания, прогнозирования отказов, оптимизации энергопотребления, управления качеством, цифровых двойников и промышленной безопасности. Если в истории ремонтов нет корректной классификации отказов, датчики не сопоставлены с конкретными узлами оборудования, а данные о режимах работы не связаны с фактическими событиями на производстве, модель будет обучаться на неполной и искажённой картине.
Каталог данных — это не справочник таблиц, а карта ответственности
Каталог данных для промышленного предприятия — это не технический список таблиц, витрин и отчётов, а рабочая карта данных, которая связывает технические метаданные, бизнес-термины, происхождение данных, правила качества, владельцев, ограничения доступа и сценарии использования.
Иными словами, каталог помогает ответить на практические вопросы: какие данные есть на предприятии, где они находятся, что означают, как менялись, кто за них отвечает, кто ими пользуется и какие отчёты, модели или производственные процессы зависят от конкретного набора данных.
Современный каталог данных (Data Catalog), как правило, включает каталог наборов данных, бизнес-глоссарий, линию данных (Data Lineage) — описание их движения от источника до конечного отчёта. Для промышленности это особенно важно из-за большого количества доменных данных: оборудование, технологические параметры, материалы, рецептуры, партии, смены, ремонты, отклонения, инциденты, лабораторные измерения.
Если эти сущности не описаны единообразно, ИИ не способен надёжно связывать события между системами. Например, предиктивная модель может фиксировать вибрацию агрегата, но не понимать, что это оборудование недавно проходило ремонт, работало в нестандартном режиме или относится к другой модификации.
Поэтому эффективный каталог должен быть инструментом не только для дата-инженера. Им обязаны пользоваться технолог, специалист по надёжности, аналитик, владелец процесса, служба качества, информационная безопасность и команда ИИ.
Отсутствие стратегического управления данными стоит дорого
Data Governance — это система правил, ролей и процессов, которая определяет, как предприятие управляет данными: кто отвечает за показатель, утверждает термин, исправляет ошибку, имеет доступ, как контролируется качество, фиксируются изменения и каким образом данные используются в аналитике и ИИ. В промышленности без этого быстро возникает классическая ситуация, когда есть данные, отчёты, модели, а доверия нет. ИИ в такой среде становится не инструментом управления, а ещё одним участником спора.
Российский рынок управления данными действительно взрослеет, но пока неравномерно. По результатам опроса, проведённого на конференции ArenaDAY 2026, этот разрыв тоже был заметен.
- 57% организаций финансового сектора уже назначают ответственных за качество данных;
- у 44,8% ответственность всё ещё распределена между ИТ и аналитикой без отдельной структуры;
- 27,6% респондентов создали полноценный отдел или роль;
- 6,9% планируют сделать это в 2026 году.
Для промышленности это хороший ориентир: без закреплённой ответственности за данные ИИ-проекты быстро упираются не в алгоритмы, а в организационную неопределённость.
Зрелый Data Governance для промышленного предприятия должен начинаться не сразу на уровне всей компании, а с фокуса на критичные домены: оборудование, НСИ материалов, производственные партии, ремонты, качество, энергопотребление. По каждому домену необходимы владелец данных, стюард, показатели качества, целевая модель, критичные показатели и понятная связь с бизнес-эффектом.
В противном случае управление данными превращается в абстрактную инициативу. А бизнесу нужны конкретные результаты.
Почему ИИ резко повысил требования к качеству данных?
До массового интереса к ИИ многие проблемы качества данных можно было терпеть. Искусственный интеллект такой роскоши не допускает, поскольку автоматически масштабирует ошибки. Например, если в исторических данных некорректно размечены аварии, модель будет обучаться на ложных событиях, а в итоге ИИ-помощник может уверенно выдавать пользователю недостоверные выводы.
Данные опроса Arenadata на ArenaDAY 2026 показали:
- более 60% респондентов считают Data Governance и качество данных критически важными для эффективного использования ИИ;
- 52,4% участников в целом доверяют своим данным,
- 31,3% сомневаются в их надёжности из-за частых ошибок и неполноты.
- 10% организаций уже внедрили каталоги данных и MDM,
- 41% опрошенных сделали это частично,
- 20% планируют запуск в 2026 году.
Для промышленности это важный сигнал. Рынок уже понял, что ИИ зависит не только от моделей и вычислительных мощностей. Ему нужны понятные метаданные, контроль качества, Data Lineage, доступы, управляемая НСИ, MDM, дата-контракты и закреплённая ответственность. Без этой базы нейросеть становится дорогим интерфейсом к хаосу.
Главная проблема промышленных ИИ-проектов — не пилот, а продуктив
ИИ-пилот в промышленности можно запустить сравнительно быстро: взять исторические данные по одному участку, подключить команду специалистов по работе с данными (Data Scientists), построить модель и продемонстрировать её точность на тестовой выборке. На демо всё выглядит убедительно.
Проблемы начинаются позже, когда модель необходимо встроить в производственный процесс, связать с источниками, обеспечить регулярное обновление данных, настроить мониторинг качества, объяснить результаты пользователям, назначить ответственных и подтвердить экономический эффект. Именно на этом этапе выясняется, что пилот опирался на ручные выгрузки, в соседнем цехе используется другая структура справочников, пользователи не понимают логику рекомендательной модели, а служба информационной безопасности не согласовала доступы.
По данным TAdviser со ссылкой на К2Тех, доля пилотных ИИ-проектов без продолжения в России к началу 2025 года составляла 90%, а к концу года снизилась до 80%. Среди причин называются некорректная постановка задач, дефицит качественных данных, бюрократические барьеры и неготовность бизнеса к изменениям.
Также эксперты отмечают хаос в информации, отсутствие владельцев данных и Data Governance как факторы, которые ломают сроки и не позволяют достоверно оценивать результаты ИИ-систем. Для промышленности это особенно критично. Ошибка в рекомендациях по ремонту, качеству или режимам оборудования может привести к простоям, браку, лишним затратам или рискам безопасности.
Тренды ИИ в промышленности
Данные будут готовить специально под ИИ
Переход от традиционного управления данными к концепции их подготовки специально для использования ИИ (AI-ready data). В промышленности это означает, что предприятие должно уметь быстро отвечать на вопросы:
- Какие данные пригодны для обучения модели?
- Какие из них требуют обезличивания?
- Где есть пропуски?
- Какие датчики дают нестабильные значения?
- Какие данные относятся к критической информационной инфраструктуре, а какие можно безопасно передать в аналитический контур?
Каталог данных становится контекстным слоем для ИИ-агентов
Бизнес активно обсуждает ИИ-агентов — системы, способные не только отвечать на вопросы, но и выполнять последовательные действия. Но промышленный агент без опоры на каталог данных и понимания контекста становится источником рисков. Иными словами, каталог данных превращается в «слой понимания» между моделью и корпоративной реальностью.
Для промышленности это особенно важно: ИИ-агент не должен самостоятельно трактовать производственные показатели, искать данные вразнобой и делать выводы без понимания бизнес-смысла. Каталог помогает задать рамки: какие данные можно использовать, как они связаны с процессами, кто за них отвечает и какие ограничения нужно учитывать.
Окончательное решение всё равно должно оставаться за владельцем данных: в промышленной среде автопилот без ответственного — это не инновация, а заявка на приключения.
Data Lineage становится обязательным для доверия и безопасности
В промышленности линия данных (Data Lineage) необходима для понимания последствий модификаций.
- Если изменилась структура справочника оборудования, какие модели затронуты?
- Если поменялся алгоритм расчёта показателя качества, какие отчёты станут несопоставимыми с прошлым периодом?
- Если ИИ дал рекомендацию, можно ли проследить, на каких данных и правилах она основана?
Без Lineage невозможно нормально управлять промышленным ИИ. Модель должна быть не чёрным ящиком, а частью контролируемого процесса. Особенно если её выводы влияют на ремонты, производственные режимы, качество или безопасность.
В этом контексте каталог данных становится инструментом не только для аналитики, но и для управления рисками. Он помогает увидеть, какие данные критичны, какие зависят от конкретных источников, где есть ручные трансформации, какие отчёты и модели сломаются при изменении поля или справочника.
Управление мастер-данными (MDM) и нормативно-справочная информация (НСИ) возвращаются в центр внимания
В промышленности управление мастер-данными — база для экономики производства. Материалы, оборудование, контрагенты, единицы измерения, технологические операции, склады, ремонтные позиции, классификаторы дефектов должны быть описаны единообразно. При слабом управлении НСИ предприятие переплачивает за закупки, накапливает лишние запасы, дублирует позиции, допускает ошибки в ремонтах и некорректно сопоставляет аналитику между площадками.
Поэтому MDM в промышленности будет всё чаще рассматриваться не как отдельная система для справочников, а как часть единого контура Data Governance. Каталог данных должен демонтсрировать, где используются мастер-данные, какие показатели от них зависят, кто владелец, какие правила качества применяются и как изменения в НСИ влияют на аналитику и ИИ.
Промышленный ИИ будет расти через прикладные сценарии
Промышленности не нужен абстрактный искусственный интеллект для повышения эффективности. Ей требуются конкретные прикладные сценарии: прогнозирование отказов и энергопотребления, оптимизация ремонтов, контроль качества, компьютерное зрение на производственной линии, работа с инженерной документацией и расследование инцидентов.
Исследование Strategy Partners и ГК «Цифра» показывает, что проникновение больших данных, промышленного интернета вещей, компьютерного зрения и генеративного ИИ в промышленности России пока остаётся невысоким, но число крупных и средних предприятий, применяющих такие технологии, по итогам 2025 года должно вырасти примерно на 40%. Эти цифры отражают текущую структуру зрелости.
Компьютерное зрение и промышленный интернет вещей быстрее масштабируются благодаря понятным производственным сценариям. Генеративный ИИ пока внедряется осторожнее, так как ему сложнее доверить действия в критичных процессах. При этом он уже демонстрирует потенциал в работе с документацией, регламентами, сменными журналами, инженерными знаниями, расследованием инцидентов и поддержкой специалистов.
Что промышленному предприятию делать на практике
Практический путь можно свести к четырём шагам.
- Выбрать сценарии, где качество данных напрямую влияет на деньги или риски: простои оборудования, брак, энергозатраты, ремонты, запасы, производственная безопасность.
- Определить 3–5 приоритетных доменов данных и описать их в каталоге. Важно не пытаться сразу охватить предприятие целиком: такие инициативы часто превращаются в бесконечную инвентаризацию цифровых активов. Нужен фокус на данных, задействованных в конкретных бизнес-процессах.
- Связать каталог с практиками Data Quality (качество данных) и MDM. Каталог без управления качеством превращается в красивую энциклопедию проблем. Data Quality без каталога работает точечно и не даёт общей картины. MDM без каталога слабо интегрируется в сквозные цепочки использования данных. Существенный эффект возникает только при их совместной работе.
- Запускать ИИ-сценарии уже не как изолированные эксперименты, а как часть управляемого контура данных. Только тогда промышленный искусственный интеллект получает шанс перейти от пилотов к устойчивому внедрению.
Что будет дальше?
В ближайшее время промышленный рынок будет всё отчётливее разделяться на две группы. Первая продолжит запускать ИИ-пилоты поверх разрозненных данных. Вторая начнёт выстраивать основу: каталоги данных, управление качеством, MDM, Lineage, дата-контракты, внутренние защищённые контуры для моделей и понятную ответственность бизнеса за данные. Преимущество окажется у второй группы как у более экономически зрелой. ИИ в промышленности не терпит цифрового героизма, когда команда вручную поддерживает проект. Ему нужна инфраструктура доверия.
Для промышленности каталог данных перестаёт быть вспомогательным ИТ-инструментом и становится фундаментом для следующего этапа цифровизации. Если раньше предприятия строили хранилища, чтобы анализировать прошлое, то теперь им необходимы каталоги и Data Governance, чтобы ИИ мог безопасно работать с настоящим и помогать управлять будущим. И чем раньше компания наведёт порядок в данных, тем ниже риск столкнуться с дорогостоящими последствиями, когда модель начинает уверенно объяснять производству то, чего сама не понимает.
Текст: Максим Власюк, директор по работе с корпоративным сектором Группы Arenadata




