Современные способы обработки временных рядов на примере анализа влияния эпидемиологической обстановки на электроэнергетику в России

Журнал « АВТОМАТИЗАЦИЯ И IT В ЭНЕРГЕТИКЕ»

№7 (132) июль 2020
Литвинов П.В.


Предмет. Анализ временных рядов является краеугольным камнем решения большого класса задач, от наблюдения состояния объекта и управления технологическими процессами вплоть до прогнозирования и долгосрочного планирования.

Цели. Курс на цифровизацию экономики, использование технологий искусственного интеллекта, успехи даталогии, смена парадигмы, когда автоматизированные системы управления все чаще рассматриваются как киберфизические системы, предъявляют новые требования к способам обработки временных рядов.

Методология. Для обработки временных рядов использовались стандартные библиотеки и методы анализа. Новизна предлагаемой технологии состоит в подготовке, преобразовании и обработке данных исключительно в оперативной памяти, с гарантированным сохранением исходных данных.

Результаты. В качестве основных исходных данных были использованы почасовые значения генерации и потребления в России с целью оценки влияния эпидемиологической обстановки и карантинных мероприятий на электроэнергетику в стране. Это влияние легко отслеживается, но его степень оказалась значительно меньше первоначальных прогнозов, что внушает оптимизм. Предложенные архитектурные решения и способы обработки временных рядов продемонстрировали удобство использования, высокую производительность и наглядную визуализацию результатов.

Введение

Качество данных, содержащихся во временных рядах, непосредственно определяет возможность и полезность их применения для решения практических задач. Согласно ГОСТ Р ИСО 9000-2015 “Национальный стандарт Российской Федерации. Системы менеджмента качества. Основные положения и словарь” [1], основными критериями качества данных являются точность, надежность, доступность и своевременность. Хорошо известны ключевые факторы снижения качества:

  • “шум” (посторонние значения);
  • пропущенные значения;
  • дублирующиеся значения;
  • аномальные значения и противоречия;
  • значения, не соответствующие формату.

Системы оперативного управления класса SCADA, значительную часть функциональности которых составляет обработка временных рядов данных (time series data) и их визуализация, содержат модули, осуществляющие предобработку данных путем очистки и оптимизации. К лучшим практикам, которые складывались годами, можно отнести добавление к записям кодов качества и использование нескольких меток времени. Например, метка времени момента измерения, которая формируется на полевом уровне, может дополняться меткой времени создания записи в базе данных центра управления. Дополнительная информация, содержащаяся в кодах качества, позволяет при обработке учесть нарушение физических пределов или пропуски данных, не затрагивая при этом сами данные, что является положительным моментом. Однако он не имеет места при использовании различных методов оптимизации, когда данные сжимаются или их размерность понижается каким-либо другим способом. Это приводит к тому, что данные оптимизируются и адаптируются для решения конкретной задачи и одновременно снижается их ценность, вплоть до полной бесполезности для решения других задач. Серьезный урон нанесли решения по сжатию данных, которые принимались 10-20 лет назад, когда стоимость хранения была достаточно высока, а парадигма больших данных (big data) – “собирать и хранить столько данных, сколько возможно, потому что сможете извлечь из них пользу” – еще не сформировалась. В большинстве отраслей, в том числе и в энергетике, аналитики и специалисты по науке о данных (data science) лишены возможности анализа первичных исторических данных глубиной более 3-5 лет. Это сильно ограничивает возможности извлечения скрытых знаний и закономерностей, например, с целью организации технического обслуживания оборудования на основе диагностики и прогнозирования состояния (predictive maintenance).

Подробнее: https://elibrary.ru/item.asp?id=43136621

Статьи и публикации