Обзор алгоритмов охлаждения в системах AdvancedTCA

Портал «МИР КОМПЬЮТЕРНОЙ АВТОМАТИЗАЦИИ»

МКА №1/2016
Владимир Павлов, Сергей Жуков, Игорь Починок, Auriga Inc., НИВЦ МГУ


Одна из важных задач управления в системах AdvancedTCA – адекватное охлаждение шасси и работающих в нём модулей. Существующие алгоритмы охлаждения используют разные подходы для нахождения необходимого баланса между двумя взаимоисключающими задачами – достаточного охлаждения системы и минимизацией производимого вентиляторами шума, а также потребления ими энергии. Это алгоритмы, основанные на анализе окружающей температуры, адаптивные и смешанные алгоритмы, которые работают в рамках парадигмы зонного охлаждения, принятой в стандарте AdvancedTCA.

Неуклонное повышение производительности процессоров приводит к росту тепловыделения в геометрической прогрессии. Если в 2002 году спецификация AdvancedTCA допускала только 200 Вт тепловыделения на встраиваемый модуль, то на текущий момент многие модули выделяют уже 300 Вт. Последнее поколение модулей AdvancedTCA рассеивает свыше 400 Вт, а следующие поколения модулей для телекоммуникационного рынка будут иметь больший формфактор и смогут производить до 2 кВт на модуль.

Одна из важных задач управления в системах AdvancedTCA – адекватное охлаждение шасси и работающих в нём модулей. Как правило, в таких системах используется воздушное охлаждение за счёт обдува вентиляторами, и управляющий модуль регулирует скорость вращения вентиляторов. При этом управляющий модуль должен не только обеспечивать достаточное охлаждение системы, но и выполнять требования по минимизации производимого вентиляторами шума и потребления ими энергии. Существующие алгоритмы охлаждения используют разные подходы для нахождения необходимого баланса между этими взаимоисключающими задачами.

Требования к алгоритму охлаждения в спецификации AdvancedTCA

Спецификация AdvancedTCA допускает максимальную температуру окружающей среды +40°C. В чрезвычайных ситуациях системы ATCA могут выдерживать температуру окружающей среды до +55°C на некоторый (до 96 часов) период времени.

В нормальных рабочих условиях скорость вентиляторов должна регулироваться в соответствии с состоянием элементов шасси, установленных в шасси модулей и температурой окружающей среды. Для достижения оптимальной скорости вентиляторов могут использоваться алгоритмы, использующие данные от сенсоров, измеряющих температуру входящих и исходящих потоков воздуха, а также данные от установленного в шасси оборудования. Скорость вентиляторов может быть увеличена или уменьшена по достижении определённых условий, внутренних или внешних. Однако она должна сохраняться настолько низкой, насколько это возможно для минимизации производимого вентиляторами шума и потребления ими энергии.

С этой же целью спецификация AdvancedTCA предусматривает возможность зонного охлаждения, которое позволяет контролировать работу каждого блока вентиляторов и состояние охлаждаемых им модулей независимо друг о друга.

Когда управляющий модуль получает температурное событие, он должен нивелировать его последствия: ускорить вращение вентиляторов для увеличения воздушного потока или включить иную охлаждающую систему и, если это не решает проблему, уменьшить потребляемую мощность перегретого модуля. Если температурное событие критическое, то есть угрожает работоспособности самого шасси, управляющий модуль должен выключить перегретый модуль, а при необходимости все модули и само шасси. При возвращении системы в нормальное состояние управляющий модуль должен вновь включить модули и шасси, установить оптимальную скорость вращения вентиляторов. Способы достижения этих требований, равно как и алгоритмы работы системы охлаждения, являются прерогативой производителей и могут быть ключевым отличием одних систем AdvancedTCA от других.

Для оценки режима функционирования системы охлаждения определены следующие состояния:

  • нормальное (normal), когда ни один сенсор в системе не пересёк определённых пороговых значений (например, для модуля сетевой маршрутизации, от 0 до +74°С);

  • горячее (minor alert, non-critical state), если значение хотя бы одного сенсора превышает нижний порог, но не пересекает верхнего порога, определённых для этого состояния (например, для вышеуказанного модуля, от +74 до +84°С);

  • перегрев (major alert, critical state), если значение хотя бы одного сенсора превышает нижний порог, но не пересекает верхнего порога, определённых для этого состояния (например, для того же модуля, от +84 до +94°С);

  • критическое (critical alert, non-recoverable state), если значение хотя бы одного сенсора превышает порог, определённый для этого состояния (например, для того же модуля, выше +94°С).

Состояние системы охлаждения определяется по показаниям температурных сенсоров, размещаемых как в самом шасси, так и в устанавливаемом в этом шасси оборудовании. Изменение состояния происходит при пересечении показаниями датчиков определённых выше пороговых значений. Следует отметить, что пороговые значения температуры для определения состояния системы зависят от места установки сенсоров и задаются производителем оборудования в соответствие с собственными техническими требованиями.

Основная цель общей стратегии управления системой охлаждения – это сохранение нормального состояния системы при удерживании минимально возможной скорости вращения вентиляторов. Для достижения этой цели используются различные подходы.

Зонное охлаждение в стандарте AdvancedTCA

В настоящее время стандарт AdvancedTCA поддерживает зонное охлаждение. Использование механизмов зонного охлаждения позволяет управляющему модулю контролировать работу каждого блока вентиляторов и состояние охлаждаемых им модулей независимо друг о друга.

Данная возможность обеспечивается наличием специальной записи в наборе информации о шасси (Shelf FRU Information), в которой описывается соответствие между блоками вентиляторов и охлаждаемыми ими модулями. В результате шасси разбивается на некоторое количество зон охлаждения. Каждая из зон представляет собой множество вентиляторов и модулей, которые охлаждаются именно этими вентиляторами. Управляющий модуль реализует алгоритмы охлаждения отдельно и независимо для каждой зоны. По умолчанию (если информация о зонах отсутствует в наборе информации о шасси) шасси представляет собой единую зону охлаждения, где все блоки вентиляторов отвечают за охлаждение всех модулей в системе.

Каждая зона охлаждения оснащена собственными температурными сенсорами входящего и исходящего потоков воздуха. На основании показаний этих сенсоров, а также сенсоров на установленных модулях осуществляется оценка состояния данной зоны и выполняются действия в рамках стратегии управления системой охлаждения для данной зоны: увеличивается или уменьшается скорость вращения вентиляторов, производится выключение перегретых модулей и т. д. Пример разбиения шасси на зоны охлаждения приведён на рисунке.

69f0d7bc157abb366009a55bccb56d01.jpg

Пример разбиения шасси на зоны охлаждения

Использование зонного охлаждения позволяет оптимизировать функционирование системы охлаждения, уменьшить её энергопотребление и уровень шума.

Алгоритмы, основанные на анализе окружающей температуры

Алгоритмы, основанные на анализе окружающей температуры, используют табличную функцию температуры для получения требуемой скорости вращения вентиляторов (см. таблицу). Такие алгоритмы наиболее просты в реализации и в системах AdvancedTCA исторически стали использоваться раньше других.

Пример таблицы-функции скорости вентилятора от температуры окружающей среды

Температура входящего потока, °С

Скорость вентилятора, уровень

PWM-сигнал [%]

Целевая скорость воздушного потока, м3/ч

T < -5

5

33

-5 T < 0

6

40

0 T < 20

7

47

520

20 T < 25

8

53

25 T < 28

9

60

28 T < 31

10

67

31 T < 34

11

73

34 T < 37

12

80

37 T < 40

13

87

40 T < 42

14

93

T 42

15

100

1100

В нормальном состоянии модуль управления анализирует показания температурных датчиков входящих и исходящих потоков воздуха. Как правило, на входящий и исходящий потоки устанавливается несколько датчиков.

Для определения температуры окружающей среды используются сенсоры входящего потока. Датчики исходящего потока помогают оценить эффективность функционирования системы охлаждения, а также используются для определения состояния системы.

В качестве температуры окружающей среды принимается либо среднее, либо медианное значение показаний датчиков входящего потока. В качестве дополнительной меры для исключения ошибок может производиться проверка на расхождение показаний датчиков. Например, если показания какого-либо сенсора отличаются от показаний остальных сенсоров более чем на 10° С, эти показания исключаются из расчёта как ошибочные.

Как уже было написано выше, основная цель общей стратегии управления системой охлаждения – это сохранение нормального состояния системы при удерживании минимально возможной скорости вращения вентиляторов. В алгоритмах, основанных на оценке температуры окружающей среды, ответственность за минимизацию скорости вентиляторов возлагается на составителя таблицы-функции скорости вентилятора от температуры. При этом сам алгоритм оказывается проще в реализации, что ранее было актуально для систем со слабыми вычислительными ресурсами.

Адаптивные алгоритмы охлаждения

Эти алгоритмы используют адаптивный подход к управлению скоростью вращения вентиляторов.

Когда система работает в нормальном режиме, то есть показания температурных датчиков не превышают определённых пороговых значений, нет необходимости увеличивать скорость вращения вентиляторов. Более того, в нормальном режиме система охлаждения периодически уменьшает скорость вращения, пока она не достигнет определённого минимального значения или пока система не выйдет из нормального режима, когда показания одного или нескольких температурных сенсоров начнут превышать пороговые значения. Шаг уменьшения скорости вращения вентиляторов и период времени, по истечении которого происходит уменьшение скорости, являются конфигурируемыми параметрами и могут варьироваться в различных реализациях систем охлаждения. Минимальная скорость вращения вентиляторов также конфигурируемый параметр, однако его значение может изменяться как в сторону увеличения, если система начинает перегреваться, чтобы избежать дальнейшего повышения температуры, так и в сторону уменьшения, если система длительное время находится в нормальном режиме.

Таким образом, происходит адаптация системы управления охлаждением к условиям окружающей среды.

Считается, что система охлаждения работает в аномальном режиме, если показания по крайней мере одного температурного датчика в системе превышают предел нормального состояния.

В горячем состоянии модуль управления с заданной периодичностью увеличивает скорость вращения вентиляторов, пока система не вернётся в нормальный режим функционирования.

Если показания хотя бы одного сенсора указывают на перегревмодуль управленияустанавливает максимальную скорость вращения вентиляторов и начинает периодически уменьшать подачу питания на установленные в шасси модули, если это возможно, но не выключает их.

В критическом состоянии модуль управления устанавливает максимальную скорость вращения вентиляторов. Если критическое состояние вызвано перегревом какого-либо установленного в шасси модуля, выключается только этот модуль, в противном случае выключаются все модули, установленные в шасси. В зависимости от конфигурации модуля управления после возврата системы в нормальное состояние, выключенные ранее модули либо включаются автоматически, либо для их включения требуется вмешательство оператора.

Модуль управления время от времени изменяет минимально допустимую скорость вращения вентиляторов во избежание колебания системы охлаждения между нормальным и аномальным состояниями. Выход системы из нормального в аномальное состояние означает, что текущая скорость вращения вентиляторов не обеспечивает эффективное охлаждение шасси. В этом случае модуль управления увеличивает минимально допустимую скорость вращения вентиляторов с тем, чтобы исключить в последующем возможность уменьшения скорости до неэффективного значения. Таким образом, после нескольких колебаний системы между нормальным и аномальнымсостояниями устанавливается минимально возможная скорость вращения вентиляторов, при которой обеспечивается достаточно эффективное охлаждение системы для её функционирования в нормальном режиме.

Чтобы учесть возможные изменения тепловой нагрузки в шасси за достаточно длительные периоды времени, предусматриваются дополнительные меры. Если система стабильно функционирует в нормальном режиме определённый период времени (например, 1 час), минимально допустимая скорость вращения вентиляторов уменьшается, с тем чтобы скорость вращения вентиляторов могла быть уменьшена до нового предельного значения. Если тепловая нагрузка в шасси уменьшится, периодическое уменьшение минимально допустимой и актуальной скоростей вращения вентиляторов будет продолжаться. В противном случае система вновь перейдёт в аномальное состояние, запустив процесс стабилизации системы охлаждения, как это описано выше.

При использовании зонного охлаждения описанные алгоритмы работают отдельно для каждой зоны. Так, например, скорость вращения вентиляторов устанавливается отдельно для каждой зоны и в случае критического состояния зоны выключение модулей ограничивается пределами зоны.

Настройка адаптивных алгоритмов для конкретных систем производится изменением порогов температурных сенсоров шасси и внутренних параметров алгоритма. Для модулей настройка порогов температурных сенсоров обычно не требуется, так как модули, как правило, поставляются с уже правильно предустановленными параметрами сенсоров.

Смешанные алгоритмы

В последнее время появились смешанные алгоритмы, которые в основе своей содержат табличный метод определения скорости вращения вентилятора, но в дополнение к таблице используют специальный корректирующий параметр, который прибавляется к скорости вращения вентилятора, полученной из таблицы. Значение этого корректирующего параметра адаптируется к состоянию системы охлаждения, то есть может увеличиваться или уменьшаться, принимая даже отрицательные значения. Таким образом, достигается основная цель общей стратегии управления системой охлаждения.

В общих чертах данный алгоритм выглядит следующим образом:

  • Получить актуальный список датчиков, показывающих температуру входящего потока воздуха и вычислить температуру окружающей среды (медиана, среднее арифметическое).

  • Для системы, находящейся в нормальном состоянии: 

    • уменьшить значение корректирующего параметра, если истёк период стабильного режима работы для корректирующего параметра и значение корректирующего параметра больше его минимально допустимого значения;
    • уменьшить значение минимально допустимого значения корректирующего параметра, если истёк период стабильного режима работы для минимально допустимого значения корректирующего параметра и его значение в допустимых пределах;
    • установить новую скорость вращения вентиляторов.

  • Для системы, находящейся в аномальном состоянии (то есть показания по крайней мере одного температурного датчика в системе превышают предел нормальногосостояния): 
    • установить максимальную скорость вращения вентиляторов;
    • увеличить значение корректирующего параметра, если оно не превышает максимально допустимого значения;
    • увеличить значение минимально допустимого значения корректирующего параметра, если оно не превышает максимально допустимого значения и если с момента последнего уменьшения значения корректирующего параметра или перехода системы в нормальное состояние прошло определённое в конфигурации системы время.

Таким образом, приведённый выше алгоритм сочетает в себе как табличный метод определения скорости вентиляторов, который позволяет настроить работу конкретного оборудования для различных температурных условий, так и адаптивный метод, который обеспечивает возможность более гибкого достижения основной цели системы охлаждения.

Заключение

Рассмотренные алгоритмы работы систем охлаждения, применяемых в системах AdvancedTCA, показывают разные подходы производителей телекоммуникационного оборудования к решению проблемы отвода выделяемого при работе тепла и выполнению требований по минимизации производимого вентиляторами шума и потребления ими энергии.

Алгоритмы, основанные на анализе окружающей температуры, не универсальны, настраиваются под определённое оборудование, но имеют более простую реализацию.

Адаптивные методы более универсальны и могут применяться для любого оборудования, однако могут требовать настройки пороговых значений температурных сенсоров для учёта особенностей конкретной системы.

Смешанные алгоритмы позволяют производить более точную адаптацию системы охлаждения к определённым видам оборудования, сохраняя при этом гибкость адаптивного метода.

Литература

  1. PICMG Advanced Telecommunication Computing Architecture (AdvancedTCA) Base Specification. Revision 3.0. http://www.picmg.org
  2. Pigeon Point Shelf Management Mezzanine (ShMM) Shelf Manager Software Architecture. Technical Specification. http://www.pigeonpoint.com
  3. With Thermal Dissipation Up, Will Cooler Heads (Up) Thinking Prevail? By Christian Ganninger // EMBEDDED SYSTEMS ENGINEERING,http://eecatalog.com/atca/2015/02/26/with-thermal-dissipation-up-will-cooler-heads-up-thinking-preva...