Как читать состояние серверного диска
S.M.A.R.T. без паники: как читать состояние серверного диска и понять, когда он скоро «умрёт»
Серверный жёсткий диск не умирает внезапно — он предупреждает. Иногда за недели, иногда за месяцы. Проблема в том, что большинство администраторов либо не читают эти предупреждения, либо читают неправильно и либо паникуют без причины, либо игнорируют реальную угрозу. Разберём, как интерпретировать данные S.M.A.R.T. на практике.
Что такое S.M.A.R.T. и почему он не всесилен
S.M.A.R.T. (Self-Monitoring, Analysis and Reporting Technology) — встроенная система мониторинга накопителя. Диск непрерывно собирает данные о своём состоянии и хранит их в специальных атрибутах. Утилиты вроде CrystalDiskInfo, smartmontools или встроенные инструменты систем хранения считывают эти атрибуты и показывают «здоровье» диска.
Важное ограничение: S.M.A.R.T. не предсказывает отказ с точностью 100%. Исследование Backblaze (крупнейший публичный анализ отказов дисков) показало, что около 30% дисков отказывают без каких-либо предупреждений в S.M.A.R.T. Но оставшиеся 70% — сигнализируют. Игнорировать эти сигналы значит добровольно отказываться от предупреждения.
Атрибуты, на которые смотреть в первую очередь
Атрибутов в S.M.A.R.T. десятки, большинство из них малоинформативны для оперативной оценки. Критически важных — несколько:
Reallocated Sectors Count (ID 05) Переназначенные секторы. Когда диск обнаруживает нечитаемый сектор, он помечает его как плохой и переназначает на резервную область. Нормальное значение: 0. Даже 1–5 переназначенных секторов — жёлтый флаг. Рост этого параметра во времени — красный флаг, требующий немедленной замены.
Current Pending Sectors (ID C5) «Нестабильные» секторы — те, которые не прочитались корректно при последнем обращении. Диск ещё не переназначил их, но попытается при следующей записи. Любое ненулевое значение — серьёзный повод для беспокойства.
Uncorrectable Sector Count (ID C6) Секторы, которые не удалось ни прочитать, ни переназначить. Ненулевое значение означает, что данные в этих секторах уже потеряны. Диск требует немедленной замены.
Spin Retry Count (ID 0A) Количество повторных попыток раскрутки шпинделя. Ненулевое значение говорит о проблемах с механикой или питанием.
Power-On Hours (ID 09) Суммарное время работы. Само по себе не критично, но в сочетании с другими атрибутами даёт контекст: диск с 50 000 часов работы и чистым S.M.A.R.T. всё равно живёт на «честном слове».
Как читать «сырые» значения
Многие атрибуты имеют три числа: Value, Worst и Threshold. Когда Value опускается ниже Threshold — диск официально переходит в статус «предотказного». Но не ждите этого момента: следите за динамикой роста Critical атрибутов в абсолютных числах (Raw Value).
Пример тревожной картины:
Reallocated Sectors: было 0, через месяц стало 3, через два — 12. Диск деградирует активно.
Пример ложной тревоги:
Reallocated Sectors: значение 5 уже два года без роста. Скорее всего, давний единичный инцидент, диск стабилен — но требует наблюдения.
Инструменты мониторинга для серверной среды
smartmontools — консольный инструмент для Linux/Windows, позволяет настроить автоматическое тестирование и алерты по email. Стандарт для Linux-серверов.
Synology / QNAP встроенный мониторинг — для NAS-систем имеет интерфейс с цветовой индикацией и уведомлениями. Достаточно включить и настроить email-оповещения.
Zabbix / Nagios — для корпоративной инфраструктуры с централизованным мониторингом.
Оптимальная частота полного теста S.M.A.R.T. (Long Self-Test) — раз в месяц. Короткий тест (Short Self-Test) — раз в неделю в нерабочее время.
Когда менять диск
Практическое правило: не ждите отказа. Если Reallocated Sectors растут, Present Pending Sectors ненулевые или диску более 5 лет в круглосуточной работе — планируйте замену превентивно, в удобное время, а не в режиме аварии в три часа ночи.
Для серверных конфигураций в Москве актуальные модели дисков с нужными характеристиками по MTBF и интерфейсу можно подобрать в каталоге e2e4 — с фильтрами по объёму, интерфейсу и производителю.
Подробнее — https://moscow.e2e4online.ru/catalog/servernyye-zhestkiye-diski-766/
Итог
S.M.A.R.T. — это не приговор и не индульгенция. Это инструмент, который работает только если его читают регулярно и правильно. Настройте автоматический мониторинг, реагируйте на рост критических атрибутов, не ждите нулевого значения здоровья — и вы никогда не будете восстанавливать данные в экстренном режиме.