Відновлення даних із SHR-масиву, який дає збій під час перебудови (SHR

Ви замінили диск 4 ТБ у масиві Synology SHR на диск 8 ТБ. Перебудова почалася, тривала деякий час — а потім зупинилася. У DSM відображається стан Degraded або Crashed, або індикатор прогресу не рухається вже годинами. NAS може повністю перестати відповідати. У цій статті розглядається відновлення даних після збою перебудови SHR: що насправді сталося всередині масиву, як прочитати поточний стан без ризику погіршити ситуацію та як повернути ваші файли.

Перш ніж робити будь-які дії

Коли процес відновлення (rebuild) зависає, здається логічним виконати три дії — проте всі вони можуть перетворити відновлювану ситуацію на незворотну:

🔄

Перезавантаження NAS

Масив у режимі degraded зберігає стан своїх учасників в оперативній пам’яті. Перезавантаження змушує mdadm перечитати суперблоки з дисків — якщо ці суперблоки виявляться розсинхронізованими через перерване відновлення, масив після перезавантаження може взагалі не зібратися.

💽

Виймання дисків

Навіть диск, який DSM позначає як «Faulty», може бути читабельним. Видалення учасника змінює кількість елементів у масиві та змушує mdadm оновити суперблоки на решті дисків, фіксуючи видалення як постійну подію. Це може назавжди вивести з масиву диск, який насправді був доступний для читання.

🔧

Натискання «Repair» у Storage Manager

Команда «Repair» запускає нову спробу відновлення (rebuild). Якщо початкове відновлення не вдалося через помилки читання на існуючому диску, друга спроба знову читає ті самі сектори — це посилює пошкодження на вже навантаженому диску та підвищує ризик повторної відмови.

⚡

Примусове вимкнення живлення

Раптове відключення живлення під час активної (навіть «замороженої») відбудови може записати часткові блоки парності на новий диск, внаслідок чого масив опиниться в стані, коли ні старі, ні нові дані не є послідовними. Якщо інтерфейс досі доступний, завжди використовуйте процедуру завершення роботи DSM.

🔬

Запуск fsck або btrfs check

Інструменти відновлення файлової системи працюють на рівні томів — на один рівень вище від масиву. Запуск їх на деградованому масиві означає, що вони читають реконструйовані дані, які можуть містити помилки парності, і можуть записати пошкоджені метадані назад на диск.

🔀

Додавання ще одного диска

Вставлення запасного диска в масив зі статусом «Crashed» призводить до того, що DSM намагається виконати автоматичне відновлення (rebuild). Не з’ясувавши причини невдачі першого відновлення, повторна спроба потрапляє в ту саму проблему — і до того ж спричиняє ще один раунд повних зчитувань усього масиву на вже перевантаженому обладнанні.

Чому відновлення не вдалося

Коли SHR замінює диск іншого обсягу, воно виконує значно більше, ніж просто копіювання даних. Послідовність виглядає так:

mdadm зчитує всі розділи з даними з решти дисків при постійній послідовній пропускній здатності — це може тривати години або дні на масивах розміром у кілька терабайт.
Паритет обчислюється і записується на новий диск. Для SHR зі змішаними розмірами дисків mdadm використовує кілька md-пристроїв різного розміру, складених разом, тому обчислення паритету складніше, ніж у RAID 5 з фіксованою геометрією.
LVM перераховує розподіл фізичних екстентів по розширеному пулу сховища. Якщо новий диск має більшу ємність, це означає перепризначення макета групи томів (Volume Group) — окрема операція, яка виконується паралельно з або після mdadm rebuild.

Будь-яка помилка на будь-якому етапі припиняє цю послідовність. Три основні причини пояснюють більшість відмов при відновленні SHR:

🧱

Незворотні помилки читання (URE)

Споживчі накопичувачі мають ймовірність URE приблизно 1 на 10¹⁴ біт, що зчитуються. На диску ємністю 4 ТБ це означає, що при повному послідовному проході статистично ймовірна помилка читання десь на диску. Під час звичайної експлуатації ці сектори рідко зачіпаються. Під час відновлення (rebuild) зчитується кожен сектор — і один незчитуваний сектор припиняє обчислення паритету для всього стріпу. Диску не обов’язково має статися відмова; достатньо, щоб він видав одну помилку читання у невдалий момент.

🔌

Таймаути SATA під навантаженням

Кабельне або бекплейн-з’єднання, яке при звичайних навантаженнях працює на межі, може відмовляти під час тривалих високопропускних зчитувань під час відновлення. Ядро реєструє помилку SATA, mdadm трактує диск як недоступний і позначає його як Faulty — навіть якщо сам диск фізично справний. Диск повертається після повторного підключення, але mdadm уже вилучив його з масиву.

⚙️

Фонові завдання DSM

Synology автоматично планує тести S.M.A.R.T., індексацію медіатеки (для Photo Station, Video Station) та операції scrub файлової системи Btrfs. Будь-яка з цих процедур, що виконується одночасно з відновленням (rebuild), конкурує за ту саму пропускну здатність дискового вводу/виводу. На системі, яка вже виконує тривале повне читання диска, додаткові операції вводу/виводу можуть збільшити затримку читання настільки, що це спричинить таймаути дисків — з тим самим результатом, що й фізична проблема з підключенням.

Для ширшого порівняння ризиків відновлення (rebuild) і прямого відновлення даних див. нашу статтю на Відновлення RAID (rebuild) проти програмного відновлення.

Перевірте поточний стан масиву

Перед будь-якою спробою відновлення точно визначте, що саме повідомляє mdadm. Якщо є доступ по SSH, два наведені нижче команди дадуть повну картину. Для повного покрокового розбору тлумачення виводу mdadm див. наш mdadm RAID recovery guide. Нижче — конкретні шаблони, на які слід звернути увагу в цій ситуації.

cat /proc/mdstat — показує статус складання і, якщо відбувається відновлення, поточний прогрес та швидкість.

Зависле відновлення виглядає так:

Відновлення зависло — прогрес не просувається

Personalities : [raid5] [raid6] [raid1]
md3 : active raid5 sdb3[0] sdc3[1] sdd3[2]
      5860468736 blocks super 1.2 level 5, 64k chunk, algorithm 2 [3/2] [UU_]
      [================>....]  recovery = 83.2% (2436352/2930234) finish=∞ speed=0K/sec
unused devices: <none>

finish=∞ і speed=0K/sec підтверджують, що відновлення застрягло — mdadm чекає сектор, який не може прочитати.

Зашифрований (crashed) масив виглядає так:

Масив неактивний — не зібрано

Personalities : [raid5] [raid6] [raid1]
md3 : inactive sdb3[0](S) sdc3[1](S)
      5860468736 blocks super 1.2
unused devices: <none>

inactive з позначками (S) (spare) означає, що mdadm не має активного масиву — пристрої присутні, але масив не зібрано. Дані фізично на дисках, але недоступні.

Таблиця нижче зіставляє статуси DSM з тим, що насправді відбувається, і які кроки виконувати далі:

Що показує DSM	Що це означає	Чого не робити	Наступний крок
Відновлення зависло, speed = 0 Пошкоджено	Помилка неперевіреного читання (URE) на існуючому диску блокує запис паритету. Масив деградований, але цілий.	Не чекати; не перезапускати відновлення	RS RAID Retrieve
Один диск позначено як Faulty, відновлення зупинилося Пошкоджено	mdadm відключив диск після повторних помилок читання або SATA-помилок. Працює без резервування.	Не видаляти диск, позначений як Faulty	S.M.A.R.T. перевірка, потім RS RAID Retrieve
Сховище: Crashed Зламано	mdadm не може підтримати кворум. Масив неактивний — дані на дисках, але недоступні.	Не натискати Repair; не перезавантажувати	RS RAID Retrieve
NAS не відповідає, DSM не завантажується Невідомо	Можливе зависання ядра під час I/O відновлення. Стан масиву невідомий.	Не вимикати живлення примусово, якщо це можна уникнути	Акуратне відключення через утримання кнопки живлення, потім RS RAID Retrieve

Відновлення даних за допомогою RS RAID Retrieve

💻

RS RAID Retrieve Windows · Linux · macOS

Складність:

Низька

RS RAID Retrieve відтворює конфігурацію масиву SHR із суперблоків mdadm на наявних дисках, працює з деградованими масивами, в яких один учасник відсутній або позначений як Faulty, та надає доступ тільки для читання до тому для вибіркового відновлення файлів — без ініціювання повторної спроби відновлення.

Крок 1 — Підключіть диски та перевірте S.M.A.R.T.

Якщо можливо, коректно вимкніть NAS. Підключіть усі диски — включно з тим, який DSM позначив як “Faulty” — до машини для відновлення й відкрийте вбудований S.M.A.R.T.-монітор у RS RAID Retrieve. Перевіряйте кожен диск, а не тільки той, що відмовив. Під час відновлення масиву диск, який здається здоровим, часто виявляється причиною проблем через помилки читання на наявному члені масиву.

Крок 2 — Зробіть образ будь-якого диска з підвищеними значеннями S.M.A.R.T.

Якщо будь-який диск показує ненульові значення Reallocated Sector Count (кількість перемаркірованих секторів), Pending Sectors (сектора в очікуванні) або Uncorrectable Errors (невиправні помилки), перед скануванням створіть секторний образ цього диска за допомогою вбудованої функції створення образів RS RAID Retrieve. Усі подальші роботи з відновлення виконуються над образом. Це захищає вихідний диск від додаткових операцій читання під час сканування та запобігає подальшому погіршенню стану вже навантаженого диска.

Крок 3 — Автоматичне відновлення масиву

RS RAID Retrieve читає суперконтролер (superblock) mdadm з кожного підключеного диска або образу, визначає UUID масиву, ролі учасників, рівень RAID та параметри стріпінгу і відновлює структуру тома SHR. Для деградованого масиву з одним відсутнім або пошкодженим учасником програма може виконати реконструкцію за допомогою наявних дисків — обчислюючи відсутні дані з паритету так само, як це робить mdadm у деградованому режимі, але без запису будь-яких даних назад на диск.

Крок 4 — Перегляд та відновлення файлів

Якщо можливо, коректно вимкніть NAS. Підключіть усі накопичувачі — включно з тим, який DSM позначив як Faulty — до комп’ютера для відновлення та відкрийте вбудований монітор S.M.A.R.T. у RS RAID Retrieve. Перевіряйте кожен диск, а не лише той, що вийшов з ладу. Під час відновлення (rebuild) диск, який здається здоровим, часто є тим, що спричинив помилку через проблеми читання на існуючому члені масиву.

🔍

Працює з деградованими та аварійними масивами

Відновлює томи SHR із наявних учасників (дисків) без потреби в повному здоровому масиві — включно з неактивними масивами, які mdadm відмовляється збирати.

📊

Моніторинг S.M.A.R.T.

Оцініть стан диска перед скануванням. Визначає, який диск спричинив збій процесу відновлення (rebuild), і чи потрібно створити образ диска перед відновленням.

💾

Створення образу диска

Створіть секторний образ пошкодженого диска перед відновленням. Усі роботи виконуються з цим образом — це захищає оригінал від додаткових циклів читання.

🔗

Підключення по SSH

Якщо NAS усе ще увімкнено та доступне в мережі, RS RAID Retrieve може підключитися через SSH — без необхідності фізично виймати диски з шасі.

Коли програмного відновлення замало

Якщо кілька дисків не з’являються після підключення до машини відновлення, або якщо S.M.A.R.T. показує критичні показники для більш ніж одного учасника масиву, ситуація вийшла за межі можливостей програмного забезпечення. Масив SHR‑1 із двома несправними дисками не має парності для реконструкції — немає математичного шляху відновити відсутні дані тільки за допомогою програмних засобів.

Зупиніться та зв’яжіться з лабораторією відновлення, якщо ви помітили

Два або більше дисків не визначаються або одразу показують помилку S.M.A.R.T. при подачі живлення
Клацання, скрегіт або повторні невдалі спроби розкрутити шпиндель на будь-якому диску
RS RAID Retrieve не може відтворити масив навіть у ручному режимі
Диски стають гарячими на дотик вже за кілька хвилин після підключення

Фізичне відновлення — заміна головок, перенос пластин — потребує чистої кімнати (cleanroom). Кожний додатковий цикл увімкнення живлення на механічно несправному диску зменшує ймовірність успішного відновлення.

Після відновлення: запобігання наступному збою під час перебудови

Збій перебудови під час заміни диска не є випадковим. Він експлуатує конкретну вразливість: усі інші диски перебувають під максимальною постійною навантаженістю на читання у той самий момент, коли масив позбавлений резервування. Нижче наведені кроки зменшують ймовірність повторення цієї ситуації.

📋

Перевірте S.M.A.R.T. перед заміною диска

Перед тим як витягувати старий диск, запустіть повний розширений тест S.M.A.R.T. на всіх інших дисках. Диск із переназначеними секторами або з секторами у стані очікування (pending) найімовірніше спричинить URE під час подальшого відновлення масиву.

🔕

Вимкніть фонові завдання DSM під час перебудови

Перейдіть у Панель керування → Планувальник завдань і тимчасово призупиніть заплановані тести S.M.A.R.T., Btrfs scrubs (перевірки файлової системи Btrfs) та сканування медіатеки на час перебудови. Конкурентні операції вводу/виводу (I/O) — одна з найпростіших для запобігання причин відмови перебудови.

🔌

Перепідключіть SATA-кабелі перед початком

Ненадійне з’єднання, яке працює при невеликому навантаженні, може вийти з ладу під час тривалого обміну даними в процесі відновлення, що триває кілька днів. Відключіть і повторно підключіть усі SATA-кабелі даних та живлення перед початком процедури заміни.

🗂️

Не змішуйте накопичувачі з різних виробничих партій

Накопичувачі, придбані одночасно й з однієї виробничої партії, зношуються приблизно з однаковою швидкістю. Коли один виходить з ладу, інші статистично ймовірно вийдуть з ладу незабаром. Придбайте замінні накопичувачі від іншого виробника або з іншої виробничої партії.

🔔

Увімкніть сповіщення електронною поштою в DSM

Панель керування → Сповіщення → Електронна пошта. DSM може сповістити вас одразу, щойно диск позначено як ‘Faulty’ або стан пулу зберігання починає погіршуватися. Раннє виявлення збою — до того, як процес відновлення (rebuild) триватиме 60 годин — дає більше можливостей для відновлення.

💾

Тримайте незалежну резервну копію

SHR забезпечує відмовостійкість, але не замінює резервне копіювання. Масив у стані деградації під час відновлення не захищений від другої відмови. Hyper Backup на зовнішній диск або в хмарне сховище — єдина гарантія, що збій під час відновлення не перетвориться на незворотну втрату даних.

Збій відновлення під час заміни диска — один із найпоширеніших сценаріїв втрати даних у SHR, оскільки відбувається в найневдаліший момент: максимальне навантаження вводу‑виводу на найстаріше обладнання масиву при відсутності резервного запасу. Після відновлення даних розгляньте цю подію як сигнал — не лише про диск, що вийшов з ладу, а й про стан усього обладнання, з яким він працював.

Поширені запитання

Не обов’язково, і це одне з найнебезпечніших хибних уявлень про відновлення RAID. У RAID 5 і SHR дані не записуються послідовно «з диска на диск» — паритет розподіляється між всіма учасниками у смугах (stripes). Відновлення на 97% означає, що 97% смуг було перераховано і записано, але масив не буде узгодженим, доки не завершиться повні 100%. Перерване відновлення залишає таблицю паритету частково оновленою, тому будь-яка смуга, яка перетинає межу між відновленими та невідновленими ділянками, перебуває в невизначеному стані. Ви не можете вибірково отримати доступ до «тієї частини, що завершилася» — том або змонтується коректно в цілому, або взагалі не змонтується.

Так — але, найбільш імовірно, не через дефект самого нового диска. Коли mdadm позначає диск як Faulty під час відновлення (rebuild), воно реагує на певну подію — помилку читання, таймаут SATA або команду, що не встигла завершитися у межах таймауту ядра. Новий диск під час відновлення є ціллю для запису, а не джерелом читання. Якщо він відображається як Faulty, найімовірніша причина — проблема з підключенням SATA (кабель, порт бекплейна або слот контролера), яка проявилася під тривалим навантаженням запису під час rebuild. Перш ніж робити висновок, що диск вийшов з ладу, спробуйте переставити його в інший відсік і підключити іншим кабелем. Показники S.M.A.R.T. на новому диску зазвичай майже «нульові» і не повинні свідчити про помилки — якщо ж помилки є, тоді проблема в самому диску.

Це розумний варіант, якщо замінний NAS ідентичний або сумісний, але він несе той самий ризик, що й будь-яке відновлення: якщо на будь‑якому з існуючих дисків є URE (Unrecoverable Read Error) або диск має сумнівний стан, відновлення на новому обладнанні натрапить на ту саму проблему. Перед міграцією перевірте S.M.A.R.T. на кожному диску. Якщо всі диски в порядку, процедура HDD Migration від Synology зберігає конфігурацію пулу зберігання та томів — DSM на новому пристрої розпізнає існуючий масив і відновить роботу без повної перебудови з нуля. Однак якщо початковий збій відновлення був спричинений помилкою читання на одному з дисків, міграція цього не виправить: проблемний диск залишається у складі масиву незалежно від шасі, в якому він знаходиться.

Швидкість відновлення (rebuild) на апаратному забезпеченні Synology зазвичай становить 50–120 MB/s за ідеальних умов — без конкуренції за I/O, зі справними дисками та стабільними з’єднаннями. При 60 MB/s відновлення 4 TB займає приблизно 18–19 годин; 8 TB — близько 37 годин. Швидкість природно коливається, а DSM зменшує пріоритет відновлення, щоб NAS залишався придатним для використання, тому повільне відновлення не обов’язково є проблемою. Зависле відновлення — інша справа: у /proc/mdstat бачите speed=0K/sec і finish=∞, а відсоток прогресу не рухається понад 15–30 хвилин. Таке поєднання — нульова швидкість плюс нескінченний час завершення — означає, що mdadm заблоковано на непрочитаному секторі і він нескінченно повторює спроби; просте очікування не допоможе — сектор сам по собі не стане читабельним.