Итак, оно случилось. В гарантийном сервере Dell из дискового массива вылетел хард с ошибкой predicted error. Так как используется raid10, то сервер продолжал работать и пользователи ничего не заметили. Теперь очень важно понимать, что происходит с дисковой системой и с самим контроллером, тоесть нужны логи. Так как основной системой выступает VMware ESXi то задача на первый взгляд не выглядит такой тривиальной. Итак перед звонком на сервис будем готовы дать им:
- service tag
- фото сбойного харда (part number)
- логи контроллера
- адрес, название фирмы и контактные лица с номерами телефонов
Лог raid-контроллера получаем следующим образом
1. В консоли ESX 4.1 нажмаем кнопку F2 и вводим пароль рута
2. Ищем Troubleshooting Options
3. RTSM и LTSM должны быть включены (enable)
Всё вышеуказанное можно также сделать средствами vSphere Client (Configuration — Security Profile — Properties)
4. Запускаем Putty и вводим ip адрес нашего esxi-сервера
5. Включаем логирование вывода в putty.log
6. Заходим по ssh на esxi и выполняем команду. Именно putty.log нужно будет отсылать на сервис
lsi_log
В логе raid-контроллера, я выделил ключевую в моём случае
12/09/12 22:21:51: ErrLBAOffset (2) LBA(304dfc00) BadLba=304dfc02 12/09/12 22:21:54: ErrLBAOffset (2) LBA(304dfc00) BadLba=304dfc02 12/09/12 22:23:26: ErrLBAOffset (7) LBA(2fec4300) BadLba=2fec4307 12/09/12 22:23:29: ErrLBAOffset (7) LBA(2fec4300) BadLba=2fec4307 12/09/12 22:31:49: ErrLBAOffset (2) LBA(2fa09200) BadLba=2fa09202 12/09/12 22:31:52: ErrLBAOffset (2) LBA(2fa09200) BadLba=2fa09202 12/09/12 22:35:41: ErrLBAOffset (42) LBA(30716180) BadLba=307161c2 12/09/12 22:46:22: ErrLBAOffset (3) LBA(30c12e80) BadLba=30c12e83 12/09/12 22:46:23: ErrLBAOffset (a) LBA(30c12e88) BadLba=30c12e92 12/09/12 22:46:28: ErrLBAOffset (3) LBA(30c12e80) BadLba=30c12e83 12/09/12 22:46:31: ErrLBAOffset (b) LBA(30c12e88) BadLba=30c12e93
P.S.
Заявка в сервис поступила в среду, время реакции на заявку — следующий день. Новый хард подвезли в понедельник поздно вечером. Отсюда делаем вывод:
- гарантия — это не мгновенная, пускай и в течении дня замена
- всегда на прихвате должен быть запасной диск, даже если сервер на гарантии
- приблизительный срок выполнения гарантийных обязательств — неделя

- Системный администратор с 2000 года
- Участник Freelancehunt, Хабр Q&A, cyberforum
- Кейсы