CentOS erros estranhos reportados pelo SMART
Começaram a aparecer erros no log e no email reportados pelo serviço SMART, sempre que reiniciava a maquina ou o serviço smartd. Eu estou a usar desde Julho de 2010 CentOS 5.2 num servidor. Este servidor é o meu servidor pessoal e é nele que deposito todos os meus trabalhos. Este servidor está a funcionar com um sistema de RAID5 e funciona 24 x 7. Como já é de imaginar, fui literalmente a correr para uma loja de Hardware comprar um disco para substitui-lo. Apesar deste ser o primeiro problema que venho a ter de Hardware nesta máquina, eu já estava consciente que mais cedo ou mais tarde iria acontecer, pois os discos infelizmente não duram para sempre. Mas o que realmente me alarmou foi o facto de eu ter quatro discos SAMSUNG, e todos do mesmo modelo. Pensei para mim e se os outros vão todos?
São estes os discos em questão.
Este era o email que recebia sempre que a máquina ou o serviço smartd eram reiniciados.
This email was generated by the smartd daemon running on: host name: xxxxxxxx.xxxxxx.xxx DNS domain: xxx.xx NIS domain: xxxxxxxxxx.xxx The following warning/error was logged by the smartd daemon: Device: /dev/sdc [SAT], 1 Currently unreadable (pending) sectors For details see host's SYSLOG. You can also use the smartctl utility for further investigation. No additional email messages about this problem will be sent.
Já com um disco novo pronto para substituir o disco com problemas neste caso /dev/sdc, fui à procura de informação detalhada do erro. Este erro normalmente tem a ver com Bad Sectors. Bem é o que acaba por acontecer à maioria dos discos rígidos mecânicos. Mas o estranho era que eu fazia um teste ao disco com o smartctl o comando reportava sempre que o disco estava bom. Só reportava erros ao iniciar o serviço smartd. Estranho não é? Bem então decidi remover o disco, formata-lo de novo e reconstruir o RAID novamente. E por mais estranho que pareça o problema desapareceu por completo. Já passou cerca de trinta dias, e está tudo a funcionar.
Estes foram os simples passos que utilizei para recuperar este disco.
Informar o raid que este disco falhou:
# mdadm --manage /dev/md0 --fail /dev/sdc1
Remover o disco do raid:
# mdadm --manage /dev/md0 --remove /dev/sdc1
Limpar o disco todo:
# dd if=/dev/zero of=/dev/sdc bs=100M
Copiar a tabela de partições de um dos outros discos, pois desta forma não tenho que formatar tudo ao pormenor e é mais rápido:
# sfdisk -d /dev/sda | sfdisk /dev/sdc
Adicionar o disco novamente ao raid:
# mdadm --manage /dev/md0 --add /dev/sdc1
Ver o raid a ser construído novamente:
# watch cat /proc/mdstat
Pode ser que este disco até dure mais uns bons anos, mas mais vale jogar pelo seguro com este tipo de coisas. Eu já tenho um disco de marca diferente pronto a substitui-lo caso venha a dar problemas. Mas aprendi com este problema e no futuro terei que tomar outras regras desde inicio. Discos SAMSUNG vai ser para esquecer! De hoje em diante sempre que tiver de substituir um disco, vou substituir por discos de marcas diferentes, pois ter todos os discos da mesma marca e modelo é um risco muito grande. Eu só agora penso nisto, mas mais vale agora do que nunca.