Ceph OSDS Full Troubleshooting

Issue

Pada percobaan kali ini kita akan mensimulasikan bagaimana ketika OSD Ceph dalam kondisi full dan cara troubleshooting.

Simulasi

Kondisi normal, environment sama dengan production:

  1. 10 osd
  2. 2 host osd, 1 ceph-mon.

Environment Production:

ceph-production

ceph-status

Environment Test server:

image

Dilakukan penambahan data/disk secara terus menerus:

image

Lalu kondisi ceph berubah dari status health_ok menjadi health_err:

health-status

osd 8 menjadi full:

full-osd8

detail space osd:

detail-space

semua operation tidak bisa berjalan sempurna:

shutoff

Troubleshoot

Ada 2 cara untuk menyeimbangkan full cluster ceph:

  1. Menambahkan ceph-osds baru.
  2. Redistribute storage.

Menambahkan ceph-osds baru

Menambahkan OSDs baru akan secara otomatis mendistribusikan pages ceph.

lihat berikut:

dari 10 osd ditambah 2 osd menjadi 12 osd:

12-osd

data pages ceph akan secara otomatis rebalanced

hasil akhir:

recovery osd12

Redistribute storage

Distribusikan storage dengan perintah seperti berikut:

ceph osd reweight-by-utilization

reweight-by-utilization

Running the command will make adjustments to a maximum of 4 OSDs that are at 120% utilization

hasil akhir setelah redistribute:

ceph-osd-status

hasil-akhir-resdistribute

Ref:

  1. http://centosquestions.com/what-do-you-do-when-a-ceph-osd-is-nearfull/
  2. https://docs.ceph.com/docs/giant/rados/troubleshooting/troubleshooting-osd/
  3. https://docs.ceph.com/docs/bobtail/rados/operations/add-or-rm-osds/
  4. https://access.redhat.com/documentation/en-us/red_hat_ceph_storage/2/html/troubleshooting_guide/troubleshooting-osds
  5. https://access.redhat.com/documentation/en-us/red_hat_ceph_storage/3/html/operations_guide/handling-a-disk-failure