Ceph OSDS Full Troubleshooting
Issue
Pada percobaan kali ini kita akan mensimulasikan bagaimana ketika OSD Ceph dalam kondisi full dan cara troubleshooting.
Simulasi
Kondisi normal, environment sama dengan production:
- 10 osd
- 2 host osd, 1 ceph-mon.
Environment Production:


Environment Test server:

Dilakukan penambahan data/disk secara terus menerus:

Lalu kondisi ceph berubah dari status health_ok menjadi health_err:

osd 8 menjadi full:

detail space osd:

semua operation tidak bisa berjalan sempurna:

Troubleshoot
Ada 2 cara untuk menyeimbangkan full cluster ceph:
- Menambahkan
ceph-osdsbaru. - Redistribute storage.
Menambahkan ceph-osds baru
Menambahkan OSDs baru akan secara otomatis mendistribusikan pages ceph.
lihat berikut:
dari 10 osd ditambah 2 osd menjadi 12 osd:

data pages ceph akan secara otomatis rebalanced
hasil akhir:

Redistribute storage
Distribusikan storage dengan perintah seperti berikut:
ceph osd reweight-by-utilization

Running the command will make adjustments to a maximum of 4 OSDs that are at 120% utilization
hasil akhir setelah redistribute:


Ref:
- http://centosquestions.com/what-do-you-do-when-a-ceph-osd-is-nearfull/
- https://docs.ceph.com/docs/giant/rados/troubleshooting/troubleshooting-osd/
- https://docs.ceph.com/docs/bobtail/rados/operations/add-or-rm-osds/
- https://access.redhat.com/documentation/en-us/red_hat_ceph_storage/2/html/troubleshooting_guide/troubleshooting-osds
- https://access.redhat.com/documentation/en-us/red_hat_ceph_storage/3/html/operations_guide/handling-a-disk-failure