Ceph OSDS Full Troubleshooting
Issue
Pada percobaan kali ini kita akan mensimulasikan bagaimana ketika OSD Ceph dalam kondisi full dan cara troubleshooting.
Simulasi
Kondisi normal, environment sama dengan production:
- 10 osd
- 2 host osd, 1 ceph-mon.
Environment Production:
Environment Test server:
Dilakukan penambahan data/disk secara terus menerus:
Lalu kondisi ceph
berubah dari status health_ok
menjadi health_err
:
osd 8 menjadi full:
detail space osd:
semua operation tidak bisa berjalan sempurna:
Troubleshoot
Ada 2 cara untuk menyeimbangkan full cluster ceph:
- Menambahkan
ceph-osds
baru. - Redistribute storage.
Menambahkan ceph-osds
baru
Menambahkan OSDs
baru akan secara otomatis mendistribusikan pages ceph
.
lihat berikut:
dari 10 osd
ditambah 2 osd menjadi 12 osd
:
data pages ceph akan secara otomatis rebalanced
hasil akhir:
Redistribute storage
Distribusikan storage dengan perintah seperti berikut:
ceph osd reweight-by-utilization
Running the command will make adjustments to a maximum of 4 OSDs that are at 120% utilization
hasil akhir setelah redistribute
:
Ref:
- http://centosquestions.com/what-do-you-do-when-a-ceph-osd-is-nearfull/
- https://docs.ceph.com/docs/giant/rados/troubleshooting/troubleshooting-osd/
- https://docs.ceph.com/docs/bobtail/rados/operations/add-or-rm-osds/
- https://access.redhat.com/documentation/en-us/red_hat_ceph_storage/2/html/troubleshooting_guide/troubleshooting-osds
- https://access.redhat.com/documentation/en-us/red_hat_ceph_storage/3/html/operations_guide/handling-a-disk-failure