VM Gagal Booting karena RBD Lock Error di Ceph: "Invalid Argument"

Dalam arsitektur virtualisasi berbasis Ceph RBD, fitur exclusive locking digunakan untuk memastikan hanya satu host yang bisa menulis ke disk image pada satu waktu. Namun, dalam kondisi tertentu — terutama saat host VM mengalami crash atau restart — image RBD bisa terkunci, dan host baru gagal mengambil lock.

Masalah ini menyebabkan VM tidak bisa booting, bahkan ketika tidak ada proses lain yang sedang mengakses image. Error ini berasal dari bug pada Ceph, khususnya saat mencoba melakukan blocklist terhadap pemilik lock sebelumnya.

https://tracker.ceph.com/issues/54613

Use Case: High Availability VM Gagal Recovery

Lingkungan:

Storage backend: Ceph RBD
Hypervisor: Proxmox, KVM/libvirt, OpenStack
VM HA aktif (auto-restart saat crash)

Alur Kejadian:

Host A (pemilik lock sebelumnya) crash atau shutdown paksa.
Host B mencoba menjalankan ulang VM dari image RBD yang sama.
Ceph mencoba memutus lock yang lama, tapi gagal.
VM gagal booting dengan error Read-only file system.

Cuplikan Log:

librbd::managed_lock::BreakRequest: failed to blocklist lock owner: (22) Invalid argument  
librbd::ManagedLock: failed to acquire exclusive lock: (22) Invalid argument  
qemu-kvm: Could not open image: Read-only file system

Penyebab : Salah Format Parameter `expire`

Untuk memutus lock, Ceph mengirim perintah ke monitor (MON) untuk melakukan blocklist terhadap alamat host sebelumnya. Parameter expire digunakan untuk menentukan durasi blocklist.

Namun, jika konfigurasi rbd_blocklist_expire_seconds diset selain 0 (misalnya 3600), Ceph (melalui librados) mengirim nilai expire sebagai string, seperti ini:

"expire": "3600.0"  // ❌ Salah - string

Seharusnya:

"expire": 3600.0  // ✅ Benar - float

Kesalahan format ini membuat monitor Ceph menolak command tersebut:

(22) Invalid argument

Karena proses blocklist gagal, Ceph tidak bisa memutus lock, dan image tetap dalam keadaan terkunci (read-only), meskipun tidak lagi diakses.

Workaround:

Power Off → Map/Unmap → Power On

Untuk mengatasi image yang terkunci tanpa menghapus lock secara paksa, langkah paling aman dan efektif:

Langkah Recovery

Power off VM
Map image RBD:

rbd map <pool>/<image>
Unmap image RBD:

rbd unmap /dev/rbd/<pool>/<image>
Power on kembali VM

Langkah ini akan memaksa Ceph untuk mengambil ulang lock dengan cara bersih, asalkan memang tidak ada host lain yang masih aktif menggunakan image tersebut.

Fix Permanen

Untuk menghindari kegagalan lock seperti ini secara jangka panjang, tersedia dua pendekatan fix permanen yang dapat diterapkan:

Opsi 1 — Gunakan Nilai Default: `rbd_blocklist_expire_seconds = 0`

Cara termudah dan langsung adalah tidak menyetel nilai rbd_blocklist_expire_seconds secara manual, atau pastikan nilainya tetap 0 (default).

Ketika disetel 0, Ceph tidak akan mengirim field expire dalam perintah blocklist.
Ini menghindari bug serialisasi karena tidak ada parameter bermasalah yang dikirim.

Implementasi:

Aman digunakan di production, tanpa perlu rebuild atau patching.

Opsi 2 — Patch Source Code `librados`

Jika Anda memang membutuhkan fitur pengaturan expire secara fleksibel (misalnya untuk compliance), Anda bisa melakukan patch langsung di Ceph source:

Pastikan nilai expire dikirim sebagai float dalam struktur JSON, bukan string.
Bug ini biasanya berasal dari serialisasi Python, C++, atau binding CLI yang tidak memaksa format numerik murni.

Contoh pseudo-fix di patch C++:

Langkah ini:

Clone source Ceph
Ubah bagian kode yang membentuk JSON untuk command osd blocklist
Rebuild dan deploy binary yang sudah diperbaiki

Opsi ini lebih teknikal, cocok jika Anda menjalankan Ceph dengan kustomisasi berat atau ingin menyumbang upstream.

Dengan kedua opsi ini, Anda bisa memilih pendekatan yang paling sesuai antara stabilitas konfigurasi default (Opsi 1) atau fleksibilitas fungsional penuh (Opsi 2). Jika ingin menyumbang fix upstream, Opsi 2 juga bisa dikemas dalam PR resmi ke repositori Ceph.

Kesimpulan

Meskipun tampak sepele — hanya salah format angka — bug ini berdampak besar: VM tidak bisa di-recover secara otomatis, HA menjadi tidak efektif, dan downtime meningkat. Dengan memahami akar masalah dan menerapkan workaround yang tepat, Anda bisa menghindari intervensi manual yang lebih invasif seperti penghapusan paksa lock.

VM Gagal Booting karena RBD Lock Error di Ceph: "Invalid Argument"

VM Gagal Booting karena RBD Lock Error di Ceph: "Invalid Argument"

Use Case: High Availability VM Gagal Recovery

Lingkungan:

Alur Kejadian:

Cuplikan Log:

Penyebab : Salah Format Parameter expire

Workaround:

Langkah Recovery

Fix Permanen

Opsi 1 — Gunakan Nilai Default: rbd_blocklist_expire_seconds = 0

Opsi 2 — Patch Source Code librados

Kesimpulan

No Comments

Penyebab : Salah Format Parameter `expire`

Opsi 1 — Gunakan Nilai Default: `rbd_blocklist_expire_seconds = 0`

Opsi 2 — Patch Source Code `librados`