Menjalankan “Tiny LLM” di CPU Lokal: Langkah Menuju Keamanan Siber yang Lebih Baik
Dalam dunia keamanan siber, teknologi AI dan ML (Mesin Luar Biasa) telah menjadi salah satu topik yang paling menarik. Namun, perlu diingat bahwa penggunaan AI dan ML juga dapat meningkatkan risiko keamanan jika tidak dijalankan dengan benar. Oleh karena itu, penelitian terbaru yang dilakukan oleh Ollam telah menunjukkan bahwa arsitektur AI kelas Enterprise dapat dibangun dan diuji secara lokal tanpa menggunakan GPU mahal, tanpa koneksi cloud, dan tanpa biaya lisensi apapun.
Dalam eksperimen ini, Ollam menggunakannya model mikro GGUF yang dikuantisasi ke format Q4_K_M. Model ini memiliki ukuran file sekitar 600 MB dan dapat diunduh dalam waktu 235 menit menggunakan jaringan WiFi standar. Model ini cukup “cerdas” untuk demo percakapan sederhana, namun ringan sehingga bahkan laptop dengan RAM 8 GB pun mampu menjalankannya tanpa hambatan berarti.
Teknik Quantization: Mengurangi Ukuran Model AI
Teknik quantization adalah salah satu cara untuk mengurangi ukuran model AI tanpa kehilangan akurasi signifikan. Dengan menggunakan teknik ini, bobot numerik dari 32-bit floating point dapat dipadatkan menjadi 4-bit atau 8-bit integer, mengurangi ukuran hingga 75%. Format GGUF adalah format file tunggal yang dioptimalkan untuk inferensi CPU. Menggantikan format lama GGML dengan metadata lebih kaya dan kompatibilitas lintas platform.
Menghidupkan OpenClaw Server dan Membuat “Otak” Backend
OpenClaw berperan sebagai inference server lokal yang menyediakan API kompatibel OpenAI di localhost:11434. Backend FastAPI kita nantinya akan menembak endpoint ini 4 bukan internet. Dalam Langkah 3, kita harus menghidupkan OpenClaw dengan model yang sudah diunduh. Kita juga harus membuat file main.py di folder proyek kita dan mengimplemenkan FastAPI app dengan endpoint /chat yang menerima pesan dari user, meneruskannya ke OpenClaw lokal, lalu mengembalikan respons AI.
Testing Endpoint via Swagger UI
FastAPI menyertakan dokumentasi interaktif Swagger UI secara otomatis 4 tidak perlu tool tambahan seperti Postman. Ini adalah cara paling cepat untuk memverifikasi API kita berfungsi end-to-end. Kita dapat menjalankan server FastAPI dan membuka Swagger UI di browser. Kemudian, kita dapat mengklik endpoint POST /chat dan memilih “Try it out” untuk menguji API kita.
Langkah-Langkah Mitigasi
Dalam menghadapi ancaman keamanan siber, kita harus selalu siap dengan langkah-langkah mitigasi. Berikut beberapa langkah yang dapat kita ambil:
1. Gunakan model AI yang dikuantisasi: Dengan menggunakan model AI yang dikuantisasi, kita dapat mengurangi ukuran model AI tanpa kehilangan akurasi signifikan.
2. Gunakan OpenClaw Server: OpenClaw Server dapat membantu kita untuk menghidupkan inference server lokal yang menyediakan API kompatibel OpenAI di localhost:11434.
3. Gunakan FastAPI: FastAPI dapat membantu kita untuk membuat backend API yang production-ready dengan endpoint /chat yang menerima pesan dari user, meneruskannya ke OpenClaw lokal, lalu mengembalikan respons AI.
4. Gunakan Swagger UI: Swagger UI dapat membantu kita untuk memverifikasi API kita berfungsi end-to-end.
Dengan mengambil langkah-langkah mitigasi di atas, kita dapat meningkatkan keamanan siber dan mengurangi risiko keamanan.
Materi presentasi lengkap tersedia untuk diunduh:
