Sistem Deteksi Intrusi dan Optimalisasi Ekstraksi Fitur: Sebuah Pendekatan Random Forest

Dibaca: 142

1. Pendahuluan: Konteks Keamanan Jaringan

BERITAKULIAH.COM, Jakarta — Pertumbuhan pesat internet dan jaringan area lokal (LAN) dewasa ini telah memaparkan pengguna pada berbagai ancaman keamanan yang kian kompleks, seperti virus, worm, dan serangan peretas. Infrastruktur keamanan konvensional seperti firewall, perangkat lunak anti-virus, enkripsi, dan perlindungan kata sandi tidak lagi memadai untuk menjamin keamanan jaringan komputer. Oleh karena itu, Sistem Deteksi Intrusi (Intrusion Detection Systems/IDS) telah menjadi komponen tambahan yang krusial bagi infrastruktur keamanan organisasi.

Secara konseptual, IDS bertugas mengumpulkan dan menganalisis informasi dari berbagai area di dalam komputer atau jaringan untuk mengidentifikasi kemungkinan ancaman keamanan. Namun, sistem ini dihadapkan pada tantangan besar: volume data audit yang harus diperiksa sangatlah masif, bahkan untuk jaringan berskala kecil sekalipun. Data berskala besar ini mengandung banyak fitur yang tidak relevan dan berlebihan (redundan), yang pada gilirannya menyebabkan peningkatan waktu pemrosesan komputasi dan rendahnya tingkat deteksi.

2. Identifikasi Masalah pada Dataset Klasik

Dalam penelitian IDS, dataset $KDD^{\prime}99$ (turunan dari dataset DARPA 98) secara luas digunakan sebagai standar dasar atau benchmark. Koneksi dalam dataset ini direpresentasikan oleh 41 fitur yang bervariasi.

Namun, analisis statistik terhadap dataset ini mengungkapkan defisiensi yang signifikan:

Terdapat jumlah record duplikat atau redundan yang sangat besar di dalam kumpulan data $KDD^{\prime}99$.
Sekitar 78% record dalam data latih (train set) dan 75% dalam data uji (test set) merupakan data duplikat.
Redundansi berskala besar ini memicu terjadinya bias pada algoritma pembelajaran mesin (machine learning), di mana sistem cenderung lebih mengenali record yang sering muncul dan gagal mempelajari record serangan yang jarang terjadi namun berpotensi lebih merusak, seperti serangan User to Root (U2R).

3. Metodologi yang Diusulkan: Reduksi Data dan Seleksi Fitur

Untuk mengatasi masalah waktu pemrosesan dan bias data, reduksi data mutlak diperlukan, terutama jika sistem ditargetkan untuk deteksi real-time. Penelitian ini mengusulkan solusi komprehensif melalui dua pendekatan utama:

A. Pra-pemrosesan Data (Pembuatan Dataset RRE-KDD) Untuk mengeliminasi bias, peneliti membuat dataset turunan baru yang dinamakan RRE-KDD. Langkah yang diambil meliputi:

Menghilangkan record yang redundan dari dataset latih dan uji $KDD^{\prime}99$.
Menghasilkan subset KDD99Train+ untuk pelatihan dan KDD99Test+ untuk pengujian, yang ukurannya lebih masuk akal dan memungkinkan komputasi pada keseluruhan data tanpa perlu melakukan sampling acak.

B. Seleksi Fitur Dua Tahap dengan Algoritma Random Forest (RF) Seleksi fitur (feature selection) bertindak sebagai langkah pra-pemrosesan yang sangat penting untuk membuang fitur yang berisik (noisy), tidak relevan, dan redundan, sehingga model klasifikasi menjadi lebih sederhana dan cepat. Penelitian ini menggunakan pendekatan dua tahap berbasis Random Forest:

Tahap 1 (Pengukuran Pentingnya Variabel): Menggunakan Permutation Importance Measure (PIM) untuk mengukur dan memberi peringkat pada 41 fitur berdasarkan nilai urgensinya. Parameter optimal yang ditemukan untuk menjalankan tahap ini adalah jumlah pohon ($n_{tree}$) sebanyak 100 dan jumlah fitur acak ($m_{try}$) sebanyak 7.
Tahap 2 (Pemilihan Subset): Memilih subset fitur terbaik dengan memasukkan variabel secara berurutan dan mengujinya. Melalui evaluasi tingkat kesalahan, ditentukan bahwa sistem tidak menunjukkan penurunan kesalahan yang signifikan jika menggunakan lebih dari 25 fitur. Oleh karenanya, 25 fitur dengan skor Average Permutation Importance Measure (APIM) tertinggi dipilih untuk membangun model klasifikasi final.

4. Hasil Eksperimen dan Evaluasi Kinerja

Model Random Forest dievaluasi kinerjanya dengan membandingkan model yang menggunakan seluruh fitur asli (41 fitur) versus model dengan fitur yang telah direduksi (25 fitur).

Akurasi Klasifikasi: Pengurangan fitur secara efektif meningkatkan akurasi. Model RF dengan 25 fitur mencapai akurasi pengujian sebesar 91.90%, lebih tinggi dibandingkan model dengan 41 fitur yang berada di angka 91.41%.
Efisiensi Waktu: Seperti yang diekspektasikan, reduksi dimensi fitur berdampak langsung pada komputasi. Waktu yang dibutuhkan untuk melatih model dengan 25 fitur hanyalah 7.98 menit, jauh lebih cepat dibandingkan 41 fitur yang memakan waktu 10.62 menit.
Tingkat Positif Palsu (False Positive Rate): Deteksi gangguan yang presisi terbukti membaik; rata-rata tingkat positif palsu berhasil diturunkan dari 44.85% (pada 41 fitur) menjadi 42.23% (pada 25 fitur).

5. Kesimpulan

Implementasi algoritma Random Forest untuk seleksi fitur terbukti merupakan pendekatan yang sangat efektif dalam Sistem Deteksi Intrusi. Mengeliminasi redundansi data dan mereduksi dimensi ruang masukan dari 41 fitur menjadi 25 fitur fitur tidak hanya menghemat manajemen data dan waktu pemrosesan, tetapi juga terbukti secara empiris mampu menghasilkan deteksi klasifikasi yang lebih akurat dan presisi.

Penulis: Fathur Rizky Sya’ban
Mahasiswa Universitas Muhammadiyah Prof. Dr. Hamka

Dosen pengampu: Ir. Rifky, S.T., M.M., M.T., IPP

Editor: Bifanda Ariandhana, Tim BeritaKuliah.com

Follow WhatsApp Channel BeritaKuliah.com untuk update berita terbaru setiap hari