Preprocessing dapat dilakukan dengan beberapa teknik yaitu :Cleaning memperkecil jumlah data yang hilang atau berbeda, dapat dilakukan dengan :
Transformasi mengubah data yang kompleks dengan tidak menghilangkan isi, sehingga lebih mudah diolah, dilakukan dengan cara
Diskretisasi membagi nilai data menjadi beberapa range data, dilakukan dengan cara
Reduksi mengurangi jumlah data sehingga resource yang digunakan lebih sedikit, sehingga prosesnya dapat lebih cepat dilakukan dengan cara
Langkah-langkah yang dilakukan dalam DATA MINING :
Pengertian DATA MINING :
Serangkaian proses untuk menggali nilai tambah berupa informasi yang selama ini tidak diketahui secara manual dari suatu basisdata. Informasi yang dihasilkan diperoleh dengan cara mengekstraksi dan mengenali pola yang penting atau menarik dari data yang terdapat dalam basisdata.
- mengisi data yang hilang dengan default value
- mengisi data secara manual, misal: trace ulang transaksi untuk mengetahui data yang hilang
Transformasi mengubah data yang kompleks dengan tidak menghilangkan isi, sehingga lebih mudah diolah, dilakukan dengan cara
- smoothing (binning, clustering dan regresi)
- agregasi (summarize, menggunakaan dimensi yang lebih general (cube construction ))
- generalisasi, misal menggunakan dimensi propinsi daripada kabupaten atau grouping (hirarki konsep)
- normalisasi, mengelompokkan data sesuai skala tertentu, misal IPK.
Diskretisasi membagi nilai data menjadi beberapa range data, dilakukan dengan cara
- binning, seperti di atas
- hirarki konsep, misal mengelompokkan harga produk menjadi, mahal, biasa, murah
Reduksi mengurangi jumlah data sehingga resource yang digunakan lebih sedikit, sehingga prosesnya dapat lebih cepat dilakukan dengan cara
- sampling/generalisasi,
- agregasi, seperti agregasi pada transformasi. data ribuan memiliki volume byte yang lebih kecil daripada data jutaan
- mengurangi atribut yang tidak perlu (korelasi yang rendah terhadap keseluruhan data),
- misal nomor telepon, nama ibu atau nama jalan. jika data set memiliki atribut sejumlah n, maka ada 2^n kemungkinan korelasi antar atribut
- kompresi data,
Langkah-langkah yang dilakukan dalam DATA MINING :
- Data cleaning (untuk menghilangkan noise data yang tidak konsisten) Data integration (di mana sumber data yang terpecah dapat disatukan)
- Data selection (di mana data yang relevan dengan tugas analisis dikembalikan ke dalam database)
- Data transformation (di mana data berubah atau bersatu menjadi bentuk yang tepat untuk menambang dengan ringkasan performa atau operasi agresi)
- Knowledge Discovery (proses esensial di mana metode yang intelejen digunakan untuk mengekstrak pola data)
- Pattern evolution (untuk mengidentifikasi pola yang benar-benar menarik yang mewakili pengetahuan berdasarkan atas beberapa tindakan yang menarik)
- Knowledge presentation (di mana gambaran teknik visualisasi dan pengetahuan digunakan untuk memberikan pengetahuan yang telah ditambang kepada user).
Pengertian DATA MINING :
Serangkaian proses untuk menggali nilai tambah berupa informasi yang selama ini tidak diketahui secara manual dari suatu basisdata. Informasi yang dihasilkan diperoleh dengan cara mengekstraksi dan mengenali pola yang penting atau menarik dari data yang terdapat dalam basisdata.
Mengapa data perlu di-preprocessing? Karena dalam data mentah masih terdapat data yang :
- incomplete, yaitu data yang kekurangan nilai atribut atau hanya mengandung agregat data (contoh : address = " ").
- noisy, yaitu data yang masih mengandung error dan outliers (contoh : salary = -10).
- inconsistent, yaitu data yang mengandung discrepansi dalam code dan nama atau singkatnya datanya tidak konsisten (contoh : dulu rating = 1,2,3 sekarang a,b,c).
Sumber :
http://gsbipb.com/?p=821
https://fairuzelsaid.wordpress.com/2009/12/07/data-mining-jawaban-soal-uts-data-mining/
Tidak ada komentar:
Posting Komentar