Pre-processing
Pre Processing
Preprocessing adalah teknik paling awal sebelum melakukan data mining dan digunakan untuk menghilangkan masalah yang mungkin terjadi selama pemrosesan data karena format data yang tidak konsisten. Namun, preprocessing juga mencakup beberapa proses seperti membersihkan, mengintegrasikan, mentransformasikan, dan mereduksi data.
Data Cleaning
Data cleaning atau membersihkan data berarti bahwa data mentah harus dipilih kembali dan kemudian dihapus atau dihilangkan data yang tidak lengkap, tidak relevan, atau tidak akurat. Dengan melakukan tahap ini, Anda dapat menghindari kesalahpahaman saat menganalisis data.
Contoh Implementasi data cleaning :
1. Code untuk implementasi Data Cleaning :
3. Kesimpulan Kode :
Ketika kita menjalankan kode di atas, DataFrame asli dan yang sudah dibersihkan akan ditampilkan. Kode ini akan menangani nilai yang hilang, menghapus duplikat, memperbaiki tipe data, menangani outlier, dan menstandarisasi data.
Data Collection
Data Collection adalah istilah lain untuk pengumpulan data, yang merupakan proses pengumpulan, pengukuran, dan analisis informasi yang tepat untuk tujuan penelitian dengan menggunakan teknik yang divalidasi secara konvensional.Ada beberapa metode pengumpulan data, Seperti :
- Pengumpulan Data dari API
- Pengumpulan Data dari Web Scraping
- Pengumpulan Data dari File CSV
- Pengumpulan Data dari Database
- Pengumpulan Data melalui Survei
Contoh Implementasi Data Collection menggunakan metode csv :
1. Code untuk implementasi Data Collection :
2. Output dari code setelah di run :
3. Kesimpulan Kode :
1. Fungsi read_csv dari library pandas digunakan untuk membaca file CSV dan mengonversinya menjadi DataFrame pandas.
2. Fungsi head() dari DataFrame digunakan untuk menampilkan beberapa baris pertama dari DataFrame.
Data Transform
Transformasi data adalah proses mengubah data dari satu bentuk atau representasi ke bentuk atau representasi lain yang lebih sesuai untuk analisis atau aplikasi tertentu. Transformasi data sangat penting dalam proses pra-pemrosesan data sebelum dilakukan analisis lebih lanjut atau penggunaan dalam model prediktif.
Contoh Implementasi Data Transform :
1. Code untuk implementasi Data Transform :
2. Output dari code setelah di run :
3. Kesimpulan Kode :
- Import Library: Mengimport pandas untuk manipulasi data dan sklearn untuk normalisasi dan encoding.
- Contoh Dataset: Dataset contoh berisi informasi nama, usia, gaji, dan kota tempat tinggal.
- Pipeline dan ColumnTransformer: Menggunakan Pipeline dan ColumnTransformer dari sklearn.compose untuk menggabungkan beberapa langkah transformasi data.
- Normalisasi: Menggunakan MinMaxScaler untuk melakukan normalisasi (Min-Max Scaling) pada kolom numerik 'Usia' dan 'Gaji'.
- Encoding Kategori: Menggunakan OneHotEncoder untuk melakukan encoding kategori pada kolom 'Kota', mengubahnya menjadi kolom dummy.
- Proses Transformasi: Mengaplikasikan preprocessor untuk melakukan transformasi pada dataset df. Hasil transformasi disimpan dalam transformed_df.
Data Reduction
Data reduction atau reduksi data adalah proses mengurangi jumlah data yang tidak relevan, redundan, atau tidak diperlukan agar mempermudah analisis atau pengolahan lebih lanjut. Hal ini sangat penting terutama ketika kita memiliki dataset yang sangat besar atau kompleks. Berikut ini beberapa teknik umum dalam reduksi data:
Contoh Implementasi Data Reduction :
1. Code untuk implementasi Data Reduction :
3. Penjelasan Kode :
- Membuat DataFrame df yang memiliki empat kolom (A, B, C, D) dan lima baris data.
- Mencetak DataFrame pertama sebelum direduksi.
- Membuat objek PCA untuk mereduksi data menjadi dua komponen utama.
- Mengaplikasikan PCA pada DataFrame df dan menyimpan hasilnya dalam DataFrame baru df_reduced yang memiliki dua kolom, PC1 dan PC2.
- Mencetak DataFrame yang telah direduksi.








Komentar
Posting Komentar