Pre-processing

Pre Processing

Preprocessing adalah teknik paling awal sebelum melakukan data mining dan digunakan untuk menghilangkan masalah yang mungkin terjadi selama pemrosesan data karena format data yang tidak konsisten. Namun, preprocessing juga mencakup beberapa proses seperti membersihkan, mengintegrasikan, mentransformasikan, dan mereduksi data.

Data Cleaning

Data cleaning atau membersihkan data berarti bahwa data mentah harus dipilih kembali dan kemudian dihapus atau dihilangkan data yang tidak lengkap, tidak relevan, atau tidak akurat. Dengan melakukan tahap ini, Anda dapat menghindari kesalahpahaman saat menganalisis data.

Contoh Implementasi data cleaning :

1. Code untuk implementasi Data Cleaning :


2. Output dari code setelah di run :



3. Kesimpulan Kode :

Ketika kita menjalankan kode di atas, DataFrame asli dan yang sudah dibersihkan akan ditampilkan. Kode ini akan menangani nilai yang hilang, menghapus duplikat, memperbaiki tipe data, menangani outlier, dan menstandarisasi data.

Data Collection

Data Collection adalah istilah lain untuk pengumpulan data, yang merupakan proses pengumpulan, pengukuran, dan analisis informasi yang tepat untuk tujuan penelitian dengan menggunakan teknik yang divalidasi secara konvensional.

Ada beberapa metode pengumpulan data, Seperti :
- Pengumpulan Data dari API
- Pengumpulan Data dari Web Scraping
- Pengumpulan Data dari File CSV
- Pengumpulan Data dari Database
- Pengumpulan Data melalui Survei

Contoh Implementasi Data Collection menggunakan metode csv :

1. Code untuk implementasi Data Collection :


2. Output dari code setelah di run :


3. Kesimpulan Kode :

    1. Fungsi read_csv dari library pandas digunakan untuk membaca file CSV dan mengonversinya menjadi DataFrame         pandas.
    2. Fungsi head() dari DataFrame digunakan untuk menampilkan beberapa baris pertama dari DataFrame.

Data Transform

Transformasi data adalah proses mengubah data dari satu bentuk atau representasi ke bentuk atau representasi lain yang lebih sesuai untuk analisis atau aplikasi tertentu. Transformasi data sangat penting dalam proses pra-pemrosesan data sebelum dilakukan analisis lebih lanjut atau penggunaan dalam model prediktif.

Contoh Implementasi Data Transform :

1. Code untuk implementasi Data Transform :


2. Output dari code setelah di run :


3. Kesimpulan Kode : 
  1. Import Library: Mengimport pandas untuk manipulasi data dan sklearn untuk normalisasi dan encoding.
  2. Contoh Dataset: Dataset contoh berisi informasi nama, usia, gaji, dan kota tempat tinggal.
  3. Pipeline dan ColumnTransformer: Menggunakan Pipeline dan ColumnTransformer dari sklearn.compose untuk menggabungkan beberapa langkah transformasi data.
  4. Normalisasi: Menggunakan MinMaxScaler untuk melakukan normalisasi (Min-Max Scaling) pada kolom numerik 'Usia' dan 'Gaji'.
  5. Encoding Kategori: Menggunakan OneHotEncoder untuk melakukan encoding kategori pada kolom 'Kota', mengubahnya menjadi kolom dummy.
  6. Proses Transformasi: Mengaplikasikan preprocessor untuk melakukan transformasi pada dataset df. Hasil transformasi disimpan dalam transformed_df.

Data Reduction

Data reduction atau reduksi data adalah proses mengurangi jumlah data yang tidak relevan, redundan, atau tidak diperlukan agar mempermudah analisis atau pengolahan lebih lanjut. Hal ini sangat penting terutama ketika kita memiliki dataset yang sangat besar atau kompleks. Berikut ini beberapa teknik umum dalam reduksi data:


Contoh Implementasi Data Reduction :

1. Code untuk implementasi Data Reduction :


2. Output dari code setelah di run :




3. Penjelasan Kode : 
  • Membuat DataFrame df yang memiliki empat kolom (A, B, C, D) dan lima baris data. 
  • Mencetak DataFrame pertama sebelum direduksi. 
  • Membuat objek PCA untuk mereduksi data menjadi dua komponen utama. 
  • Mengaplikasikan PCA pada DataFrame df dan menyimpan hasilnya dalam DataFrame baru df_reduced yang memiliki dua kolom, PC1 dan PC2. 
  • Mencetak DataFrame yang telah direduksi.
























Komentar

Postingan populer dari blog ini

SEMMA (Sample, Emplore, Model & Assess)

Supervise Learning dan 30 Algoritmanya