Sample Dataset pada Scikit-Learn
Adapun yang harus kita persiapkan dalam pembelajaran sample dataset pada scikit-learn adalah :
- Memiliki akun Gmail, kemudian login ke dalam akun Gmail.
- Buka google colab untuk menjalankan script dari scikit-learn.
- Buat project baru
- Untuk kasus kali ini kita memakai iris dataset, ketikan kedalam script kode script berikut
from sklearn.datasets import load_iris
iris = load_iris()
iris
Penjelasan dari script di atas adalah pertama kita harus install dulu sklearn.datasets kemudian kita import function load_iris. untuk memanggil iris dataset dengan load_iris() kemudian kita tampung dalam satu variabel dengan nama iris, kemudian untuk menampilkan kita ketik variabel iris.
Untuk menjalankan program tersebut cukup dengan mengklik tombol play pada menu di samping program. hasilnya seperti gambar di bawah ini :
Kita akan mendata keys apa saja yang dimiliki oleh iris dataset, dengan mengetikan kode pada baris baru:
iris.keys()
kemudian jalankan, maka hasilnya seperti gambar di bawah ini :
Adapun Keys() yang tersedia dari iris dataset adalah : ‘data’, ‘target’, ‘frame’, ‘target_names’, ‘DESCR’, ‘feature_names’, ‘filename’, ‘data_module’.
Untuk data keys akan berkaitan dengan data features, sedangkan target berkaitan nanti dengan data – data target. Frame untuk menanandakan apakah data format yang ada pada iris dataset data frame atau bukan data frame. Target_names dan Features names akan berkolerasi dengan nama atau label untuk setiap target dan featuresnya. DESCR merupakan kependekan dari deskripsi . filename akan berkolerasi dengan lokasi filename projek ini dan yang terakhir data_module adalah modul yang diakses pada sklearn yaitu sklearn.datasets.data.
Deskripsi Dari Sample Dataset
Sample dataset yang kita gunakan dapat teman – teman gali infromasinya melalui link wikipedia. untuk mengakses metadata dari iris dataset adalah dengan cara mengetikan script di bawah ini :
print(iris.DESCR)
hasilnya dapat kita lihat di bawah ini
Dari gambar di atas dapat kita ambil informasi tentang judul dataset, dengan judul Iris plants dataset, number of instances jumlah baris 150 baris terdapat 3 class ( Iris-Setosa, Iris-Versicolour, Iris-Virginica ) di dalam1 class terdapat 50 baris. Number of attributes ada 4 atributes : sepal lenght, sepal width, petal length dan petal widht dengan format ukuran centimeter ( cm ).