Cara Visualisasi Data 2D Di Pemrograman R
Principal Component Analysis adalah teknik untuk membangun variable-variable baru yang merupakan kombinasi linear dari variable- variable asli. Atau teknik yang digunakan untuk menyederhanakan suatu data, dengan cara mentransformasi data secara linier sehingga terbentuk sistem koordinat baru dengan varians maksimum. Jumlah maximum dari variable-variable baru ini akan sama dengan jumlah dari variable lama, dan variable-variable baru ini tidak saling berkorelasi satu sama lain.
PCA dapat digunakan
untuk mereduksi dimensi
suatu data tanpa mengurangi
karakteristik data tersebut secara signifikan
atau tetap mempertahankan informasi
yang terkandung di dalamnya.
Dengan penjelasan di atas, jika data memiliki feature lebih dari 3 maka PCA dapat mereduksi feature menjadi 2 atau 3 feature saja. Sehingga data dapat digambar pada grafik 2 dimensi atau 3 dimensi. Tetapi keberhasilan PCA untuk menggambar data ke dalam 2 dimensi dan 3 dimensi tergantung data tersebut. Jadi ada kemungkinan PCA tidak akan memberikan gambaran yang benar tentang sebaran data.
Implementasi PCA pada platform R adalah dengan menggunakan fungsi prcomp(). Data input untuk fungsi ini adalah numerik. Sebagai contoh, berikut ini adalah data iris.
Kolom yang dapat digunakan sebagai input fungsi prcomp()
adalah kolom ke-1 sampai ke-4. Sehingga penggunaan fungsi prcomp() dapat ditulis
sebagai berikut.
iris.pca =
prcomp(iris[,-5]) #seluruh kolom, kecuali kolom ke-5
atau
iris.pca = prcomp(iris[,1:4]) #kolom ke-1 sampai
ke-4 |
Fungsi ini menghasilkan 4 output. Output
yang pertama adalah
standar deviasi principal component. Output ini dapat dilihat dengan cara di bawah ini.
> iris.pca$sdev [1] 2.0562689 0.4926162
0.2796596 0.1543862 |
Output kedua adalah matrix variable
loading. Kode di bawah ini digunakan untuk melihat output ini.
>
iris.pca$ro |
tation PC1 |
PC2 |
PC3 |
PC4 |
Sepal.Length |
0.36138659 |
-0.65658877 |
0.58202985 |
0.3154872 |
Sepal.Width |
-0.08452251 |
-0.73016143 |
-0.59791083 |
-0.3197231 |
Petal.Length |
0.85667061 |
0.17337266 |
-0.07623608 |
-0.4798390 |
Petal.Width |
0.35828920 |
0.07548102 |
-0.54583143 |
0.7536574 |
Output ketiga adalah nilai rotasi data.
Output ini dapat dilihat dengan menggunakan kode berikut. Jumlah data output ini sesuai dengan jumlah data pada dataset iris yaitu 150 instance.
Output yang terakhir
adalah nilai center.
Nilai center dapat
dilihat dengan perintah berikut.
> iris.pca$center Sepal.Length Sepal.Width
Petal.Length Petal.Width 5.843333 3.057333 3.758000 1.199333 |
Visualisasi 2D
Untuk membuat visualisasi grafik 2D digunakan
fungsi biplot() seperti
contoh berikut ini.
biplot(iris.pca) |
Hasilnya akan dapat dilihat pada gambar di bawah ini.
Gambar 63. Grafik visualisasi 2D dengan fungsi
biplot().
Untuk menghasilkan grafik yang lebih bagus dapat digunakan fungsi pca2d(). Fungsi ini dimiliki oleh package pca3d. Install package pca3d dengan perintah berikut ini.
install.packages("pca3d")
Kemudian muat package dengan perintah berikut.
library(pca3d) |
Untuk membuat grafik 2D output fungsi prcomp() digunakan kode di bawah ini.
pca2d(iris.pca, group = iris[,5]) |
Parameter group diisi dengan feature dataset yang menyimpan label setiap instance. Berikut adalah grafik yang dihasilkan.
Gambar 64. Grafik 2 dimensi fungsi
pca2d().
Visualisasi 3D
Untuk membuat grafik 3 dimensi
digunakan fungsi pca3d()
dari package pca3d yang telah digunakan pada sub bab sebelumnya.
Kode di bawah ini adalah contoh penggunaan fungsi pca3d().
pca3d(iris.pca, group = iris[,5]) |
Gambar 65. Grafik 3 dimensi fungsi pca3d()
Grafik 3 dimensi
di atas dapat dilihat dari sisi yang diinginkan user.
User juga dapat melakukan zoom in dan zoom out.
Gambar 66. Output fungsi
help() pada R Tools for Visual Studio.
Gambar 67. Output
fungsi help() pada RStudio
Post a Comment for "Cara Visualisasi Data 2D Di Pemrograman R"