Masnaato

Tutorial Data Science Dengan Python : Cara Menggunakan Library Panda di Python

Pandas adalah Perpustakaan Python open-source yang digunakan untuk manipulasi data berkinerja tinggi dan analisis data menggunakan struktur datanya yang kuat. Python dengan pandas digunakan dalam berbagai domain akademis dan komersial, termasuk Keuangan, Ekonomi, Statistik, Periklanan, Analisis Web, dan banyak lagi. Dengan menggunakan Pandas, kami dapat menyelesaikan lima langkah umum dalam pemrosesan dan analisis data, terlepas dari asal datanya - memuat, mengatur, memanipulasi, memodelkan, dan menganalisis data.

Di bawah ini adalah beberapa fitur penting dari Pandas yang digunakan khusus untuk pemrosesan Data dan pekerjaan analisis Data.

Fitur Utama Panda

Objek DataFrame yang cepat dan efisien dengan pengindeksan default dan disesuaikan.
Alat untuk memuat data ke dalam objek data di memori dari format file yang berbeda.
Penyelarasan data dan penanganan terintegrasi untuk data yang hilang.
Pembentukan ulang dan perputaran set tanggal.
Pemotongan, pengindeksan, dan subset berbasis label dari kumpulan data besar.
Kolom dari struktur data dapat dihapus atau disisipkan.
Kelompokkan menurut data untuk agregasi dan transformasi.
Penggabungan dan penggabungan data berkinerja tinggi.
Fungsionalitas Time Series.

Panda berurusan dengan tiga struktur data berikut -

Seri
DataFrame

Struktur data ini dibangun di atas larik Numpy, membuatnya cepat dan efisien.

Dimensi & Deskripsi

Cara terbaik untuk memikirkan struktur data ini adalah bahwa struktur data berdimensi lebih tinggi adalah wadah dari struktur data berdimensi lebih rendah. Misalnya, DataFrame adalah wadah Seri, Panel adalah wadah DataFrame.

Struktur data	Ukuran	Deskripsi
Seri	1	1D berlabel larik homogen, ukuran tidak dapat diubah.
Bingkai Data	2	Umum 2D berlabel, struktur tabel yang dapat diubah ukurannya dengan kolom yang berpotensi diketik secara heterogen.

DataFrame digunakan secara luas dan merupakan struktur data yang paling penting.

Seri

Seri adalah struktur seperti array satu dimensi dengan data homogen. Misalnya, rangkaian berikut adalah kumpulan bilangan bulat 10, 23, 56,…

Poin-Poin Utama Seri

Data homogen
Ukuran Tidak Berubah
Nilai Data yang Dapat Diubah

DataFrame

DataFrame adalah array dua dimensi dengan data heterogen. Sebagai contoh,

Nama	Usia	Jenis kelamin	Peringkat
Steve	32	Pria	3.45
Lia	28	Perempuan	4.6
Anggur	45	Pria	3.9
Katie	38	Perempuan	2.78

Tabel tersebut mewakili data tim penjualan dari suatu organisasi dengan peringkat kinerjanya secara keseluruhan. Data direpresentasikan dalam baris dan kolom. Setiap kolom mewakili atribut dan setiap baris mewakili seseorang.

Jenis Data Kolom

Jenis data dari empat kolom adalah sebagai berikut -

Kolom	Tipe
Nama	Tali
Usia	Bilangan bulat
Jenis kelamin	Tali
Peringkat	Mengapung

Poin Utama dari Data Frame

Data heterogen
Ukuran Dapat Berubah
Data Dapat Diubah

Kita akan melihat banyak contoh penggunaan pandas library of python dalam pekerjaan Data science di bab-bab berikutnya.