Cara menggunakan PD.SET_INDEX pada Python
Adapun Penjelasan setiap koding dan penjelasan Lengkap tentang hasil/output dari Analisa Data Produk dan Penjualan dapat teman-teman lihat pada Video Youtube kami ini. Show ANALISA DATA PRODUCT MENGGUNAKAN PYTHONPertama – tama panggillah Library yang dibutuhkan pada tahapan analisa ini seperti Library untuk menampilkan tabel dan Grafik Analisa %matplotlib inline import matplotlib.pyplot as plt import pandas as pd Sekarang kita panggil dataset yang kita butuhkan dan simpan dataset tersebut kedalam sebuah variabel df = pd.read_excel(io='/content/drive/MyDrive/Dataset/UAS/Online Retail.xlsx', sheet_name='Online Retail') Sekarang kita lihat Jumlah data dan Jumlah Kolom yang ada pada dataset ini df.shape Lalu kita lihat 5 data pertama dari dataset ini df.head() Quantity Distribution Sekarang kita lihat distribusi data Qiantity Product tersebut ax = df['Quantity'].plot.box( showfliers=False, grid=True, figsize=(10, 7) ) ax.set_ylabel('Order Quantity') ax.set_title('Quantity Distribution') plt.suptitle("") plt.show() Selanjutnya kita lihat Informasi dan Deskripsi dari Kolom Quantity ini pd.DataFrame(df['Quantity'].describe()) Kita Gunakan Fungsi Filter untuk lihat Jumlah data dari data Product yang Quantity-nya hanya besar dari 0 df.loc[df['Quantity'] > 0].shape Update data pada Variabel dataset tersebut berdasarkan hasil Filter data yang besar dari 0 df = df.loc[df['Quantity'] > 0] Time-series Number of Orders Sekarang kita akan melakukan filter data berdasarkan Waktu Penjualan Product tersebut. Kemudian data ini kita simpan ke dalam Variabel baru (Di Group berdasarkan Bulan (M)) monthly_orders_df = df.set_index('InvoiceDate')['InvoiceNo'].resample('M').nunique() Kita lihat Informasi sebaran data Product berdasarkan Jumlah Product dan Waktu Penjualan ke dalam Grafik ax = pd.DataFrame(monthly_orders_df.values).plot( grid=True, figsize=(10,7), legend=False ) ax.set_xlabel('date') ax.set_ylabel('number of orders/invoices') ax.set_title('Total Number of Orders Over Time') plt.xticks( range(len(monthly_orders_df.index)), [x.strftime('%m.%Y') for x in monthly_orders_df.index], rotation=45 ) plt.show() Selanjutnya kita Filter Data Product berdasarkan tanggal penjualan yang setelah tanggal “2011-12-01” sampai saat ini df = pd.read_excel(io='/content/drive/MyDrive/Dataset/UAS/Online Retail.xlsx', sheet_name='Online Retail')0 Kita lihat Tanggal paling Min dan Max dari Variabel data Product yang besar dari tanggal “2011-12-01” df = pd.read_excel(io='/content/drive/MyDrive/Dataset/UAS/Online Retail.xlsx', sheet_name='Online Retail')1 Sekarang kita cek data Product yang berada pada tanggal “2011-12-01” Kebawah df = pd.read_excel(io='/content/drive/MyDrive/Dataset/UAS/Online Retail.xlsx', sheet_name='Online Retail')2 Kita simpan data ini ke dalam sebuah Variabel baru untuk dilakukan Proses analisa Product kita df = pd.read_excel(io='/content/drive/MyDrive/Dataset/UAS/Online Retail.xlsx', sheet_name='Online Retail')3 Kita lakukan Grouping terhadap data yang telah kita filter ini dan tampilkan data tersebut dan Group berdasarkan Bulan (M) df = pd.read_excel(io='/content/drive/MyDrive/Dataset/UAS/Online Retail.xlsx', sheet_name='Online Retail')4 Sekarang kita lihat sebaran terdapat data yang telah kita Filter ini ke dalam Grafik df = pd.read_excel(io='/content/drive/MyDrive/Dataset/UAS/Online Retail.xlsx', sheet_name='Online Retail')5 Time-series Revenue Sekarang kita akan menghitung dan Menganalisa Keuntungan Product berdasarkan Waktu. Jadi pertama – tama kita hitung dulu Total Penjualan Product df = pd.read_excel(io='/content/drive/MyDrive/Dataset/UAS/Online Retail.xlsx', sheet_name='Online Retail')6 Selanjutnya Filter dan Hitung data tersebut berdasarkan Tanggal yang di Group berdasarkan Bulan setiap Penjualan Product df = pd.read_excel(io='/content/drive/MyDrive/Dataset/UAS/Online Retail.xlsx', sheet_name='Online Retail')7 Lalu liat Sebaran dari Penjualan Product tersebut ke dalam Grafik df = pd.read_excel(io='/content/drive/MyDrive/Dataset/UAS/Online Retail.xlsx', sheet_name='Online Retail')8 Time-series Repeat Customers Sekarang kita akan lihat data Customer yang melakukan Pembelian Berulang tiap Waktunya. Pertama – tama kita Group data tersebut berdasarkan Nomor dan Tanggal Invoice lalu hitung Total Pembelian Product tersebut df = pd.read_excel(io='/content/drive/MyDrive/Dataset/UAS/Online Retail.xlsx', sheet_name='Online Retail')9 Kita lihat Informasi Variabel data yang telah kita Group tersebut df.shape0 Sekarang kita Group lagi data tersebut untuk melihat banyaknya Transaksi Unik tiap Bulannya df.shape1 Kita lihat banyaknya Transaksi Keseluruhan data tersebut berdasarkan Bulan dan Customer df.shape2 Sekarang kita lihat persentasi Pencapaian Product yang dibeli berulang oleh Customer berdasarkan Bulan df.shape3 Lalu lita lihat perbandingan antara data keseluruhan Constumer dengan banyaknya Pembelian Oleh Customer yang sama atau berulang df.shape4 Revenue from Repeat Customers Sekarang menghitung dan menganalisa banyaknya Keuntungan yang didapat dari Pembelian Customer yang berulang. Pertama – tama kita lakukan Grouping terhadap data tersebut df.shape5 Lalu kita hitung persentase setiap Product yang terjual oleh Consumen yang sama df.shape6 Sekarang kita lihat perbandingan antara Keuntungan Seluruh Product dengan Keuntungan yang dihasilkan Oleh Customer berulang df.shape7 Popular Items Over Time Sekarang kita lihat Product yang Populer dari Waktu ke waktu. Pertama – tama kita lakukan Filter terhadap Product kita dari waktu ke waktu df.shape8 Selanjutnya Ranking setiap product yang Populer tersebut berdasarkan Total Penjualan df.shape9 Lalu kita ambil 5 Product Populer untuk sebagai acuan terhadap Penjualan Product tersebut dari waktu ke waktu df.head()0 Kita ubah tampilan Perbandingan tersebut menjadi tabel sehingga lebih mudah untuk melakukan analisa terhadap product tersebut Apa kegunaan info () yang merupakan built in function milik sebuah Pandas Dataframe?info() digunakan untuk menampilkan informasi detail tentang dataframe, seperti jumlah baris data, nama-nama kolom berserta jumlah data dan tipe datanya, dan sebagainya.
3 function apa yang digunakan untuk melihat jumlah baris dan kolom dari suatu data frame?Fungsi count() akan menampilkan nama kolom dan jumlah baris/record. Seperti yang ditampilkan, semua kolom memiliki jumlah record yang sama, yaitu 34. Ini juga berarti bahwa tidak ada nilai null di semua kolom.
Apa yang dimaksud dengan data frame?Dataframe merupakan tabel atau data tabular dengan array dua dimensi yaitu baris dan kolom. Struktur data ini merupakan cara paling standar untuk menyimpan data. Setiap kolom pada dataframe merupakan objek dari Series, dan baris terdiri dari elemen yang ada pada Series.
Apa itu Pandas pada python?Nah dalam hal ini Library Pandas berarti sebuah library open source yang ada pada bahasa pemrograman Python yang sering digunakan untuk memproses data, mulai pembersihan data, manipulasi data, hingga melakukan analisis data.
|