Cara menggunakan rgb matrix in python
Pengenalan Statistika dan Package Statistika di PythonSecara definisi, statistika adalah bidang studi yang mempelajari bagaimana mengumpulkan dan menganalisa data. Jika mengambil definisi yang lebih lengkap, maka statistika dapat didefinisikan sebagai ilmu yang mempelajari cara pengumpulan data, menganalisis data untuk mendapatkan kesimpulan informasi sampai dapat dijadikan dasar pembuatan keputusan atau kebijakan. Di dalam mempelajari statistika, akan mempelajari bagaimana caranya mengorganisir dan membuat kesimpulan dari data. Kegiatan mengorganisir dan membuat kesimpulan dari data disebut sebagai statistika deskriptif. Ada banyak cara bagaimana kita menyimpulkan suatu data, misalnya dengan membuat grafik atau dengan angka, misalnya mengambil suatu rata-rata dari data. Selanjutnya ketika harus mengambil keputusan dari data yang sudah diolah, kemudian akan menggunakan statistika inferensial sehingga dapat mengambil keputusan yang benar dari data yang juga sudah diolah dengan benar. Beberapa Konsep Dasar StatistikaPopulasi, sampel dan observasi/pengamatanObservasi: Adalah suatu unit yang diukur dengan data. Beberapa contoh diantaranya adalah:
Populasi: Adalah koleksi dari keseluruhan observasi. Beberapa contoh diantaranya adalah:
Sampel: Adalah sub koleksi dari populasi. Beberapa contoh diantaranya adalah:
Statistik dan ParameterSetiap kita mengkaji suatu permasalahan, biasanya kita menggunakan beberapa individu dari grup-grup tertentu. Misalnya, ketika kita ingin mengetahui prestasi siswa di suatu sekolah untuk mata pelajaran matematika, kita bisa saja menghitung semua nilai siswa lalu ambil nilai rata-ratanya. Atau dalam konteks pemasaran, kita ingin tahu untuk setiap segmen pasar, berapa besar pendapata yang bisa kita peroleh dari tiap segmen. Namun ada kalanya kita hanya butuh sebagian kecil dari grup dikarenakan beberapa keterbatasan seperti biaya pengambilan data yang terlalu mahal atau bisa karena membutuhkan waktu analisis yang singkat karena harus membuat keputusan saat itu juga. Jika kasus seperti ini biasanya kita hanya mengambil sebagian kecil dari grup. Misalnya kita hanya mengambil 10 siswa dari tiap kelas untuk menghitung prestasi siswa atau kita hanya mengambil 20% dari tiap segmen pasar kita. Hal ini yang memunculkan dua istilah untuk kedua kasus ini: parameter dan statistik Parameter adalah penjelasan atas populasi sedangkan statistik hanya menjelaskan sampel dari populasi. Untuk kasus terkait segmentasi pasar, mengukur revenue dari setiap orang di dalam segmen adalah parameter sedangkan jika kita hanya mengambil 20% dari tiap segmen hal ini dikatakan sebagai statistik. Data Kualitatif dan Data KuantitatifTerdapat dua kategori data yang terdapat pada populasi atau sampel, yaitu data kualitatif dan data kuantitatif. Data kualitatif adalah data yang diperoleh dari mengkategorikan atau menjelaskan suatu atribut dari populasi atau sampel. Biasanya disebut juga sebagai data kategorik. Beberapa contoh data kualitatif misalnya warna rambut, golongan darah, nama jalan, nama produk yang digunakan dan lain sebagainya.Biasanya data kualitatif selalu disebutkan dalam bentuk kata ataupun simbol. Data kuantitatif adalah data yang diperoleh dari ukuran atau hitungan di suatu populasi atau sampel. Data kuantitatif selalu berbentuk angka. Data seperti gaji, berat badan, populasi di suatu negara, dan jumlah pelanggan yang dimiliki suatu e-commerce termasuk data kuantitatif. Data kuantitatif sendiri dapat dibagi menjadi dua yaitu data diskrit dan data kontinu. Data yang diperoleh dari hasil perhitungan adalah data diskrit: jumlah pelanggan, jumlah produk, dan jumlah telefon yang diterima oleh customer service per harinya adalah beberapa contoh data diskrit. Data yang diperoleh dari hasil perhitungan namun dapat memuat rasio, desimal, atau bilangan irasional adalah data kontinu: berat badan, tinggi badan, waktu, dan gaji adalah beberapa contoh data kontinu. Tipe StatistikaStatistika deskriptif digunakan untuk melakukan eksplorasi pada data, biasanya menggunakan teknik visualisasi data sebagai alat bantu untuk memahami bagaimana bentuk distribusi dan hubungan antara satu titik data dengan titik data lainnya. Statistika inferensial digunakan untuk melakukan pemgambilan keputusan atas suatu simpulan terkait dengan data yang sedang dianalisa. Statistika inferensi memungkinkan kita mengambil kesimpulan dari suatu populasi dengan menggunakan sampel yang diambil dari populasi tersebut. Skala Pengukuran — Data KategorikalSkala nominal adalah skala yang digunakan untuk mengkategorikan suatu objek pengamatan dengan objek pengamatan lainnya. Sebagai contoh yang termasuk skala nominal seperti gender, kategori barang, ras, status pernikahan dan lain sebagainya Skala ordinal adalah skala yang digunakan untuk mengurutkan suatu objek pengamatan dimana suatu titik pengamatan memiliki nilai yang lebih rendah atau tinggi dibanding nilai lainnya. Sebagai contoh yang termasuk skala nominal adalah kelas, jabatan, tingkat pendidikan, dan sebagainya. Skala Pengukuran — Data NumerikalSkala interval adalah skala yang digunakan untuk tidak hanya untuk mengklasifikasikan maupun memberikan tingkatan pada suatu titik pengamatan, namun kita dapat mengukur seberapa besar nilai antara suatu titik pengamatan dengan titik pengamatan lainnya. Beberapa contoh yang termasuk skala interval diantaranya adalah suhu tubuh dan jarak. Skala rasio memiliki kemiripan dengan skala interval, perbedaannya terletak pada nilai 0 pada skala rasio. Berbeda dengan skala interval yang tidak memiliki nilai 0 yang tidak pasti. Package Statistika di PythonUntuk melakukan perhitungan statistika, kita dapat menggunakan beberapa package atau library berikut yang tersedia di Python. Diantaranya adalah:
Sebenarnya masih banyak lagi library python untuk pengolahan data statistika, namun untuk materi ini cukup 4 atau 5 library di atas saja yang sering digunakan. Pengenalan Numpy dan PandasKedua library ini, Numpy adalah library yang biasanya digunakan untuk manipulasi array atau vektor. Perhitungan yang melibatkan operasi pada objek berbentuk matriks, vektor atau bahkan multidimensi vektor (misalnya data gambar dengan skema
warna RGB) dapat kita lakukan dengan menggunakan Pandas adalah library yang biasanya digunakan untuk analisa data atau biasa disebut sebagai data wrangling. Biasanya data yang diolah oleh pandas berbentuk tabular atau tabel layaknya spreadsheet di Excel. Pandas menggunakan numpy sebagai back-end sehingga beberapa fungsi atau method dari numpy dapat digunakan di objek pandas. Load LibraryBiasanya pada awal mula sebelum melakukan pengolahan data kita memanggil library yang diinginkan untuk digunakan dalam analisa data, dalam hal ini kita akan memuat # memuat numpy sebagai np Load DatasetPada tahap pertama ketika ingin menganalisa data kita biasanya memuat data yang disimpan di salah satu folder untuk dimuat ke IDE atau interactive notebook seperti Jupyter. Untuk memuat data dalam format # memuat data bernama 'dataset_statistics.csv' dan memasukkan hasilnya ke dalam 'raw_data'raw_data = pd.read_csv("https://storage.googleapis.com/dqlab-dataset/dataset_statistic.csv", sep=';') Inspeksi DataUntuk melihat keseluruhan data cukup memanggil nama variabelnya. print (raw_data) Metode ShapeUntuk melihat dimensi dari data kita dapat menggunakan method # melihat dimensi dari raw_data Melihat KolomUntuk melihat kolom apa saja yang terdapat pada dataset cukup menggunakan method
print(raw_data.columns) Metode IsnaAda berapa banyak data yang hilang dari dataset? untuk melihat data dari dataset bisa menggunakan method Nilai kolom akan bernilai Untuk menghitung jumlah data yang hilang dari dataset, bisa menggabungkan method print (raw_data.isna()) Metode DescribeUntuk bisa melihat ringkasan dari data misalnya rerata, jumlah, nilai maksimum-minimum dan ukuran lainnya, kita dapat menggunakan method raw_data.describe() Selain itu terdapat beberapa fungsi yang umumnya dipakai dalam analisa data, diantaranya adalah: # Mencari nilai maksimum dari tiap kolom Metode SumJumlah dari semua nilai pada kolom dengan method # menghitung jumlah dari semua kolom Manipulasi Dataframe — Memilih Kolom dan BarisTerkadang kita hanya ingin melakukan analisa sebagian kecil dari data atau hanya beberapa kolom saja, untuk itu kita dapat melakukan slice-and-dice pada data yang kita punya. Untuk memilih kolom untuk dianalisa, kita dapat memanggil objek # Memilih kolom 'Pendapatan' saja Metode LocUntuk memilih baris, kita dapat menggunakan # mengambil data dari baris ke-0 sampai baris ke-(10-1) atau baris ke-9 Ukuran Pusat (Measures of Central Tendency)Ukuran pusat (measures of central tendency) adalah statistika deskriptif yang dapat digunakan untuk membantu kita mengidentifikasi kasus-kasus tipikal di dalam sebuah sampel atau populasi. Terdapat beberapa jenis ukuran pusat yang dapat digunakan untuk menganalisa data yaitu mean, median, modus. Rata-rata atau mean adalah salah satu ukuran pusat yang nilainya diperoleh dengan cara menjumlahkan semua nilai titik data yang ada lalu dibagi oleh jumlah data. Secara matematis hal ini dapat dirumuskan sebagai berikut: Dimana:
Kita dapat menghitung nilai rata-rata menggunakan method # mengambil hanya data untuk produk 'A' MedianMedian adalah salah satu ukuran pusat yang nilainya terletak di tengah titik data. Sebagai gambaran, jika kita memiliki titik data bernilai 1, 2, 3, 4, 4, 5, 6 maka median dari sekumpulan titik data tersebut adalah 4. Namun jika kita memiliki titik data bernilai 1, 2, 3, 3 maka media dari sekumpulan titik data tersebut adalah: Kita dapat menemukan nilai median dengan menggunakan method print(raw_data) ModusModus didefinisikan sebagai data yang memiliki frekuensi kemunculan terbanyak/terbesar. Sebagai contoh, jika terdapat titik data seperti berikut: 1, 1, 1, 1, 2, 3, 3, 4 maka modus dari data tersebut adalah 1 karena 1 muncul sebanyak 4 kali, lebih banyak dibanding titik data lainnya. Kita dapat menggunakan method # Melihat jumlah dari masing-masing produk KuantilKuantil adalah nilai-nilai data yang membagi data yang telah diurutkan sebelumnya menjadi beberapa bagian yang sama besar ukurannya. Beberapa ukuran fraktil ini diantaranya adalah:
# mencari median atau 50% dari data menggunakan pandas Agregasi Data dengan method .agg()Ada kalanya kita ingin menghitung sekaligus beberapa ukuran, misalnya menghitung nilai mean sekaligus menghitung nilai median. Kita dapat melakukan kedua hal tersebut dengan menggunakan method
# menghitung rerata dan median 'Pendapatan' dan 'Harga' Ukuran Sebaran (Measures of Dispersion)Ukuran sebaran (measure of dispersion) adalah statistika deskriptif yang digunakan untuk membantu kita memahami sebaran titik data di dalam sebuah sampel ataupun populasi. Terdapat beberapa ukuran sebaran yang biasanya digunakan tergantung pada jenis atau tipe datanya, yaitu: Tipe Data Nominal dan Ordinal
Tipe Data Interval dan Rasio
Proporsi KategoriProporsi kategori adalah ukuran sebaran yang paling sederhana dari ukuran sebaran pada data nomisal dan ordinal. Secara matematis dapat dirumuskan sebagai: # cari proporsi tiap Produk Ukuran Sebaran pada Data Interval dan RasioRentang (range), Rentang adalah jarak antara nilai maksimum dengan nilai minimum. Semakin besar jarang antara nilai maksimum dan minimum semakin besar pula sebaran datanya. Secara matematis dapat dituliskan sebagai berikut: Range=max(X)−min(X) Dengan X adalah sampel atau populasi yang sedang diamati. # Cari nilai rentang dari kolom 'Pendapatan' VariansiVariansi adalah ukuran sebaran pusat yang diperoleh dengan cara menghitung jarak antara tiap titik data pada sampel atau populasi dengan nilai mean. Secara matematis variansi dirumuskan sebagai berikut: Untuk menghitung variansi kita dapat menggunakan method Note: Perhatikan bahwa nilai variansi keduanya berbeda. Hal ini karena secara default pandas menggunakan variansi sampel sedangkan numpy menggunakan variansi populasi. Untuk memperoleh hasil yang sama kita dapat menggunakan parameter # menghitung variansi umur menggunakan method .var() dari pandas Deviasi Baku (Standard Deviation)Deviasi baku adalah ukuran sebaran pusat yang diperoleh dengan cara menarik akar kuadrat dari hasil perhitungan variansi. Hal ini dilakukan karena nilai variansi umumnya memiliki nilai yang lebih besar daripada nilai aslinya sebagai efek dari pengkuadratan dan ini menjadikan variansi sulit untuk diinterpretasikan. Secara matematis deviasi baku dapat dirumuskan sebagi berikut: Kita dapat menghitung deviasi baku menggunakan method # menghitung deviasi baku sampel pendapatan menggunakan method std() dari pandas KorelasiKorelasi adalah salah satu metode statistika yang dapat digunakan untuk mengukur seberapa besar hubungan antara satu variabel dengan variabel lainnya. Sebagai contoh, misalnya mencari hubungan antara tinggi badan dengan berat badan, mencari hubungan antara gender dengan penghasilan dan masih banyak aplikasi penggunaan korelasi. Terdapat beberapa metode yang dapat digunakan untuk menghitung korelasi antara sepasang variabel tergantung tipe dari sepasang variabel tersebut. Diantaranya adalah:
Korelasi PearsonKorelasi Pearson atau sering juga disebut sebagai Pearson’s product moment correlation adalah pengukuran korelasi parametrik yang menghasilkan koefisien korelasi. Koefisien korelasi ini dapat digunakan untuk mengukur kekuatan hubungan atau asosiasi linier antara dua variabel. Artinya jika hubungan kedua variabel tidak linier maka koefisien korelasi Pearson tidak dapat digunakan untuk mengukur kekuatan hubungan antara kedua variabel. Selain itu nilai dari koefisien pearson dapat digunakan untuk mengukur arah dari hubungan tersebut: positif atau negatif. Hubungan antar variabel dikatakan positif jika nilai salah satu variabel naik maka nilai variabel lainnya juga naik. Sebaliknya, hubungan antar variabel dikatakan negatif jika nilai salah satu variabel naik maka nilai variabelnya turun. Gambar berikut dapat menjelaskan maksud dari kekuatan dan arah dari korelasi antar kedua variabel. Sumber Gambar: https://www.mathsisfun.comBeberapa asumsi yang harus dipenuhi untuk menggunakan korelasi Pearson diantaranya adalah:
Secara matematis, korelasi pearson dapat dirumuskan sebagai berikut: Korelasi SpearmanKorelasi Spearman atau sering juga disebut sebagai Spearman’s rank correlation adalah pengukuran korelasi non-parametrik. Artinya kita mencoba mengukur hubungan antara kedua variabel tanpa menghiraukan asumsi seperti distribusi dari kedua variabel dan asumsi lainnya. Secara kriteria memiliki kemiripan dengan korelasi Pearson walau korelasi Spearman bisa digunakan untuk data bertipe ordinal. Perbedaannya hanya terletak pada pengubahan data dalam bentuk ranking sebelum menghitung nilai korelasinya. Secara matematis, korelasi Spearman dapat dihitung menggunakan rumus berikut: Dimana:
Korelasi KendallKorelasi Kendall atau sering juga disebut juga sebagai Kendall’s tank correlation atau korelasi Tau (τ) adalah pengukuran korelasi non-parametrik. Secara matematis, korelasi Kendall dapat dihitung menggunakan rumus berikut: Menghitung Korelasintuk menghitung korelasi antara kedua variabel, kita dapat menggunakan method Perhatikan bahwa hanya variabel bertipe numerik saja yang dihitung nilai korelasinya. Selain itu secara default method # menghitung korelasi dari setiap pasang variabel pada raw_data Interpretasi Nilai Korelasi dan Kaitannya dengan KausalitasPerhatikan nilai korelasi Pearson dari Perhatikan bahwa beberapa pasang variabel memiliki nilai korelasi yang positif maupun negatif. Selain itu terdapat nilai yang sangat kecil hingga mendekati nol, namun ada juga yang cukup besar diatas 0.5, misalnya korelasi antara ‘Jumlah’ dan ‘Pendapatan’. Besar kecilnya suatu nilai korelasi dari sepasang variabel menandakan seberapa kuat hubungan linier antara kedua variabel tersebut. Sebagai acuan untuk mengukur seberapa kuat korelasi sepasang variabel, kita dapat menggunakan ukuran berikut: Berdasarkan kriteria di atas, kita dapat menilai bahwa hubungan antara variabel ‘Total’ dan ‘Jumlah’ hubungannya sedang dan positif (r = 0.636097) sedangkan hubungan antara ‘Pendapatan’ dan ‘Tingkat Kepuasan’ hubungannya lemah dan negatif (r = -0.088339). Namun, perlu diperhatikan bahwa walaupun kita dapat menilai kuat hubungan antara kedua variabel, namun kita tidak bisa menentukan arah dari hubugan tersebut. Sebagai contoh, walaupun antara variabel ‘Total’ dan ‘Jumlah’ memiliki hubungan yang sedang, tidak berarti kita bisa mengetahui apakah kenaikan nilai ‘Total’ berefek positif terhadap ‘Jumlah’ atau sebaliknya. PenutupSelamat! Kamu sudah menyelesaikan materi Statistic using Python for Data Science dengan baik. Pada materi ini, kamu sudah dapat memahami :
Namun, pelajaranmu mengenai Statistik tidak berhenti sampai di sini. Masih ada materi berikutnya yang dapat kamu akses untuk memperdalam ilmu pengetahuanmu. Referensi : DQLab Academy |