Koefisien korelasi mengukur hubungan antara variabel atau fitur dari kumpulan data. Statistik ini sangat penting untuk sains dan teknologi, dan Python memiliki alat hebat yang dapat Anda gunakan untuk menghitungnya. Metode korelasi SciPy, NumPy, dan Panda cepat, komprehensif, dan terdokumentasi dengan baik Show
Dalam tutorial ini, Anda akan belajar
Anda akan mulai dengan penjelasan tentang korelasi, kemudian melihat tiga contoh pengantar singkat, dan akhirnya mempelajari detail korelasi NumPy, SciPy, dan Pandas Bonus Gratis. yang mengarahkan Anda ke tutorial, video, dan buku terbaik untuk meningkatkan keterampilan NumPy Anda KorelasiStatistik dan ilmu data sering mengkhawatirkan hubungan antara dua atau lebih variabel (atau fitur) dari kumpulan data. Setiap titik data dalam kumpulan data adalah observasi, dan fiturnya adalah properti atau atribut dari observasi tersebut Setiap kumpulan data yang Anda gunakan menggunakan variabel dan pengamatan. Misalnya, Anda mungkin tertarik untuk memahami yang berikut ini
Pada contoh di atas, tinggi badan, ketepatan menembak, pengalaman bertahun-tahun, gaji, kepadatan penduduk, dan produk domestik bruto adalah fitur atau variabelnya. Data yang terkait dengan setiap pemain, karyawan, dan setiap negara adalah hasil observasi Ketika data direpresentasikan dalam bentuk tabel, baris dari tabel tersebut biasanya adalah observasi, sedangkan kolom adalah fiturnya. Lihatlah tabel karyawan ini NamaTahun PengalamanGaji TahunanAnn30120,000Rob21105,000Tom1990,000Ivy1082,000 Dalam tabel ini, setiap baris mewakili satu observasi, atau data tentang satu karyawan (Ann, Rob, Tom, atau Ivy). Setiap kolom menampilkan satu properti atau fitur (nama, pengalaman, atau gaji) untuk semua karyawan Jika Anda menganalisis dua fitur dari kumpulan data, Anda akan menemukan beberapa jenis korelasi antara kedua fitur tersebut. Pertimbangkan angka-angka berikut Masing-masing plot ini menunjukkan salah satu dari tiga bentuk korelasi yang berbeda
Gambar berikutnya mewakili data dari tabel karyawan di atas Korelasi antara pengalaman dan gaji adalah positif karena pengalaman yang lebih tinggi sesuai dengan gaji yang lebih besar dan sebaliknya Catatan. Saat Anda menganalisis korelasi, Anda harus selalu ingat bahwa korelasi tidak menunjukkan sebab-akibat. Ini mengukur kekuatan hubungan antara fitur-fitur dari kumpulan data. Terkadang, asosiasi tersebut disebabkan oleh faktor yang sama pada beberapa fitur yang menarik Korelasi terkait erat dengan kuantitas statistik lainnya seperti rata-rata, standar deviasi, varians, dan kovarians. Jika Anda ingin mempelajari lebih lanjut tentang kuantitas ini dan cara menghitungnya dengan Python, lihat Statistik Deskriptif dengan Python Ada beberapa statistik yang dapat Anda gunakan untuk menghitung korelasi. Dalam tutorial ini, Anda akan belajar tentang tiga koefisien korelasi
Koefisien Pearson mengukur korelasi linier, sedangkan koefisien Spearman dan Kendall membandingkan peringkat data. Ada beberapa fungsi dan metode korelasi NumPy, SciPy, dan Pandas yang dapat Anda gunakan untuk menghitung koefisien ini. Anda juga dapat menggunakan Matplotlib untuk mengilustrasikan hasilnya dengan mudah Hilangkan iklanContoh. Perhitungan Korelasi NumPyNumPy memiliki banyak rutinitas statistik, termasuk 6, yang mengembalikan matriks koefisien korelasi Pearson. Anda bisa mulai dengan mengimpor NumPy dan menentukan dua array NumPy. Ini adalah instance dari kelas 7. Panggil mereka _8 dan 9>>> _Di sini, Anda menggunakan 0 untuk membuat larik 8 bilangan bulat antara 10 (inklusif) dan 20 (eksklusif). Kemudian Anda menggunakan _2 untuk membuat larik kedua 9 yang berisi bilangan bulat arbitrerSetelah Anda memiliki dua larik dengan panjang yang sama, Anda dapat memanggil 6 dengan kedua larik sebagai argumen>>> _ 5 mengembalikan matriks korelasi, yang merupakan larik dua dimensi dengan koefisien korelasi. Ini adalah versi sederhana dari matriks korelasi yang baru saja Anda buat
Nilai pada diagonal utama matriks korelasi (kiri atas dan kanan bawah) sama dengan 1. Nilai kiri atas sesuai dengan koefisien korelasi untuk 8 dan 8, sedangkan nilai kanan bawah adalah koefisien korelasi untuk 9 dan 9. Mereka selalu sama dengan 1Namun, yang biasanya Anda butuhkan adalah nilai matriks korelasi kiri bawah dan kanan atas. Nilai-nilai ini sama dan keduanya mewakili koefisien korelasi Pearson untuk 8 dan 9. Dalam hal ini, kira-kira 0. 76Gambar ini menunjukkan poin data dan koefisien korelasi untuk contoh di atas Kotak merah adalah titik data. Seperti yang Anda lihat, gambar tersebut juga menunjukkan nilai dari ketiga koefisien korelasi Contoh. Perhitungan Korelasi SciPySciPy juga memiliki banyak rutinitas statistik yang terkandung dalam 2. Anda dapat menggunakan metode berikut untuk menghitung tiga koefisien korelasi yang Anda lihat sebelumnya
Inilah cara Anda menggunakan fungsi-fungsi ini dengan Python >>> _Perhatikan bahwa fungsi ini mengembalikan objek yang berisi dua nilai
Anda menggunakan nilai p dalam metode statistik saat menguji hipotesis. Nilai-p adalah ukuran penting yang membutuhkan pengetahuan mendalam tentang probabilitas dan statistik untuk menafsirkannya. Untuk mempelajarinya lebih lanjut, Anda dapat membaca tentang dasar-dasarnya atau melihat penjelasan data scientist tentang nilai-p Anda dapat mengekstrak nilai-p dan koefisien korelasi dengan indeksnya, sebagai item tupel >>> ________0______ Anda juga dapat menggunakan notasi titik untuk koefisien Spearman dan Kendall >>> _Notasi titik lebih panjang, tetapi juga lebih mudah dibaca dan lebih jelas Jika Anda ingin mendapatkan koefisien korelasi Pearson dan nilai-p secara bersamaan, maka Anda dapat membongkar nilai pengembaliannya >>> _Pendekatan ini mengeksploitasi pembongkaran Python dan fakta bahwa 3 mengembalikan tuple dengan dua statistik ini. Anda juga dapat menggunakan teknik ini dengan _4 dan 5, seperti yang akan Anda lihat nantiHilangkan iklanContoh. Perhitungan Korelasi PandaPanda, dalam beberapa kasus, lebih nyaman daripada NumPy dan SciPy untuk menghitung statistik. Ini menawarkan metode statistik untuk dan contoh. Misalnya, diberikan dua _9 objek dengan jumlah item yang sama, Anda dapat memanggil 2 di salah satunya dengan yang lain sebagai argumen pertama>>> ________31______ Di sini, Anda menggunakan _2 untuk menghitung ketiga koefisien korelasi. Anda menentukan statistik yang diinginkan dengan parameter 4, yang dapat mengambil salah satu dari beberapa nilai
Callable dapat berupa fungsi, metode, atau yang menerima dua array satu dimensi dan mengembalikan angka floating-point Korelasi LinierKorelasi linier mengukur kedekatan hubungan matematis antara variabel atau fitur kumpulan data dengan fungsi linier. Jika hubungan antara dua fitur lebih dekat ke beberapa fungsi linier, maka korelasi liniernya lebih kuat dan nilai absolut dari koefisien korelasinya lebih tinggi Koefisien Korelasi PearsonPertimbangkan kumpulan data dengan dua fitur. x dan y. Setiap fitur memiliki n nilai, jadi x dan y adalah n-tupel. Katakan bahwa nilai pertama x₁ dari x sesuai dengan nilai pertama y₁ dari y, nilai kedua x₂ dari x ke nilai kedua y₂ dari y, dan seterusnya. Maka, ada n pasang nilai yang bersesuaian. (x₁, y₁), (x₂, y₂), dan seterusnya. Masing-masing pasangan x-y ini mewakili satu pengamatan Koefisien korelasi Pearson (momen-produk) adalah ukuran hubungan linear antara dua fitur. Ini adalah rasio kovarians x dan y dengan perkalian standar deviasinya. Ini sering dilambangkan dengan huruf r dan disebut r Pearson. Anda dapat menyatakan nilai ini secara matematis dengan persamaan ini r = Σᵢ((xᵢ − mean(x))(yᵢ − mean(y))) (√Σᵢ(xᵢ − mean(x))² √Σᵢ(yᵢ − mean(y))²)⁻¹ Di sini, saya mengambil nilai 1, 2, …, n. X dan y dilambangkan dengan mean(x) dan mean(y). Rumus ini menunjukkan bahwa jika nilai x yang lebih besar cenderung sesuai dengan nilai y yang lebih besar dan sebaliknya, maka r positif. Di sisi lain, jika nilai x yang lebih besar sebagian besar diasosiasikan dengan nilai y yang lebih kecil dan sebaliknya, maka r negatif Berikut adalah beberapa fakta penting tentang koefisien korelasi Pearson
Fakta di atas dapat dirangkum dalam tabel berikut Nilai r Pearson Korelasi Antara x dan ye sama dengan 1 hubungan linear positif sempurna lebih besar dari 0 korelasi positif sama dengan 0 tidak ada hubungan linear kurang dari 0 korelasi negatif sama dengan -1 hubungan linear negatif sempurna Singkatnya, nilai absolut r yang lebih besar menunjukkan korelasi yang lebih kuat, lebih dekat ke fungsi linier. Nilai absolut r yang lebih kecil menunjukkan korelasi yang lebih lemah Regresi linier. Implementasi SainsRegresi linier adalah proses menemukan fungsi linier yang sedekat mungkin dengan hubungan sebenarnya antar fitur. Dengan kata lain, Anda menentukan fungsi linier yang paling menggambarkan hubungan antara fitur. Fungsi linear ini disebut juga dengan Anda dapat menerapkan regresi linier dengan SciPy. Anda akan mendapatkan fungsi linier yang paling mendekati hubungan antara dua larik, serta koefisien korelasi Pearson. Untuk memulai, pertama-tama Anda harus mengimpor pustaka dan menyiapkan beberapa data untuk dikerjakan >>> _Di sini, Anda mengimpor 9 dan 2 dan menentukan variabel 8 dan 9Anda dapat menggunakan _3 untuk melakukan regresi linier untuk dua larik dengan panjang yang sama. Anda harus menyediakan array sebagai argumen dan mendapatkan hasilnya dengan menggunakan notasi titik>>> _Itu dia. Anda telah menyelesaikan regresi linier dan mendapatkan hasil berikut
Anda akan mempelajari cara memvisualisasikan hasil ini di bagian selanjutnya Anda juga dapat memberikan argumen tunggal untuk 8, tetapi harus berupa larik dua dimensi dengan satu dimensi dengan panjang dua>>> 0Hasilnya persis sama dengan contoh sebelumnya karena 9 berisi data yang sama dengan 8 dan 9 bersama-sama. 8 mengambil baris pertama dari 9 sebagai salah satu fitur dan baris kedua sebagai fitur lainnyaCatatan. Pada contoh di atas, 3 menganggap baris sebagai fitur dan kolom sebagai observasi. Itu karena ada dua barisPraktik biasa dalam pembelajaran mesin adalah kebalikannya. baris adalah pengamatan dan kolom adalah fitur. Banyak perpustakaan pembelajaran mesin, seperti Pandas, Scikit-Learn, Keras, dan lainnya, mengikuti konvensi ini Anda harus berhati-hati untuk mencatat bagaimana pengamatan dan fitur ditunjukkan setiap kali Anda menganalisis korelasi dalam kumpulan data 8 akan mengembalikan hasil yang sama jika Anda memberikan transpos 9, atau larik NumPy dengan 10 baris dan dua kolom. Di NumPy, Anda dapat mengubah urutan matriks dengan banyak cara
Inilah cara Anda dapat mengubah urutan 9>>> 1Sekarang setelah Anda mengetahui cara mendapatkan transpose, Anda tidak dapat meneruskannya ke ________ 38 ______ 8. Kolom pertama akan menjadi salah satu fitur dan kolom kedua fitur lainnya >>> 2Di sini, Anda menggunakan _9 untuk mendapatkan transpose dari 9. 8 bekerja dengan cara yang sama dengan 9 dan transposnya. Itu mengekstrak fitur dengan memisahkan array sepanjang dimensi dengan panjang duaAnda juga harus berhati-hati untuk mencatat apakah kumpulan data Anda berisi nilai yang hilang atau tidak. Dalam ilmu data dan pembelajaran mesin, Anda akan sering menemukan beberapa data yang hilang atau rusak. Cara biasa untuk merepresentasikannya dengan Python, NumPy, SciPy, dan Pandas adalah dengan menggunakan nilai NaN atau Not a Number. Tetapi jika data Anda berisi _06 nilai, maka Anda tidak akan mendapatkan hasil yang berguna dengan 8>>> 3Dalam hal ini, objek hasil Anda mengembalikan semua 06 nilai. Dalam Python, _06 adalah nilai floating-point khusus yang bisa Anda dapatkan dengan menggunakan salah satu dari berikut iniAnda juga dapat memeriksa apakah suatu variabel sesuai dengan 06 dengan atau 15Hilangkan iklanKorelasi Pearson. Implementasi NumPy dan SciPyAnda telah melihat bagaimana mendapatkan koefisien korelasi Pearson dengan 5 dan 3>>> 4Perhatikan bahwa jika Anda memberikan larik dengan nilai _06 ke 3, Anda akan mendapatkanAda beberapa detail tambahan yang perlu dipertimbangkan. Pertama, ingat bahwa _6 dapat mengambil dua array NumPy sebagai argumen. Sebagai gantinya, Anda bisa melewatkan satu larik dua dimensi dengan nilai yang sama dengan argumen>>> 5Hasilnya sama dalam contoh ini dan sebelumnya. Sekali lagi, baris pertama dari 9 mewakili satu fitur, sedangkan baris kedua mewakili fitur lainnyaJika Anda ingin mendapatkan koefisien korelasi untuk tiga fitur, maka Anda cukup memberikan array dua dimensi numerik dengan tiga baris sebagai argumennya >>> 6Anda akan mendapatkan matriks korelasi lagi, tetapi yang ini akan lebih besar dari yang sebelumnya _7Ini karena _5 menganggap setiap baris 24 sebagai satu fitur. Nilai _25 adalah koefisien korelasi untuk dua fitur pertama dari 24. Ini sama dengan koefisien untuk _8 dan 9 pada contoh sebelumnya. _29 mewakili r Pearson untuk fitur pertama dan ketiga, sedangkan 30 adalah r Pearson untuk dua fitur terakhirBerikut adalah contoh menarik tentang apa yang terjadi jika Anda mengirimkan 06 data ke 5>>> 8Dalam contoh ini, dua baris pertama (atau fitur) dari 33 baik-baik saja, tetapi baris ketiga 34 berisi nilai 06. Segala sesuatu yang tidak termasuk fitur dengan 06 dihitung dengan baik. Namun, hasil yang bergantung pada baris terakhir adalah 06Secara default, _38 menganggap baris sebagai fitur dan kolom sebagai observasi. Jika Anda menginginkan perilaku sebaliknya, yang banyak digunakan dalam pembelajaran mesin, maka gunakan argumen 39>>> 9Array ini identik dengan yang Anda lihat sebelumnya. Di sini, Anda menerapkan konvensi yang berbeda, tetapi hasilnya sama Korelasi Pearson. Implementasi PandaSejauh ini, Anda telah menggunakan metode objek _9 dan 0 untuk menghitung koefisien korelasi. Mari jelajahi metode ini lebih detail. Pertama, Anda perlu mengimpor Panda dan membuat beberapa contoh 9 dan 0>>> 0Anda sekarang memiliki tiga objek _9 yang disebut 8, 9, dan 47. Anda juga memiliki dua objek 0, 9 dan 24Catatan. Saat Anda bekerja dengan 0 instance, Anda harus menyadari bahwa baris adalah observasi dan kolom adalah fitur. Ini konsisten dengan praktik biasa dalam pembelajaran mesinAnda telah mempelajari cara menggunakan _2 dengan objek 9 untuk mendapatkan koefisien korelasi Pearson>>> 1Di sini, Anda memanggil _2 pada satu objek dan memberikan yang lain sebagai argumen pertamaJika Anda memberikan nilai _06, maka 2 akan tetap berfungsi, tetapi akan mengecualikan pengamatan yang berisi nilai 06>>> 2Anda mendapatkan nilai koefisien korelasi yang sama dalam dua contoh ini. Itu karena 2 mengabaikan pasangan nilai ( 59, 60) yang memiliki nilai yang hilangAnda juga dapat menggunakan _2 dengan 0 objek. Anda dapat menggunakannya untuk mendapatkan matriks korelasi untuk kolom mereka>>> 3Matriks korelasi yang dihasilkan adalah contoh baru dari 0 dan memegang koefisien korelasi untuk kolom 64 dan 65. Hasil berlabel seperti itu biasanya sangat mudah digunakan karena Anda dapat mengaksesnya dengan label atau indeks posisi bilangan bulatnya>>> 4Contoh ini menunjukkan dua cara mengakses nilai
Anda dapat menerapkan _2 dengan cara yang sama dengan objek 0 yang berisi tiga kolom atau lebih>>> 5Anda akan mendapatkan matriks korelasi dengan koefisien korelasi berikut
Metode lain yang berguna adalah 79, yang memungkinkan Anda menghitung koefisien korelasi antara baris atau kolom dari satu objek DataFrame dan objek Seri atau DataFrame lainnya yang diteruskan sebagai argumen pertama>>> 6Dalam hal ini, hasilnya adalah objek _9 baru dengan koefisien korelasi untuk kolom 64 dan nilai 47, serta koefisien untuk 65 dan 47 _79 memiliki parameter opsional 86 yang menentukan apakah kolom atau baris mewakili fitur. Nilai default _86 adalah 0, dan juga default untuk kolom yang mewakili fitur. Ada juga parameter _88, yang menunjukkan apa yang harus dilakukan dengan nilai yang hilangBaik 2 dan 79 memiliki parameter opsional 4 untuk menentukan koefisien korelasi yang ingin Anda hitung. Koefisien korelasi Pearson dikembalikan secara default, jadi Anda tidak perlu menyediakannya dalam kasus iniHilangkan iklanKorelasi PeringkatKorelasi peringkat membandingkan peringkat atau urutan data yang terkait dengan dua variabel atau fitur dataset. Jika urutannya mirip, maka korelasinya kuat, positif, dan tinggi. Namun, jika urutannya hampir terbalik, maka korelasinya kuat, negatif, dan rendah. Dengan kata lain, korelasi peringkat hanya berkaitan dengan urutan nilai, bukan dengan nilai tertentu dari kumpulan data Untuk mengilustrasikan perbedaan antara korelasi linier dan peringkat, perhatikan gambar berikut Plot kiri memiliki hubungan linier positif sempurna antara x dan y, jadi r = 1. Plot pusat menunjukkan korelasi positif dan yang kanan menunjukkan korelasi negatif. Namun, keduanya bukan fungsi linier, jadi r berbeda dari −1 atau 1 Saat Anda hanya melihat urutan atau peringkat, ketiga hubungan itu sempurna. Plot kiri dan tengah menunjukkan pengamatan di mana nilai x yang lebih besar selalu sesuai dengan nilai y yang lebih besar. Ini adalah korelasi peringkat positif sempurna. Plot kanan menggambarkan kasus sebaliknya, yaitu korelasi peringkat negatif sempurna Koefisien Korelasi SpearmanKoefisien korelasi Spearman antara dua fitur adalah koefisien korelasi Pearson antara nilai peringkatnya. Ini dihitung dengan cara yang sama seperti koefisien korelasi Pearson tetapi memperhitungkan peringkatnya, bukan nilainya. Ini sering dilambangkan dengan huruf Yunani rho (ρ) dan disebut rho Spearman Katakanlah Anda memiliki dua n-tupel, x dan y, di mana 92 adalah pengamatan sebagai pasangan nilai yang sesuai. Anda dapat menghitung koefisien korelasi Spearman ρ dengan cara yang sama seperti koefisien Pearson. Anda akan menggunakan peringkat alih-alih nilai sebenarnya dari x dan yBerikut adalah beberapa fakta penting tentang koefisien korelasi Spearman
Anda dapat menghitung rho Spearman dengan Python dengan cara yang sangat mirip dengan rho Pearson Koefisien Korelasi KendallMari kita mulai lagi dengan mempertimbangkan dua n-tupel, x dan y. Setiap pasangan x-y _92 adalah pengamatan tunggal. Sepasang pengamatan (xᵢ, yᵢ) dan (xⱼ, yⱼ), di mana i < j, akan menjadi salah satu dari tiga hal
Koefisien korelasi Kendall membandingkan jumlah pasangan data yang konkordan dan sumbang. Koefisien ini didasarkan pada perbedaan jumlah pasangan konkordan dan diskordan relatif terhadap jumlah pasangan x-y. Ini sering dilambangkan dengan huruf Yunani tau (τ) dan disebut tau Kendall Menurut 2 dokumen resmi, koefisien korelasi Kendall dihitung sebagai τ = (n⁺ − n⁻) / √((n⁺ + n⁻ + nˣ)(n⁺ + n⁻ + nʸ)), di mana
Jika dasi terjadi di kedua x dan y, maka itu tidak termasuk dalam nˣ atau nʸ Halaman Wikipedia tentang koefisien korelasi peringkat Kendall memberikan ungkapan berikut. τ = (2 / (n(n − 1))) Σᵢⱼ(tanda(xᵢ − xⱼ) tanda(yᵢ − yⱼ)) untuk i < j, dimana i = 1, 2, …, n − 1 dan j = 2 . Fungsi tanda sign(z) adalah −1 jika z < 0, 0 jika z = 0, dan 1 jika z > 0. n(n − 1) / 2 adalah jumlah total pasangan x-y Beberapa fakta penting tentang koefisien korelasi Kendall adalah sebagai berikut
Anda dapat menghitung tau Kendall dengan Python mirip dengan cara Anda menghitung r Pearson Hilangkan iklanPangkat. Implementasi SainsAnda dapat menggunakan _2 untuk menentukan peringkat setiap nilai dalam larik. Pertama, Anda akan mengimpor pustaka dan membuat larik NumPy>>> ________12______7 Sekarang setelah Anda menyiapkan data, Anda dapat menentukan peringkat setiap nilai dalam larik NumPy dengan 96>>> ________12______8 Larik 8 dan 47 monoton, jadi peringkatnya juga monoton. Nilai terkecil di 9 adalah 00 dan sesuai dengan peringkat 00. Terkecil kedua adalah 02, yang sesuai dengan peringkat 02. Nilai terbesar adalah _04, yang sesuai dengan peringkat terbesar 05 karena ada 10 item dalam larik 06 memiliki parameter opsional 4. Ini memberi tahu Python apa yang harus dilakukan jika ada ikatan dalam array (jika dua atau lebih nilai sama). Secara default, ini memberi mereka peringkat rata-rata>>> 9Ada dua elemen dengan nilai _02 dan mereka memiliki peringkat 09 dan 10. Nilai _11 memiliki peringkat 12 dan nilai 13 memiliki peringkat 14. Kemudian, kedua elemen dengan nilai _02 akan mendapatkan peringkat yang sama 16 06 memperlakukan 06 nilai seolah-olah besar>>> 0Dalam hal ini, nilai _59 sesuai dengan peringkat terbesar 14. Anda juga bisa mendapatkan peringkat dengan 21>>> 1 22 mengembalikan indeks yang akan dimiliki item array dalam array yang diurutkan. Indeks ini berbasis nol, jadi Anda harus menambahkan 00 ke semuanyaKorelasi Peringkat. Implementasi NumPy dan SciPyAnda dapat menghitung koefisien korelasi Spearman dengan 24>>> 2 _4 mengembalikan objek yang berisi nilai koefisien korelasi Spearman dan nilai-p. Seperti yang Anda lihat, Anda dapat mengakses nilai tertentu dengan dua cara
Anda bisa mendapatkan hasil yang sama jika Anda memberikan larik dua dimensi 9 yang berisi data yang sama dengan 8 dan 9 hingga 4>>> 3Baris pertama dari _9 adalah salah satu fitur, sedangkan baris kedua adalah fitur lainnya. Anda dapat memodifikasi ini. Parameter opsional 86 menentukan apakah kolom ( 35) atau baris ( 36) mewakili fitur. Perilaku default adalah bahwa baris adalah observasi dan kolom adalah fiturParameter opsional lainnya 37 menentukan cara menangani nilai 06. Ini dapat mengambil salah satu dari tiga nilai
Jika Anda menyediakan array dua dimensi dengan lebih dari dua fitur, maka Anda akan mendapatkan matriks korelasi dan matriks nilai-p >>> 4Nilai _47 pada matriks korelasi menunjukkan bahwa fitur pertama dan ketiga memiliki korelasi peringkat negatif sempurna, yaitu nilai yang lebih besar pada baris pertama selalu sesuai dengan nilai yang lebih kecil pada baris ketiga.Anda dapat memperoleh koefisien korelasi Kendall dengan 5>>> 5 _5 bekerja seperti 4. Dibutuhkan dua array satu dimensi, memiliki parameter opsional 37, dan mengembalikan objek dengan nilai koefisien korelasi dan nilai-pNamun, jika Anda hanya menyediakan satu larik dua dimensi sebagai argumen, maka 5 akan memunculkan. Jika Anda melewatkan dua larik multidimensi dengan bentuk yang sama, larik tersebut akan diratakan sebelum perhitunganHilangkan iklanKorelasi Peringkat. Implementasi PandaAnda dapat menghitung koefisien korelasi Spearman dan Kendall dengan Panda. Sama seperti sebelumnya, Anda mulai dengan mengimpor 54 dan membuat beberapa 9 dan 0 instance>>> 6Sekarang setelah Anda memiliki objek Pandas ini, Anda dapat menggunakan 2 dan 79 seperti yang Anda lakukan saat menghitung koefisien korelasi Pearson. Anda hanya perlu menentukan koefisien korelasi yang diinginkan dengan parameter opsional 4, yang defaultnya adalah 5Untuk menghitung rho Spearman, berikan 61>>> 7Jika Anda menginginkan tau Kendall, gunakan 62>>> ________23______8 Seperti yang Anda lihat, tidak seperti SciPy, Anda dapat menggunakan struktur data dua dimensi tunggal (kerangka data) Visualisasi KorelasiVisualisasi data sangat penting dalam statistik dan ilmu data. Ini dapat membantu Anda lebih memahami data Anda dan memberi Anda wawasan yang lebih baik tentang hubungan antar fitur. Di bagian ini, Anda akan mempelajari cara merepresentasikan secara visual hubungan antara dua fitur dengan plot x-y. Anda juga akan menggunakan peta panas untuk memvisualisasikan matriks korelasi Anda akan mempelajari cara menyiapkan data dan mendapatkan representasi visual tertentu, tetapi Anda tidak akan membahas banyak penjelasan lainnya. Untuk mempelajari lebih lanjut tentang Matplotlib secara mendalam, lihat Python Plotting With Matplotlib (Panduan). Anda juga dapat melihat dokumentasi resmi dan Anatomi Matplotlib Untuk memulai, pertama-tama impor ________12______63 >>> 9Di sini, Anda menggunakan _64 untuk mengatur gaya plot. Jangan ragu untuk melewati baris ini jika Anda mauAnda akan menggunakan array 8, 9, 47, dan 24 dari bagian sebelumnya. Anda dapat membuatnya lagi untuk mengurangi pengguliran>>> 0Sekarang setelah Anda mendapatkan data, Anda siap merencanakan Plot X-Y Dengan Garis RegresiPertama, Anda akan melihat cara membuat plot x-y dengan garis regresi, persamaannya, dan koefisien korelasi Pearson. Anda bisa mendapatkan kemiringan dan perpotongan garis regresi, serta koefisien korelasi, dengan 8>>> 1Sekarang Anda memiliki semua nilai yang Anda butuhkan. Anda juga bisa mendapatkan string dengan persamaan garis regresi dan nilai koefisien korelasi. f-string sangat nyaman untuk tujuan ini >>> 2Sekarang, buat plot x-y dengan ________12______70 _3Output Anda akan terlihat seperti ini Kotak merah mewakili pengamatan, sedangkan garis biru adalah garis regresi. Persamaannya tercantum dalam legenda, bersama dengan koefisien korelasinya Hilangkan iklanPeta Panas Matriks KorelasiMatriks korelasi bisa menjadi sangat besar dan membingungkan ketika Anda memiliki banyak fitur. Untungnya, Anda dapat menyajikannya secara visual sebagai peta panas di mana setiap bidang memiliki warna yang sesuai dengan nilainya. Anda memerlukan matriks korelasi >>> 4Akan lebih mudah bagi Anda untuk membulatkan angka dalam matriks korelasi dengan 71, karena angka tersebut akan ditampilkan di peta panasTerakhir, buat peta panas Anda dengan _72 dan matriks korelasi sebagai argumennya 5Output Anda akan terlihat seperti ini Hasilnya adalah tabel dengan koefisien. Sepertinya keluaran Panda dengan latar belakang berwarna. Warna membantu Anda menginterpretasikan output. Dalam contoh ini, warna kuning melambangkan angka 1, hijau melambangkan 0. 76, dan ungu digunakan untuk bilangan negatif KesimpulanAnda sekarang tahu bahwa koefisien korelasi adalah statistik yang mengukur hubungan antara variabel atau fitur kumpulan data. Mereka sangat penting dalam ilmu data dan pembelajaran mesin Anda sekarang dapat menggunakan Python untuk menghitung
Sekarang Anda dapat menggunakan fungsi dan metode korelasi NumPy, SciPy, dan Pandas untuk menghitung statistik ini (dan lainnya) secara efektif, bahkan saat Anda bekerja dengan kumpulan data besar. Anda juga tahu cara memvisualisasikan data, garis regresi, dan matriks korelasi dengan plot dan peta panas Matplotlib Jika Anda memiliki pertanyaan atau komentar, silakan taruh di bagian komentar di bawah ini Tandai sebagai Selesai 🐍 Trik Python 💌 Dapatkan Trik Python singkat & manis yang dikirim ke kotak masuk Anda setiap beberapa hari. Tidak pernah ada spam. Berhenti berlangganan kapan saja. Dikuratori oleh tim Real Python Kirimi Saya Trik Python » Tentang Mirko Stojiljkovic Mirko memiliki Ph. D. di Teknik Mesin dan bekerja sebagai profesor universitas. Ia adalah seorang Pythonista yang menerapkan metode hybrid optimization dan machine learning untuk mendukung pengambilan keputusan di sektor energi » Lebih lanjut tentang MirkoSetiap tutorial di Real Python dibuat oleh tim pengembang sehingga memenuhi standar kualitas tinggi kami. Anggota tim yang mengerjakan tutorial ini adalah Aldren Bryan Geir Arne Jaya Joanna Master Keterampilan Python Dunia Nyata Dengan Akses Tanpa Batas ke Python Nyata Bergabunglah dengan kami dan dapatkan akses ke ribuan tutorial, kursus video langsung, dan komunitas pakar Pythonista Tingkatkan Keterampilan Python Anda » Guru Keterampilan Python Dunia Nyata Bergabunglah dengan kami dan dapatkan akses ke ribuan tutorial, kursus video langsung, dan komunitas ahli Pythonista Tingkatkan Keterampilan Python Anda » Bagaimana menurut anda? Nilai artikel ini Tweet Bagikan Bagikan EmailApa takeaway # 1 Anda atau hal favorit yang Anda pelajari? Kiat Berkomentar. Komentar yang paling berguna adalah yang ditulis dengan tujuan belajar dari atau membantu siswa lain. dan dapatkan jawaban atas pertanyaan umum di portal dukungan kami Bagaimana Anda menemukan korelasi antara dua deret waktu?Korelasi serial atau autokorelasi lag , , dari deret waktu stasioner orde kedua diberikan oleh autokovarians deret yang dinormalisasi oleh perkalian penyebaran. Artinya, ρ k = C k σ 2 .
Bagaimana Anda menemukan korelasi antara dua seri dengan Python?Dengan menggunakan fungsi corr() kita bisa mendapatkan korelasi antara dua kolom dalam kerangka data.
Apa itu salibKorelasi silang adalah cara untuk mengukur tingkat kesamaan antara deret waktu dan versi lag dari deret waktu lain . Jenis korelasi ini berguna untuk dihitung karena dapat memberi tahu kita apakah nilai dari satu deret waktu merupakan prediksi dari nilai deret waktu lainnya di masa mendatang.
Bisakah Anda menggunakan korelasi dengan deret waktu?Korelasi berarti bahwa sepasang deret waktu juga terlihat sebagai dua variabel yang terkait satu sama lain . Hubungan itu bisa jadi salah satunya. kausal. satu variabel adalah hasil dari yang lain. relevan tetapi tidak kausal. kedua variabel tersebut relevan, tetapi tidak kausal. |