Koefisien korelasi mengukur hubungan antara variabel atau fitur dari kumpulan data. Statistik ini sangat penting untuk sains dan teknologi, dan Python memiliki alat hebat yang dapat Anda gunakan untuk menghitungnya. Metode korelasi SciPy, NumPy, dan Panda cepat, komprehensif, dan terdokumentasi dengan baik
Apa itu koefisien korelasi Pearson, Spearman, dan Kendall
Cara menggunakan fungsi korelasi SciPy, NumPy, dan Pandas
Cara memvisualisasikan data, garis regresi, dan matriks korelasi dengan Matplotlib
Anda akan mulai dengan penjelasan tentang korelasi, kemudian melihat tiga contoh pengantar singkat, dan akhirnya mempelajari detail korelasi NumPy, SciPy, dan Pandas
Bonus Gratis. yang mengarahkan Anda ke tutorial, video, dan buku terbaik untuk meningkatkan keterampilan NumPy Anda
Korelasi
Statistik dan ilmu data sering mengkhawatirkan hubungan antara dua atau lebih variabel (atau fitur) dari kumpulan data. Setiap titik data dalam kumpulan data adalah observasi, dan fiturnya adalah properti atau atribut dari observasi tersebut
Setiap kumpulan data yang Anda gunakan menggunakan variabel dan pengamatan. Misalnya, Anda mungkin tertarik untuk memahami yang berikut ini
Bagaimana tinggi badan pemain bola basket berkorelasi dengan akurasi tembakan mereka
Apakah ada hubungan antara pengalaman kerja karyawan dan gaji
Ketergantungan matematis apa yang ada antara kepadatan populasi dan produk domestik bruto dari berbagai negara
Pada contoh di atas, tinggi badan, ketepatan menembak, pengalaman bertahun-tahun, gaji, kepadatan penduduk, dan produk domestik bruto adalah fitur atau variabelnya. Data yang terkait dengan setiap pemain, karyawan, dan setiap negara adalah hasil observasi
Ketika data direpresentasikan dalam bentuk tabel, baris dari tabel tersebut biasanya adalah observasi, sedangkan kolom adalah fiturnya. Lihatlah tabel karyawan ini
Dalam tabel ini, setiap baris mewakili satu observasi, atau data tentang satu karyawan (Ann, Rob, Tom, atau Ivy). Setiap kolom menampilkan satu properti atau fitur (nama, pengalaman, atau gaji) untuk semua karyawan
Jika Anda menganalisis dua fitur dari kumpulan data, Anda akan menemukan beberapa jenis korelasi antara kedua fitur tersebut. Pertimbangkan angka-angka berikut
Masing-masing plot ini menunjukkan salah satu dari tiga bentuk korelasi yang berbeda
Korelasi negatif (titik merah). Dalam plot di sebelah kiri, nilai y cenderung menurun saat nilai x meningkat. Ini menunjukkan korelasi negatif yang kuat, yang terjadi ketika nilai besar dari satu fitur sesuai dengan nilai kecil fitur lainnya, dan sebaliknya
Lemah atau tidak ada korelasi (titik hijau). Plot di tengah tidak menunjukkan tren yang jelas. Ini adalah bentuk korelasi lemah, yang terjadi ketika hubungan antara dua ciri tidak jelas atau hampir tidak dapat diamati
Korelasi positif (titik biru). Dalam plot di sebelah kanan, nilai y cenderung meningkat seiring dengan peningkatan nilai x. Ini menggambarkan korelasi positif yang kuat, yang terjadi ketika nilai besar dari satu fitur sesuai dengan nilai besar fitur lainnya, dan sebaliknya
Gambar berikutnya mewakili data dari tabel karyawan di atas
Korelasi antara pengalaman dan gaji adalah positif karena pengalaman yang lebih tinggi sesuai dengan gaji yang lebih besar dan sebaliknya
Catatan. Saat Anda menganalisis korelasi, Anda harus selalu ingat bahwa korelasi tidak menunjukkan sebab-akibat. Ini mengukur kekuatan hubungan antara fitur-fitur dari kumpulan data. Terkadang, asosiasi tersebut disebabkan oleh faktor yang sama pada beberapa fitur yang menarik
Korelasi terkait erat dengan kuantitas statistik lainnya seperti rata-rata, standar deviasi, varians, dan kovarians. Jika Anda ingin mempelajari lebih lanjut tentang kuantitas ini dan cara menghitungnya dengan Python, lihat Statistik Deskriptif dengan Python
Ada beberapa statistik yang dapat Anda gunakan untuk menghitung korelasi. Dalam tutorial ini, Anda akan belajar tentang tiga koefisien korelasi
r Pearson
Spearman's rho
Tau Kendall
Koefisien Pearson mengukur korelasi linier, sedangkan koefisien Spearman dan Kendall membandingkan peringkat data. Ada beberapa fungsi dan metode korelasi NumPy, SciPy, dan Pandas yang dapat Anda gunakan untuk menghitung koefisien ini. Anda juga dapat menggunakan Matplotlib untuk mengilustrasikan hasilnya dengan mudah
Hilangkan iklan
Contoh. Perhitungan Korelasi NumPy
NumPy memiliki banyak rutinitas statistik, termasuk
6, yang mengembalikan matriks koefisien korelasi Pearson. Anda bisa mulai dengan mengimpor NumPy dan menentukan dua array NumPy. Ini adalah instance dari kelas
5 mengembalikan matriks korelasi, yang merupakan larik dua dimensi dengan koefisien korelasi. Ini adalah versi sederhana dari matriks korelasi yang baru saja Anda buat
x y
x 1.00 0.76
y 0.76 1.00
Nilai pada diagonal utama matriks korelasi (kiri atas dan kanan bawah) sama dengan 1. Nilai kiri atas sesuai dengan koefisien korelasi untuk
Namun, yang biasanya Anda butuhkan adalah nilai matriks korelasi kiri bawah dan kanan atas. Nilai-nilai ini sama dan keduanya mewakili koefisien korelasi Pearson untuk
Perhatikan bahwa fungsi ini mengembalikan objek yang berisi dua nilai
Koefisien korelasi
Nilai-p
Anda menggunakan nilai p dalam metode statistik saat menguji hipotesis. Nilai-p adalah ukuran penting yang membutuhkan pengetahuan mendalam tentang probabilitas dan statistik untuk menafsirkannya. Untuk mempelajarinya lebih lanjut, Anda dapat membaca tentang dasar-dasarnya atau melihat penjelasan data scientist tentang nilai-p
Anda dapat mengekstrak nilai-p dan koefisien korelasi dengan indeksnya, sebagai item tupel
>>> ________0______
Anda juga dapat menggunakan notasi titik untuk koefisien Spearman dan Kendall
5, seperti yang akan Anda lihat nantiHilangkan iklan
Contoh. Perhitungan Korelasi Panda
Panda, dalam beberapa kasus, lebih nyaman daripada NumPy dan SciPy untuk menghitung statistik. Ini menawarkan metode statistik untuk dan contoh. Misalnya, diberikan dua
Callable dapat berupa fungsi, metode, atau yang menerima dua array satu dimensi dan mengembalikan angka floating-point
Korelasi Linier
Korelasi linier mengukur kedekatan hubungan matematis antara variabel atau fitur kumpulan data dengan fungsi linier. Jika hubungan antara dua fitur lebih dekat ke beberapa fungsi linier, maka korelasi liniernya lebih kuat dan nilai absolut dari koefisien korelasinya lebih tinggi
Koefisien Korelasi Pearson
Pertimbangkan kumpulan data dengan dua fitur. x dan y. Setiap fitur memiliki n nilai, jadi x dan y adalah n-tupel. Katakan bahwa nilai pertama x₁ dari x sesuai dengan nilai pertama y₁ dari y, nilai kedua x₂ dari x ke nilai kedua y₂ dari y, dan seterusnya. Maka, ada n pasang nilai yang bersesuaian. (x₁, y₁), (x₂, y₂), dan seterusnya. Masing-masing pasangan x-y ini mewakili satu pengamatan
Koefisien korelasi Pearson (momen-produk) adalah ukuran hubungan linear antara dua fitur. Ini adalah rasio kovarians x dan y dengan perkalian standar deviasinya. Ini sering dilambangkan dengan huruf r dan disebut r Pearson. Anda dapat menyatakan nilai ini secara matematis dengan persamaan ini
Di sini, saya mengambil nilai 1, 2, …, n. X dan y dilambangkan dengan mean(x) dan mean(y). Rumus ini menunjukkan bahwa jika nilai x yang lebih besar cenderung sesuai dengan nilai y yang lebih besar dan sebaliknya, maka r positif. Di sisi lain, jika nilai x yang lebih besar sebagian besar diasosiasikan dengan nilai y yang lebih kecil dan sebaliknya, maka r negatif
Berikut adalah beberapa fakta penting tentang koefisien korelasi Pearson
Koefisien korelasi Pearson dapat mengambil nilai riil apa pun dalam rentang −1 ≤ r ≤ 1
Nilai maksimum r = 1 sesuai dengan kasus di mana ada hubungan linier positif sempurna antara x dan y. Dengan kata lain, nilai x yang lebih besar sesuai dengan nilai y yang lebih besar dan sebaliknya
Nilai r > 0 menunjukkan korelasi positif antara x dan y
Nilai r = 0 sesuai dengan kasus di mana tidak ada hubungan linear antara x dan y
Nilai r < 0 menunjukkan korelasi negatif antara x dan y
Nilai minimal r = −1 sesuai dengan kasus ketika ada hubungan linier negatif sempurna antara x dan y. Dengan kata lain, nilai x yang lebih besar sesuai dengan nilai y yang lebih kecil dan sebaliknya
Fakta di atas dapat dirangkum dalam tabel berikut
Nilai r Pearson Korelasi Antara x dan ye sama dengan 1 hubungan linear positif sempurna lebih besar dari 0 korelasi positif sama dengan 0 tidak ada hubungan linear kurang dari 0 korelasi negatif sama dengan -1 hubungan linear negatif sempurna
Singkatnya, nilai absolut r yang lebih besar menunjukkan korelasi yang lebih kuat, lebih dekat ke fungsi linier. Nilai absolut r yang lebih kecil menunjukkan korelasi yang lebih lemah
Regresi linier. Implementasi Sains
Regresi linier adalah proses menemukan fungsi linier yang sedekat mungkin dengan hubungan sebenarnya antar fitur. Dengan kata lain, Anda menentukan fungsi linier yang paling menggambarkan hubungan antara fitur. Fungsi linear ini disebut juga dengan
Anda dapat menerapkan regresi linier dengan SciPy. Anda akan mendapatkan fungsi linier yang paling mendekati hubungan antara dua larik, serta koefisien korelasi Pearson. Untuk memulai, pertama-tama Anda harus mengimpor pustaka dan menyiapkan beberapa data untuk dikerjakan
_3 untuk melakukan regresi linier untuk dua larik dengan panjang yang sama. Anda harus menyediakan array sebagai argumen dan mendapatkan hasilnya dengan menggunakan notasi titik
3 menganggap baris sebagai fitur dan kolom sebagai observasi. Itu karena ada dua baris
Praktik biasa dalam pembelajaran mesin adalah kebalikannya. baris adalah pengamatan dan kolom adalah fitur. Banyak perpustakaan pembelajaran mesin, seperti Pandas, Scikit-Learn, Keras, dan lainnya, mengikuti konvensi ini
Anda harus berhati-hati untuk mencatat bagaimana pengamatan dan fitur ditunjukkan setiap kali Anda menganalisis korelasi dalam kumpulan data
Sekarang setelah Anda mengetahui cara mendapatkan transpose, Anda tidak dapat meneruskannya ke ________ 38 ______ 8. Kolom pertama akan menjadi salah satu fitur dan kolom kedua fitur lainnya
9 dan transposnya. Itu mengekstrak fitur dengan memisahkan array sepanjang dimensi dengan panjang dua
Anda juga harus berhati-hati untuk mencatat apakah kumpulan data Anda berisi nilai yang hilang atau tidak. Dalam ilmu data dan pembelajaran mesin, Anda akan sering menemukan beberapa data yang hilang atau rusak. Cara biasa untuk merepresentasikannya dengan Python, NumPy, SciPy, dan Pandas adalah dengan menggunakan nilai NaN atau Not a Number. Tetapi jika data Anda berisi
_6 dapat mengambil dua array NumPy sebagai argumen. Sebagai gantinya, Anda bisa melewatkan satu larik dua dimensi dengan nilai yang sama dengan argumen
9 mewakili satu fitur, sedangkan baris kedua mewakili fitur lainnya
Jika Anda ingin mendapatkan koefisien korelasi untuk tiga fitur, maka Anda cukup memberikan array dua dimensi numerik dengan tiga baris sebagai argumennya
_38 menganggap baris sebagai fitur dan kolom sebagai observasi. Jika Anda menginginkan perilaku sebaliknya, yang banyak digunakan dalam pembelajaran mesin, maka gunakan argumen
79, yang memungkinkan Anda menghitung koefisien korelasi antara baris atau kolom dari satu objek DataFrame dan objek Seri atau DataFrame lainnya yang diteruskan sebagai argumen pertama
4 untuk menentukan koefisien korelasi yang ingin Anda hitung. Koefisien korelasi Pearson dikembalikan secara default, jadi Anda tidak perlu menyediakannya dalam kasus iniHilangkan iklan
Korelasi Peringkat
Korelasi peringkat membandingkan peringkat atau urutan data yang terkait dengan dua variabel atau fitur dataset. Jika urutannya mirip, maka korelasinya kuat, positif, dan tinggi. Namun, jika urutannya hampir terbalik, maka korelasinya kuat, negatif, dan rendah. Dengan kata lain, korelasi peringkat hanya berkaitan dengan urutan nilai, bukan dengan nilai tertentu dari kumpulan data
Untuk mengilustrasikan perbedaan antara korelasi linier dan peringkat, perhatikan gambar berikut
Plot kiri memiliki hubungan linier positif sempurna antara x dan y, jadi r = 1. Plot pusat menunjukkan korelasi positif dan yang kanan menunjukkan korelasi negatif. Namun, keduanya bukan fungsi linier, jadi r berbeda dari −1 atau 1
Saat Anda hanya melihat urutan atau peringkat, ketiga hubungan itu sempurna. Plot kiri dan tengah menunjukkan pengamatan di mana nilai x yang lebih besar selalu sesuai dengan nilai y yang lebih besar. Ini adalah korelasi peringkat positif sempurna. Plot kanan menggambarkan kasus sebaliknya, yaitu korelasi peringkat negatif sempurna
Koefisien Korelasi Spearman
Koefisien korelasi Spearman antara dua fitur adalah koefisien korelasi Pearson antara nilai peringkatnya. Ini dihitung dengan cara yang sama seperti koefisien korelasi Pearson tetapi memperhitungkan peringkatnya, bukan nilainya. Ini sering dilambangkan dengan huruf Yunani rho (ρ) dan disebut rho Spearman
Katakanlah Anda memiliki dua n-tupel, x dan y, di mana
92 adalah pengamatan sebagai pasangan nilai yang sesuai. Anda dapat menghitung koefisien korelasi Spearman ρ dengan cara yang sama seperti koefisien Pearson. Anda akan menggunakan peringkat alih-alih nilai sebenarnya dari x dan y
Berikut adalah beberapa fakta penting tentang koefisien korelasi Spearman
Itu bisa mengambil nilai nyata dalam rentang −1 ≤ ρ ≤ 1
Nilai maksimumnya ρ = 1 sesuai dengan kasus ketika ada fungsi yang meningkat secara monoton antara x dan y. Dengan kata lain, nilai x yang lebih besar sesuai dengan nilai y yang lebih besar dan sebaliknya
Nilai minimumnya ρ = −1 sesuai dengan kasus ketika ada fungsi yang menurun secara monoton antara x dan y. Dengan kata lain, nilai x yang lebih besar sesuai dengan nilai y yang lebih kecil dan sebaliknya
Anda dapat menghitung rho Spearman dengan Python dengan cara yang sangat mirip dengan rho Pearson
Koefisien Korelasi Kendall
Mari kita mulai lagi dengan mempertimbangkan dua n-tupel, x dan y. Setiap pasangan x-y
_92 adalah pengamatan tunggal. Sepasang pengamatan (xᵢ, yᵢ) dan (xⱼ, yⱼ), di mana i < j, akan menjadi salah satu dari tiga hal
konkordan jika salah satu (xᵢ > xⱼ dan yᵢ > yⱼ) atau (xᵢ < xⱼ dan yᵢ < yⱼ)
sumbang jika salah satu (xᵢ < xⱼ dan yᵢ > yⱼ) atau (xᵢ > xⱼ dan yᵢ < yⱼ)
baik jika ada seri di x (xᵢ = xⱼ) atau seri di y (yᵢ = yⱼ)
Koefisien korelasi Kendall membandingkan jumlah pasangan data yang konkordan dan sumbang. Koefisien ini didasarkan pada perbedaan jumlah pasangan konkordan dan diskordan relatif terhadap jumlah pasangan x-y. Ini sering dilambangkan dengan huruf Yunani tau (τ) dan disebut tau Kendall
2 dokumen resmi, koefisien korelasi Kendall dihitung sebagai τ = (n⁺ − n⁻) / √((n⁺ + n⁻ + nˣ)(n⁺ + n⁻ + nʸ)), di mana
n⁺ adalah jumlah pasangan konkordan
n⁻ adalah jumlah pasangan sumbang
nˣ adalah jumlah ikatan hanya di x
nʸ adalah jumlah ikatan hanya di y
Jika dasi terjadi di kedua x dan y, maka itu tidak termasuk dalam nˣ atau nʸ
Halaman Wikipedia tentang koefisien korelasi peringkat Kendall memberikan ungkapan berikut. τ = (2 / (n(n − 1))) Σᵢⱼ(tanda(xᵢ − xⱼ) tanda(yᵢ − yⱼ)) untuk i < j, dimana i = 1, 2, …, n − 1 dan j = 2 . Fungsi tanda sign(z) adalah −1 jika z < 0, 0 jika z = 0, dan 1 jika z > 0. n(n − 1) / 2 adalah jumlah total pasangan x-y
Beberapa fakta penting tentang koefisien korelasi Kendall adalah sebagai berikut
Itu bisa mengambil nilai nyata dalam kisaran −1 ≤ τ ≤ 1
Nilai maksimumnya τ = 1 sesuai dengan kasus ketika peringkat nilai yang sesuai di x dan y adalah sama. Dengan kata lain, semua pasangan serasi
Nilai minimumnya τ = −1 sesuai dengan kasus ketika peringkat di x adalah kebalikan dari peringkat di y. Dengan kata lain, semua pasangan sumbang
Anda dapat menghitung tau Kendall dengan Python mirip dengan cara Anda menghitung r Pearson
4. Ini memberi tahu Python apa yang harus dilakukan jika ada ikatan dalam array (jika dua atau lebih nilai sama). Secara default, ini memberi mereka peringkat rata-rata
_4 mengembalikan objek yang berisi nilai koefisien korelasi Spearman dan nilai-p. Seperti yang Anda lihat, Anda dapat mengakses nilai tertentu dengan dua cara
Menggunakan notasi titik (
x y
x 1.00 0.76
y 0.76 1.00
_26 dan
x y
x 1.00 0.76
y 0.76 1.00
27)
Menggunakan Python membongkar (
x y
x 1.00 0.76
y 0.76 1.00
_28)
Anda bisa mendapatkan hasil yang sama jika Anda memberikan larik dua dimensi
_47 pada matriks korelasi menunjukkan bahwa fitur pertama dan ketiga memiliki korelasi peringkat negatif sempurna, yaitu nilai yang lebih besar pada baris pertama selalu sesuai dengan nilai yang lebih kecil pada baris ketiga.
Anda dapat memperoleh koefisien korelasi Kendall dengan
5 akan memunculkan. Jika Anda melewatkan dua larik multidimensi dengan bentuk yang sama, larik tersebut akan diratakan sebelum perhitunganHilangkan iklan
Korelasi Peringkat. Implementasi Panda
Anda dapat menghitung koefisien korelasi Spearman dan Kendall dengan Panda. Sama seperti sebelumnya, Anda mulai dengan mengimpor
79 seperti yang Anda lakukan saat menghitung koefisien korelasi Pearson. Anda hanya perlu menentukan koefisien korelasi yang diinginkan dengan parameter opsional
Seperti yang Anda lihat, tidak seperti SciPy, Anda dapat menggunakan struktur data dua dimensi tunggal (kerangka data)
Visualisasi Korelasi
Visualisasi data sangat penting dalam statistik dan ilmu data. Ini dapat membantu Anda lebih memahami data Anda dan memberi Anda wawasan yang lebih baik tentang hubungan antar fitur. Di bagian ini, Anda akan mempelajari cara merepresentasikan secara visual hubungan antara dua fitur dengan plot x-y. Anda juga akan menggunakan peta panas untuk memvisualisasikan matriks korelasi
Anda akan mempelajari cara menyiapkan data dan mendapatkan representasi visual tertentu, tetapi Anda tidak akan membahas banyak penjelasan lainnya. Untuk mempelajari lebih lanjut tentang Matplotlib secara mendalam, lihat Python Plotting With Matplotlib (Panduan). Anda juga dapat melihat dokumentasi resmi dan Anatomi Matplotlib
Untuk memulai, pertama-tama impor ________12______63
Sekarang setelah Anda mendapatkan data, Anda siap merencanakan
Plot X-Y Dengan Garis Regresi
Pertama, Anda akan melihat cara membuat plot x-y dengan garis regresi, persamaannya, dan koefisien korelasi Pearson. Anda bisa mendapatkan kemiringan dan perpotongan garis regresi, serta koefisien korelasi, dengan
Sekarang Anda memiliki semua nilai yang Anda butuhkan. Anda juga bisa mendapatkan string dengan persamaan garis regresi dan nilai koefisien korelasi. f-string sangat nyaman untuk tujuan ini
Kotak merah mewakili pengamatan, sedangkan garis biru adalah garis regresi. Persamaannya tercantum dalam legenda, bersama dengan koefisien korelasinya
Hilangkan iklan
Peta Panas Matriks Korelasi
Matriks korelasi bisa menjadi sangat besar dan membingungkan ketika Anda memiliki banyak fitur. Untungnya, Anda dapat menyajikannya secara visual sebagai peta panas di mana setiap bidang memiliki warna yang sesuai dengan nilainya. Anda memerlukan matriks korelasi
Hasilnya adalah tabel dengan koefisien. Sepertinya keluaran Panda dengan latar belakang berwarna. Warna membantu Anda menginterpretasikan output. Dalam contoh ini, warna kuning melambangkan angka 1, hijau melambangkan 0. 76, dan ungu digunakan untuk bilangan negatif
Kesimpulan
Anda sekarang tahu bahwa koefisien korelasi adalah statistik yang mengukur hubungan antara variabel atau fitur kumpulan data. Mereka sangat penting dalam ilmu data dan pembelajaran mesin
Anda sekarang dapat menggunakan Python untuk menghitung
Koefisien korelasi momen produk Pearson
Koefisien korelasi peringkat Spearman
Koefisien korelasi peringkat Kendall
Sekarang Anda dapat menggunakan fungsi dan metode korelasi NumPy, SciPy, dan Pandas untuk menghitung statistik ini (dan lainnya) secara efektif, bahkan saat Anda bekerja dengan kumpulan data besar. Anda juga tahu cara memvisualisasikan data, garis regresi, dan matriks korelasi dengan plot dan peta panas Matplotlib
Jika Anda memiliki pertanyaan atau komentar, silakan taruh di bagian komentar di bawah ini
Tandai sebagai Selesai
🐍 Trik Python 💌
Dapatkan Trik Python singkat & manis yang dikirim ke kotak masuk Anda setiap beberapa hari. Tidak pernah ada spam. Berhenti berlangganan kapan saja. Dikuratori oleh tim Real Python
Kirimi Saya Trik Python »
Tentang Mirko Stojiljkovic
Mirko memiliki Ph. D. di Teknik Mesin dan bekerja sebagai profesor universitas. Ia adalah seorang Pythonista yang menerapkan metode hybrid optimization dan machine learning untuk mendukung pengambilan keputusan di sektor energi
» Lebih lanjut tentang Mirko
Setiap tutorial di Real Python dibuat oleh tim pengembang sehingga memenuhi standar kualitas tinggi kami. Anggota tim yang mengerjakan tutorial ini adalah
Aldren
Bryan
Geir Arne
Jaya
Joanna
Master Keterampilan Python Dunia Nyata Dengan Akses Tanpa Batas ke Python Nyata
Bergabunglah dengan kami dan dapatkan akses ke ribuan tutorial, kursus video langsung, dan komunitas pakar Pythonista
Tingkatkan Keterampilan Python Anda »
Guru Keterampilan Python Dunia Nyata Dengan Akses Tak Terbatas ke Real Python
Bergabunglah dengan kami dan dapatkan akses ke ribuan tutorial, kursus video langsung, dan komunitas ahli Pythonista
Tingkatkan Keterampilan Python Anda »
Bagaimana menurut anda?
Nilai artikel ini
Tweet Bagikan Bagikan Email
Apa takeaway # 1 Anda atau hal favorit yang Anda pelajari?
Kiat Berkomentar. Komentar yang paling berguna adalah yang ditulis dengan tujuan belajar dari atau membantu siswa lain. dan dapatkan jawaban atas pertanyaan umum di portal dukungan kami
Bagaimana Anda menemukan korelasi antara dua deret waktu?
Korelasi serial atau autokorelasi lag , , dari deret waktu stasioner orde kedua diberikan oleh autokovarians deret yang dinormalisasi oleh perkalian penyebaran. Artinya, ρ k = C k σ 2 .
Bagaimana Anda menemukan korelasi antara dua seri dengan Python?
Dengan menggunakan fungsi corr() kita bisa mendapatkan korelasi antara dua kolom dalam kerangka data.
Apa itu salib
Korelasi silang adalah cara untuk mengukur tingkat kesamaan antara deret waktu dan versi lag dari deret waktu lain . Jenis korelasi ini berguna untuk dihitung karena dapat memberi tahu kita apakah nilai dari satu deret waktu merupakan prediksi dari nilai deret waktu lainnya di masa mendatang.
Bisakah Anda menggunakan korelasi dengan deret waktu?
Korelasi berarti bahwa sepasang deret waktu juga terlihat sebagai dua variabel yang terkait satu sama lain . Hubungan itu bisa jadi salah satunya. kausal. satu variabel adalah hasil dari yang lain. relevan tetapi tidak kausal. kedua variabel tersebut relevan, tetapi tidak kausal.