Cara menggunakan PD.READ_CSV pada Python

Kode Lima Detik

import pandas as pd
data = pd.read_csv('nama_file.csv', sep=',', skiprows=0)

Ref: https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.read_csv.html


Pandas adalah library python utama untuk melakukan analisa dan manipulasi data. Berbeda dengan numpy, pandas lebih mudah digunakan oleh mereka yang migrasi dari Excel, karena menyediakan tabel dua dimensi, bernama DataFrame, yang mirip kolom dan baris pada tabel.

Tidak mengejutkan karena pandas dikembangkan oleh Wes McKinney pada saat bekerja di AQR Capital Management sebagai alat bantu untuk melakukan analisa kuantitatif pada data finansial. Faktanya dalam dunia keuangan tabel memang sangat vital.

Berkas comma-separated value (csv) adalah format utama data yang kita olah, terutama sebab ukurannya yang kecil karena hanya menyimpan nilai tanpa ubo rampe lain seperti format tulisan, garis dan lainnya.

Meski bernama csv namun pemisah antar nilai tidak melulu hanya koma, dapat pula bentuk lain, misal titik koma (;), tab (\t), pipa (|) atau bahkan spasi (namun tentu saja tidak disarankan).

Kita akan menggunakan data jumlah pohon menghasilkan dan produksi buah menurut jenis tanaman di Kota Batu Tahun 2016. yang diberi nama jumlah-pohon-menghasilkan-dan-produksi-buah-2016_koma.csv.

Langkah Kerja

Install pandas, jika belum pernah melakukannya. Melalui command prompt/console/terminal ketik.

pip install pandas

Jika menggunakan Jupyter Notebook dapat menggunakan perintah ini pada cell.

!pip install pandas

Berkas csv dengan pemisah koma

Untuk membaca csv, pandas menydiakan fungsi read_csv, contoh penggunaanya seperti ini.

import pandas as pd
koma = pd.read_csv('jumlah-pohon-menghasilkan-dan-produksi-buah-2016_koma.csv')
Cara menggunakan PD.READ_CSV pada Python

Ups! Data tidak terbaca semestinya. Hal ini terjadi karena data dimulai pada baris ke-4. Untungnya read_csv pandas sudah mendukung kondisi itu.

Gunakan parameter skiprows=n, dengan n adalah jumlah baris teratas yang akan dilewati.

koma2 = pd.read_csv('jumlah-pohon-menghasilkan-dan-produksi-buah-2016_koma.csv', skiprows=3)
Cara menggunakan PD.READ_CSV pada Python

Ingin memberi nama kolom? isi parameter names dengan daftar nama kolom yang diinginkan.

kolom = [
    'jenis_tanaman',
    'tri_1_tanaman', 'tri_1_produksi',
    'tri_2_tanaman', 'tri_2_produksi',
    'tri_3_tanaman', 'tri_3_produksi',
    'tri_4_tanaman', 'tri_4_produksi'
]
koma3 = pd.read_csv('jumlah-pohon-menghasilkan-dan-produksi-buah-2016_koma.csv', skiprows=3, names=kolom)
Cara menggunakan PD.READ_CSV pada Python

Ingin menghilangkan beberapa baris terakhir?

Cara menggunakan PD.READ_CSV pada Python

Manfaatkan parameter skipfooter.

kolom = [
    'jenis_tanaman',
    'tri_1_tanaman', 'tri_1_produksi',
    'tri_2_tanaman', 'tri_2_produksi',
    'tri_3_tanaman', 'tri_3_produksi',
    'tri_4_tanaman', 'tri_4_produksi'
]
koma4 = pd.read_csv('jumlah-pohon-menghasilkan-dan-produksi-buah-2016_koma.csv', skiprows=3, names=kolom, skipfooter=2)
Cara menggunakan PD.READ_CSV pada Python
Cara menggunakan PD.READ_CSV pada Python

Jika tidak suka dengan peringatan berwarna merah seperti gambar di atas, tambahkan parameter engine=’python’.

kolom = [
    'jenis_tanaman',
    'tri_1_tanaman', 'tri_1_produksi',
    'tri_2_tanaman', 'tri_2_produksi',
    'tri_3_tanaman', 'tri_3_produksi',
    'tri_4_tanaman', 'tri_4_produksi'
]
koma5 = pd.read_csv('jumlah-pohon-menghasilkan-dan-produksi-buah-2016_koma.csv', skiprows=3, names=kolom, skipfooter=2, engine='python')

Berkas csv dengan pemisah selain koma

Cukup gunakan parameter sep atau delimiter jika mendapatkan csv file dengan pemisah selain koma.

tab1 = pd.read_csv('jumlah-pohon-menghasilkan-dan-produksi-buah-2016_tab.csv', sep='\t')

Kode di atas untuk berkas csv dengan pemisah berupa tab.

spasi1 = pd.read_csv('jumlah-pohon-menghasilkan-dan-produksi-buah-2016_spasi.csv', delim_whitespace=True)

Kode terakhir, dengan parameter delim_whitespace=True untuk membaca file csv dengan pemisah berupa spasi, yang tidak disarankan.

Cara menggunakan PD.READ_CSV pada Python

Penggunaan spasi sebagai pemisah tidak disarankan karena akan membuat data menjadi tidak terbaca seperti di atas.


Notebook dan data untuk tulisan ini dapat diakses di sini.


Lebih lanjut:

  • https://www.quora.com/What-is-the-difference-between-NumPy-and-Pandas
  • https://cloudxlab.com/blog/numpy-pandas-introduction/
  • https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.read_csv.html

Cover Photo by Ying Wu on Unsplash

Bagaimana cara membaca data CSV?

Menggunakan Microsoft Excel untuk membuka dan mengelola file CSV.
Buka MS Excel anda..
Klik > data > From Text/CSV..
Kemudian Pilih File CSV yang sudah anda download sebelumnya > rubah Delimiternya ke "Comma" > Klik Load..

Apa itu CSV dalam python?

Format CSV (Comma Separated Values) adalah format impor dan ekspor data yang paling umum digunakan untuk data spreadsheet dan database.

Bagaimana cara membuat file CSV?

Jika Anda menggunakan Google Spreadsheets, opsi yang perlu dipilih adalah "File > Download as". Pilih "CSV" dari menu drop-down "Save as type". Tikkan nama berkas CSV, kemudian pilih "Save". Sekarang Anda sudah membuat berkas CSV, dan koma secara otomatis akan ditambahkan ke berkas untuk memisahkan setiap kolom.

Apa yang dimaksud dengan data frame?

Data frame merupakan tabel/data tabular dengan array dua dimensi yaitu baris dan kolom. Struktur data ini merupakan cara paling standar untuk menyimpan data. Setiap kolom pada data frame merupakan objek dari Series, dan baris terdiri dari elemen yang ada pada Series.