Bagaimana Anda mengakses kumpulan data dengan python?

Apakah Anda tertarik untuk mengejar karir di bidang ilmu data, tetapi berjuang untuk menemukan proyek yang menarik?

Dalam artikel ini, kami telah menyiapkan daftar kumpulan data gratis untuk diunduh dan dipraktikkan saat Anda memasuki ilmu data. Tidak hanya mereka tersedia untuk umum, tetapi sampel yang beragam juga semuanya kompatibel dengan Python, menjadikannya lebih mudah diakses dan ramah-pemula. Apakah Anda sedang mendapatkan gelar Anda, beralih dari bidang lain seperti ilmu komputer atau ekonomi, atau baru-baru ini menemukan dunia ilmu data sama sekali, sumber daya ini akan memberi Anda pengalaman berharga dan membuat resume Anda menonjol.

Dan setelah Anda selesai dengan ini, jangan ragu untuk memeriksa bermacam-macam lain dari kumpulan data Python, sumber daya pembelajaran mesin, dan proyek visualisasi data yang telah kami susun agar Anda semakin memperkaya portofolio ilmu data Anda

Tanpa basa-basi lagi, mari langsung ke dalamnya

Kumpulan Data Harga Rumah Boston

Dimulai dengan Kumpulan Data Harga Rumah Boston yang merupakan kumpulan data publik yang terdiri dari data tentang harga rumah secara umum di wilayah Boston dan faktor-faktor seperti

  • Tanah pemukiman
  • Jumlah ruangan
  • Ukuran dalam kaki persegi
  • Tingkat kejahatan per kota

Mudah dipahami dan gratis untuk diunduh, ini adalah kumpulan data yang bagus untuk siswa dan pemula mutlak dalam ilmu data. Katakanlah Anda ingin memprediksi harga rumah di masa depan - dengan menerapkan regresi linier, Anda akan dapat mengajarkan model pembelajaran mesin Anda untuk berhasil memperkirakan berapa harga jual rumah tertentu

Belum lagi itu adalah kumpulan data yang sangat populer, sehingga dukungan tersedia secara online

Kumpulan Data MNIST

Izinkan kami memperkenalkan Anda pada kumpulan data paling populer untuk pembelajaran mesin. Tidak percaya kami?

MNIST sudah beredar sejak pertengahan tahun 90-an. Singkatnya, ini adalah database gambar dari 70.000 digit tulisan tangan [dari 0 hingga 9]. Ini sangat mudah digunakan karena datanya telah banyak diproses sebelumnya, jadi Anda tidak perlu khawatir melakukannya sendiri. Selain itu, gambar dalam MNIST berukuran kecil [28x28 piksel] dan dibuat dalam skala abu-abu [setiap piksel memiliki 1 nilai numerik – seberapa “putih” gambar tersebut]

MNIST adalah kumpulan data yang disukai secara luas untuk klasifikasi pengenalan gambar dan jaringan saraf konvolusional [CNN] karena sifatnya yang fleksibel. Selain dari data yang tersedia yang sudah diproses sebelumnya, ada set yang ditetapkan dengan jelas untuk pelatihan [60.000 gambar] dan pengujian [10.000 gambar]

Kualitas Anggur

Kumpulan data sampel untuk kualitas anggur ini sangat cocok untuk proyek pembelajaran mesin. Ini sebenarnya terdiri dari 2 kumpulan data terpisah yang terkait dengan varian merah dan putih dari jenis anggur "vihno verde" yang ditemukan di wilayah Minho di Portugal Utara. Inputnya dipisahkan menjadi sifat fisikokimia seperti

  • Keasaman
  • Klorida
  • Kepadatan
  • tingkat pH
  • Sulfat

Adapun output, dataset berisi variabel kualitas anggur sensorik berdasarkan skor antara 0 dan 10

Anda dapat melakukan tugas klasifikasi atau regresi ordinal pada data itu sendiri. Namun, tidak semua fitur yang tersedia diperlukan untuk membuat model yang baik;

Kumpulan Data Pasar Saham

Prediksi pasar selalu menjadi topik hangat di kalangan investor yang ingin memastikan uang mereka masuk ke tempat yang tepat. Berita Harian untuk Prediksi Pasar Saham pada awalnya disiapkan sebagai kumpulan data untuk siswa, tetapi siapa pun dapat bermain-main dengannya karena tersedia untuk diunduh gratis. Dataset terdiri dari 2 saluran

  1. Data dari berita utama mulai dari tahun 2008 hingga 2016
  2. Data harga saham berdasarkan Dow Jones Industrial Average [DJIA]

Selain itu, penulis telah membagi saluran tersebut menjadi dua kumpulan data untuk pelatihan [80%] dan untuk pengujian [20%]. Ini menjadikannya sumber yang bagus untuk mempraktikkan metode pembelajaran mendalam dan membangun algoritme prediktif

ImageNet

ImageNet adalah proyek pengumpulan data berkelanjutan yang bertujuan untuk memasok peneliti dan pengembang dengan gambar berkualitas tinggi untuk proyek analisis data skala besar dan penelitian pembelajaran mendalam. Setidaknya ada 1.000 gambar yang mengilustrasikan arti kata yang berbeda atau “kumpulan sinonim”. Terlebih lagi, ini tersedia untuk umum untuk penggunaan non-komersial, menjadikannya kumpulan data yang sempurna bagi siswa yang ingin bereksperimen dengan visi komputer

Pengembang kumpulan data juga telah menjalankan beberapa tantangan pembelajaran mesin terbesar, seperti Tantangan Pengenalan Visual Skala Besar ImageNet [ILSVRC] yang menghasilkan banyak jaringan saraf modern yang canggih. Tantangan ini adalah cara yang bagus untuk mengintegrasikan diri Anda ke dalam komunitas dan menguji kemampuan Anda – terutama jika Anda tertarik untuk menjadi insinyur pembelajaran mesin

Kumpulan Data Diagnosis Kanker Payudara

Kumpulan data lain yang menarik untuk pembelajaran mesin adalah Kumpulan Data Diagnostik Kanker Payudara Wisconsin. Ini menampilkan gambar digital dari aspirasi jarum halus [FNA] dari massa payudara yang, pada gilirannya, menggambarkan fitur inti sel saat ini, seperti jari-jari, tekstur, keliling, luas, dll.

Anda dapat menggunakan data ini sebagai dasar untuk memulai proyek klasifikasi karena distribusinya sangat sederhana dan hanya dipisahkan menjadi dua kategori

  • Bening [B]
  • Ganas [M]

Ada 569 kasus secara keseluruhan, 357 di antaranya jinak dan 212 ganas. Itu banyak data menarik untuk bereksperimen

Kumpulan Data Ulasan Film IMDB

Jika Anda mencari repositori kumpulan data yang tidak hanya tersedia untuk umum, tetapi juga dikemas dengan data yang diproses dan mentah untuk klasifikasi sentimen biner – kami siap membantu Anda

Kita semua pernah mendengar tentang IMDB, bukan? . Ada juga data yang tidak berlabel jika Anda ingin menghadapi tantangan

Kami merekomendasikannya sebagai titik awal yang baik untuk mempelajari pemrosesan bahasa alami [NPL]

Catatan. Kumpulan data ini termasuk dalam TensorFlow

Atlas Lingkungan Pangan

Data demografis dapat terbukti menjadi alat yang ampuh untuk meningkatkan pemerintahan dan masyarakat suatu negara ketika digunakan sebagai dasar untuk keputusan ekonomi utama, serta membuat perkembangan yang signifikan dalam industri keuangan. Model pembelajaran mesin, yang dilatih pada data pemerintah publik, dapat membantu pembuat kebijakan mengidentifikasi tren dan bersiap menghadapi masalah yang muncul

Kumpulan data khusus ini terdiri dari data tentang bagaimana sumber daya makanan lokal memengaruhi gaya hidup gizi seseorang di Amerika Serikat. Atlas Lingkungan Pangan berisi lebih dari 280 variabel dengan data yang mencakup berbagai sumber, periode waktu, dan lokasi geografis, menjadikannya sumber daya yang cukup komprehensif. Selain itu, ada banyak dokumentasi yang membuat kumpulan data tetap mutakhir, dan semua versi sebelumnya juga tersedia jika Anda ingin membandingkan dan membedakan.

Secara keseluruhan, Atlas Lingkungan Pangan adalah pilihan tepat untuk membangun model prediktif untuk mendapatkan wawasan berharga tentang kebiasaan diet orang dan cara memperbaikinya

Indikator Penyakit Kronis

Kami telah menekankan pentingnya mengumpulkan data demografis. Sekarang, menindaklanjuti poin kami sebelumnya, kami memiliki contoh kumpulan data lain di mana jenis data ini dapat memainkan peran besar

Kumpulan Data Penyakit Kronis terdiri dari data publik, yang dikumpulkan oleh CDC, untuk melacak statistik kesehatan penting di AS. S. Sama seperti Bank Lingkungan Pangan, hal ini menginformasikan pemerintah tentang kecenderungan penyakit kronis di seluruh wilayah negara sehingga pembuat kebijakan dapat meningkatkan praktik kesehatan masyarakat

Catatan. Jika Anda ingin mempelajari lebih lanjut tentang bagaimana data dapat menyelamatkan nyawa, baca artikel kami tentang ilmu data dalam perawatan kesehatan, serta pencitraan medis dan sistem rekomendasi dalam industri medis

Sekali lagi, kumpulan data domain publik ini ideal untuk pembelajaran mesin karena Anda dapat membangun model prediktif berdasarkan data sampel yang terakumulasi selama sekitar 15 tahun terakhir.

Dataset Python Gratis Terbaik. Langkah selanjutnya

Bahkan jika Anda baru saja memulai proyek Python pertama Anda atau sudah memiliki pengalaman yang signifikan dengan pembelajaran mesin, menemukan data sampel yang berkualitas bisa jadi sulit. Dan dengan web yang sudah jenuh seperti itu, kumpulan data sumber terbuka hampir seperti berlian dalam bentuk kasar. Kami telah menyertakan beberapa contoh sumber daya untuk semua tingkat keterampilan, mulai dari pemula hingga pakar, yang pada akhirnya akan membantu Anda mempertajam kemampuan, memperkaya portofolio, dan memungkinkan Anda menempuh jalan menuju karier ilmu data di masa depan

Apakah Anda siap untuk langkah selanjutnya menuju karir di bidang ilmu data?

Program Ilmu Data 365 menawarkan kursus mandiri yang dipimpin oleh pakar industri ternama. Mulai dari yang paling dasar hingga spesialisasi tingkat lanjut, Anda akan belajar dengan melakukan berbagai latihan praktis dan kasus bisnis dunia nyata. Jika Anda ingin melihat cara kerja pelatihan, mulailah dengan pilihan pelajaran gratis dengan mendaftar di bawah ini

Bagaimana Anda mengakses file dengan Python?

Ada 6 mode akses di python. .
Hanya Baca ['r']. Buka file teks untuk dibaca. .
Baca dan Tulis ['r+']. Buka file untuk membaca dan menulis. .
Tulis Saja ['w']. Buka file untuk menulis. .
Tulis dan Baca ['w+']. Buka file untuk membaca dan menulis. .
Tambahkan Hanya ['a']. Buka file untuk menulis

Apa saja cara untuk mengakses dataset?

📚 Pustaka akses set data .
Pandas_datareader. Pandas_datareader adalah cara yang bagus untuk menarik data dari internet ke dalam lingkungan Python Anda. .
DataCommons. Datacommons adalah proyek oleh Google yang menyediakan akses ke kumpulan data publik yang distandarisasi dan dibersihkan. .
PyTrends [Google Trends].
Kaggle

Bagaimana cara membaca dataset di Python menggunakan panda?

Panda Baca CSV .
Muat CSV ke dalam DataFrame. impor panda sebagai pd. df = pd. baca_csv['data. csv'].
Cetak DataFrame tanpa metode to_string[]. impor panda sebagai pd. .
Periksa jumlah baris maksimum yang dikembalikan. impor panda sebagai pd. .
Tingkatkan jumlah maksimum baris untuk menampilkan seluruh DataFrame. impor panda sebagai pd

Apa cara untuk mengakses kumpulan data dalam pembelajaran mesin?

Sumber populer untuk set data Machine Learning .
Kumpulan Data Kaggle. .
Repositori Pembelajaran Mesin UCI. .
Kumpulan data melalui AWS. .
Mesin Pencari Kumpulan Data Google. .
Kumpulan Data Microsoft. .
Koleksi Kumpulan Data Publik yang Luar Biasa. .
Dataset Visi Komputer. .
Kumpulan data Scikit-pelajari

Bài mới nhất

Chủ Đề