Apakah Anda tertarik untuk mengejar karir di bidang ilmu data, tetapi berjuang untuk menemukan proyek yang menarik?
Dalam artikel ini, kami telah menyiapkan daftar kumpulan data gratis untuk diunduh dan dipraktikkan saat Anda memasuki ilmu data. Tidak hanya mereka tersedia untuk umum, tetapi sampel yang beragam juga semuanya kompatibel dengan Python, menjadikannya lebih mudah diakses dan ramah-pemula. Apakah Anda sedang mendapatkan gelar Anda, beralih dari bidang lain seperti ilmu komputer atau ekonomi, atau baru-baru ini menemukan dunia ilmu data sama sekali, sumber daya ini akan memberi Anda pengalaman berharga dan membuat resume Anda menonjol.
Dan setelah Anda selesai dengan ini, jangan ragu untuk memeriksa bermacam-macam lain dari kumpulan data Python, sumber daya pembelajaran mesin, dan proyek visualisasi data yang telah kami susun agar Anda semakin memperkaya portofolio ilmu data Anda
Tanpa basa-basi lagi, mari langsung ke dalamnya
Kumpulan Data Harga Rumah Boston
Dimulai dengan Kumpulan Data Harga Rumah Boston yang merupakan kumpulan data publik yang terdiri dari data tentang harga rumah secara umum di wilayah Boston dan faktor-faktor seperti
- Tanah pemukiman
- Jumlah ruangan
- Ukuran dalam kaki persegi
- Tingkat kejahatan per kota
Mudah dipahami dan gratis untuk diunduh, ini adalah kumpulan data yang bagus untuk siswa dan pemula mutlak dalam ilmu data. Katakanlah Anda ingin memprediksi harga rumah di masa depan - dengan menerapkan regresi linier, Anda akan dapat mengajarkan model pembelajaran mesin Anda untuk berhasil memperkirakan berapa harga jual rumah tertentu
Belum lagi itu adalah kumpulan data yang sangat populer, sehingga dukungan tersedia secara online
Kumpulan Data MNIST
Izinkan kami memperkenalkan Anda pada kumpulan data paling populer untuk pembelajaran mesin. Tidak percaya kami?
MNIST sudah beredar sejak pertengahan tahun 90-an. Singkatnya, ini adalah database gambar dari 70.000 digit tulisan tangan [dari 0 hingga 9]. Ini sangat mudah digunakan karena datanya telah banyak diproses sebelumnya, jadi Anda tidak perlu khawatir melakukannya sendiri. Selain itu, gambar dalam MNIST berukuran kecil [28x28 piksel] dan dibuat dalam skala abu-abu [setiap piksel memiliki 1 nilai numerik – seberapa “putih” gambar tersebut]
MNIST adalah kumpulan data yang disukai secara luas untuk klasifikasi pengenalan gambar dan jaringan saraf konvolusional [CNN] karena sifatnya yang fleksibel. Selain dari data yang tersedia yang sudah diproses sebelumnya, ada set yang ditetapkan dengan jelas untuk pelatihan [60.000 gambar] dan pengujian [10.000 gambar]
Kualitas Anggur
Kumpulan data sampel untuk kualitas anggur ini sangat cocok untuk proyek pembelajaran mesin. Ini sebenarnya terdiri dari 2 kumpulan data terpisah yang terkait dengan varian merah dan putih dari jenis anggur "vihno verde" yang ditemukan di wilayah Minho di Portugal Utara. Inputnya dipisahkan menjadi sifat fisikokimia seperti
- Keasaman
- Klorida
- Kepadatan
- tingkat pH
- Sulfat
Adapun output, dataset berisi variabel kualitas anggur sensorik berdasarkan skor antara 0 dan 10
Anda dapat melakukan tugas klasifikasi atau regresi ordinal pada data itu sendiri. Namun, tidak semua fitur yang tersedia diperlukan untuk membuat model yang baik;
Kumpulan Data Pasar Saham
Prediksi pasar selalu menjadi topik hangat di kalangan investor yang ingin memastikan uang mereka masuk ke tempat yang tepat. Berita Harian untuk Prediksi Pasar Saham pada awalnya disiapkan sebagai kumpulan data untuk siswa, tetapi siapa pun dapat bermain-main dengannya karena tersedia untuk diunduh gratis. Dataset terdiri dari 2 saluran
- Data dari berita utama mulai dari tahun 2008 hingga 2016
- Data harga saham berdasarkan Dow Jones Industrial Average [DJIA]
Selain itu, penulis telah membagi saluran tersebut menjadi dua kumpulan data untuk pelatihan [80%] dan untuk pengujian [20%]. Ini menjadikannya sumber yang bagus untuk mempraktikkan metode pembelajaran mendalam dan membangun algoritme prediktif
ImageNet
ImageNet adalah proyek pengumpulan data berkelanjutan yang bertujuan untuk memasok peneliti dan pengembang dengan gambar berkualitas tinggi untuk proyek analisis data skala besar dan penelitian pembelajaran mendalam. Setidaknya ada 1.000 gambar yang mengilustrasikan arti kata yang berbeda atau “kumpulan sinonim”. Terlebih lagi, ini tersedia untuk umum untuk penggunaan non-komersial, menjadikannya kumpulan data yang sempurna bagi siswa yang ingin bereksperimen dengan visi komputer
Pengembang kumpulan data juga telah menjalankan beberapa tantangan pembelajaran mesin terbesar, seperti Tantangan Pengenalan Visual Skala Besar ImageNet [ILSVRC] yang menghasilkan banyak jaringan saraf modern yang canggih. Tantangan ini adalah cara yang bagus untuk mengintegrasikan diri Anda ke dalam komunitas dan menguji kemampuan Anda – terutama jika Anda tertarik untuk menjadi insinyur pembelajaran mesin
Kumpulan Data Diagnosis Kanker Payudara
Kumpulan data lain yang menarik untuk pembelajaran mesin adalah Kumpulan Data Diagnostik Kanker Payudara Wisconsin. Ini menampilkan gambar digital dari aspirasi jarum halus [FNA] dari massa payudara yang, pada gilirannya, menggambarkan fitur inti sel saat ini, seperti jari-jari, tekstur, keliling, luas, dll.
Anda dapat menggunakan data ini sebagai dasar untuk memulai proyek klasifikasi karena distribusinya sangat sederhana dan hanya dipisahkan menjadi dua kategori
- Bening [B]
- Ganas [M]
Ada 569 kasus secara keseluruhan, 357 di antaranya jinak dan 212 ganas. Itu banyak data menarik untuk bereksperimen
Kumpulan Data Ulasan Film IMDB
Jika Anda mencari repositori kumpulan data yang tidak hanya tersedia untuk umum, tetapi juga dikemas dengan data yang diproses dan mentah untuk klasifikasi sentimen biner – kami siap membantu Anda
Kita semua pernah mendengar tentang IMDB, bukan? . Ada juga data yang tidak berlabel jika Anda ingin menghadapi tantangan
Kami merekomendasikannya sebagai titik awal yang baik untuk mempelajari pemrosesan bahasa alami [NPL]
Catatan. Kumpulan data ini termasuk dalam TensorFlow
Atlas Lingkungan Pangan
Data demografis dapat terbukti menjadi alat yang ampuh untuk meningkatkan pemerintahan dan masyarakat suatu negara ketika digunakan sebagai dasar untuk keputusan ekonomi utama, serta membuat perkembangan yang signifikan dalam industri keuangan. Model pembelajaran mesin, yang dilatih pada data pemerintah publik, dapat membantu pembuat kebijakan mengidentifikasi tren dan bersiap menghadapi masalah yang muncul
Kumpulan data khusus ini terdiri dari data tentang bagaimana sumber daya makanan lokal memengaruhi gaya hidup gizi seseorang di Amerika Serikat. Atlas Lingkungan Pangan berisi lebih dari 280 variabel dengan data yang mencakup berbagai sumber, periode waktu, dan lokasi geografis, menjadikannya sumber daya yang cukup komprehensif. Selain itu, ada banyak dokumentasi yang membuat kumpulan data tetap mutakhir, dan semua versi sebelumnya juga tersedia jika Anda ingin membandingkan dan membedakan.
Secara keseluruhan, Atlas Lingkungan Pangan adalah pilihan tepat untuk membangun model prediktif untuk mendapatkan wawasan berharga tentang kebiasaan diet orang dan cara memperbaikinya
Indikator Penyakit Kronis
Kami telah menekankan pentingnya mengumpulkan data demografis. Sekarang, menindaklanjuti poin kami sebelumnya, kami memiliki contoh kumpulan data lain di mana jenis data ini dapat memainkan peran besar
Kumpulan Data Penyakit Kronis terdiri dari data publik, yang dikumpulkan oleh CDC, untuk melacak statistik kesehatan penting di AS. S. Sama seperti Bank Lingkungan Pangan, hal ini menginformasikan pemerintah tentang kecenderungan penyakit kronis di seluruh wilayah negara sehingga pembuat kebijakan dapat meningkatkan praktik kesehatan masyarakat
Catatan. Jika Anda ingin mempelajari lebih lanjut tentang bagaimana data dapat menyelamatkan nyawa, baca artikel kami tentang ilmu data dalam perawatan kesehatan, serta pencitraan medis dan sistem rekomendasi dalam industri medis
Sekali lagi, kumpulan data domain publik ini ideal untuk pembelajaran mesin karena Anda dapat membangun model prediktif berdasarkan data sampel yang terakumulasi selama sekitar 15 tahun terakhir.
Dataset Python Gratis Terbaik. Langkah selanjutnya
Bahkan jika Anda baru saja memulai proyek Python pertama Anda atau sudah memiliki pengalaman yang signifikan dengan pembelajaran mesin, menemukan data sampel yang berkualitas bisa jadi sulit. Dan dengan web yang sudah jenuh seperti itu, kumpulan data sumber terbuka hampir seperti berlian dalam bentuk kasar. Kami telah menyertakan beberapa contoh sumber daya untuk semua tingkat keterampilan, mulai dari pemula hingga pakar, yang pada akhirnya akan membantu Anda mempertajam kemampuan, memperkaya portofolio, dan memungkinkan Anda menempuh jalan menuju karier ilmu data di masa depan
Apakah Anda siap untuk langkah selanjutnya menuju karir di bidang ilmu data?
Program Ilmu Data 365 menawarkan kursus mandiri yang dipimpin oleh pakar industri ternama. Mulai dari yang paling dasar hingga spesialisasi tingkat lanjut, Anda akan belajar dengan melakukan berbagai latihan praktis dan kasus bisnis dunia nyata. Jika Anda ingin melihat cara kerja pelatihan, mulailah dengan pilihan pelajaran gratis dengan mendaftar di bawah ini