Cara mengambil data dari website lain dengan php

Skip to content

Misal kita ingin mengambil judul berita dari website ini //m.news.viva.co.id/news/read/577458-istana-tidak-tahu-soal-rapor-merah-calon-kapolri maka kita bisa menggunakan teknik grabbing data seperti ini:

$url="//m.news.viva.co.id/news/read/577458-istana-tidak-tahu-soal-rapor-merah-calon-kapolri";
[email protected]_get_contents[$url];

$data=preg_replace['/\n+/','', $data];

$data2=preg_replace['//', '', $data2];

echo $judul;

Jika dijalankan maka akan menampilkan judul berita dari link tersebut.

hal ini dikarenakan judul beritanya berada dalam kode:

judul

[Visited 5,068 times, 2 visits today]

Post navigation

Banyak reporter tak menyadari fungsi web inspector. Dengan mengetahui dasar-dasar HTML, jurnalis bisa menggunakannnya untuk beberapa tujuan. Mulai dari mengunduh video dan foto, hingga mengambil data dari website.

Hal tersebut disampaikan Samantha Sunne dalam IRE21, konferensi tahunan yang dihelat Investigative Reporters & Editors. Jurnalis cum pengajar tersebut menyebut kalau perintah “inspect element” web inspector setidaknya bisa digunakan untuk lima tujuan yakni:

  1. Mengekstrak tautan, foto, dan konten

Setiap peramban punya versi Web Inspector-nya masing-masing. “Peramban membaca ‘source code’ — kode yang digunakan untuk membangun situs web — dan menampilkannya pada pengguna,” terang Sunne.

Dalam panduan yang ia sampaikan, Sunne mendetilkan penggunaan Web Inspector. Pada peramban Chrome dan Safari, kamu bisa meletakkan kursor di bagian yang hendak diperiksa dan mengeklik kanan tetikus. Selanjutnya, pilih “Inspect Element” yang ada di bagian bawah kotak pop-up.

Dengan melakukan ini, kamu bisa menemukan hyperlink dan berbagai sumber dari konten yang ada di situs web. Alt text yang digunakan untuk mendeskripsikan konten sebuah gambar atau elemen juga bisa diketahui. Adakalanya, hal tersebut mendetilkan nama orang yang muncul dalam foto, lokasi pengambilan gambar, dan lain sebagainya.

Kode yang dipakai mengidentifikasi foto adalah [] dan tautan []. Untuk mengetahui kode lainnya, kamu bisa membaca panduan referensi HTML.

2. Menyimpan foto

“Mendapatkan file yang sulit didapat adalah salah satu hal yang bisa dilakukan Web Inspector,” ujar Sunne.

Kamu bisa mengambil file asli, bahkan dari situs web seperti Instagram. Untuk melakukannya, hanya butuh tiga langkah sederhana:

//jaring.id/wp-content/uploads/2021/08/Web-scraping_01.mp4

3. Mengambil data dari website secara otomatis

Mengambil data berbentuk tabel di sebuah situs web bisa dilakukan dengan salin dan tempel. Namun, langkah tersebut hanya menghasilkan tabel pada saat itu saja padahal beberapa situs web kerap memperbarui data mereka. Data kasus Covid-19 per negara di situs European Centre for Disease Prevention and Control [ECDC] adalah salah satu contohnya.

Untuk jenis tabel yang terus diperbarui, kamu bisa memanfaatkan Google Sheet untuk mengambil data dari website. Beberapa langkahnya adalah:

Untuk mengetahui teknik mengambil data dari website lainnya, panduan Scraping Without Pogramming yang dibuat Sunne bisa jadi panduan.

4. Mengekstrak data tertentu

Mengambil data dari tabel atau list mungkin berguna untuk investigasimu. Namun, bagaimana bila kamu ingin mengambil elemen tertentu dalam situs web. Judul artikel, misalnya. Dengan menggunakan fungsi ImportXML hal tersebut bisa dilakukan melalui Google Sheet.

Formula yang muncul ketika menjalankan perintah tersebut adalah 

=ImportXML[“url”,”xpath_query”].

“Pada dasarnya XPATH adalah alamat dari elemen tertentu dalam laman,” terang Sunne. Untuk mengetahuinya, kamu lagi-lagi bisa menggunakan fitur “Inspect Element”

Sebagai contoh, untuk mengambil semua judul berita yang ada di laman internasional The New York Times, digunakan formula 

=IMPORTXML[“//www.nytimes.com/section/world”,”//h2“]

5. Aplikasi

Apabila semua hal di atas tak cukup meyakinkanmu untuk memelajari HTML, kamu tetap bisa mengambil data website dengan menggunakan perangkat gratis. Tak perlu menulis formula untuk menggunakannya. Sunne merekomendasikan beberapa perangkat berikut:

Tulisan lainnya:

Smaranda Tolosano melakukan penerjemahan dan kemitraan di GIJN. Ia sebelumnya meliput untuk Thomson Reuters Foundation di Maroko untuk topik penggunaan teknologi mata-mata oleh negara dan kemunculan gerakan feminis di media sosial.

Tulisan ini merupakan saduran dari Digging Up Hidden Data with the Web Inspector yang dipublikasikan Global Investigative Journalism Network [GIJN]. Alih bahasa ini disponsori oleh dana hibah dari Google News Initiative. Untuk menerbitkan ulang tulisan ini, Anda bisa menghubungi [email protected]

Bài mới nhất

Chủ Đề