Apa maksud dari diindeks meskipun diblokir oleh robots.txt

Beranda / hariantrendingtopik.blog

Hariantrendingtopik.com - Pemberitahuan Diindeks Meski Diblokir Oleh Robot.txt pada umumnya akan muncul pada Google web master dengan platform blogger yang usianya belum ada satu tahun dan itu sangat wajar.

Arti dari pemberitahuan di indeks tapi diblokir robot.txt maksudnya adalah ada link yang terakses pada blog kamu kemudian tercrawl dan terindeks oleh sitemap tapi link tersebut diblokil oleh fungsi dari robot.txt.

Penyebab Munculnya Notifikasi Diindeks Meski Diblokir Oleh Robot.txt

Sebelum membahas lebih jauh, kamu yang mencari artikel ini kemungkinan besar menggunakan platform blogger untuk membangun sebuah website. Sekarang coba cek robot.txt yang digunakan, biasanya seperti berikut :

User-agent: Mediapartners-GoogleDisallow: User-agent: *Disallow: /searchAllow: /

Sitemap: //www.domainkamu.com/sitemap.xml

Format robot.txt adalah format yang default atau bawaan sebuah blog. Perhatikan fungsi Disallow: /search , artinya robot blog kamu akan mengindeks semua link yang ter crawl keculai jika ada link hasil dari pencarian atau link yang ada "/search" nya.

Harian Trending Topik :


Oke sekarang perhatikan link yang terblokir robot di bawah ini, semuanya link hasil pencarian atau link yang muncul ketika kita mengklik sebuah label.

Apakah Itu Sebuah Masalah ?

Nhah pada notifikasi di web master memang tertulis "situs anda terpengaruh 1 liputan masalah", padahal aslinya hal tersebut tidak akan menjadi masalah dan tidak akan mempengaruhi blog kedepannya.

Justru sebaliknya, kalau robot di edit dan mengijinkan link search untuk di indeks akan membuat SEO di blog kita kurang bagus karena isinya bukan sebuah konten melainkan daftar konten dari keyword atau label yang dicari.

Cara Mengatasi Diindeks Meski Diblokir Oleh Robot.txt

Terakhir, mungkin buat teman-teman yang baru masuk di dunia blog dan mendapatkan notifikasi tersebut pastinya akan bertanya-tanya bagaimana Cara Mengatasi Diindeks Meski Diblokir Oleh Robot.txt bukan ? Solusinya sederhana saja, selama link yang di blokir ada /search didalamnya, biarkan saja tidak usah merubah apapun termasuk robot.txt default.

Kamu tidak perlu mengedit-edit robot txt ataupun sitemap.xml nya, dengan begitu link yang terindeks hanya berupa link yang terdapat konten jika diakses. Jangan dipikirkan, lanjutkan nge-blog dan lanjutkan membuat konten.

Postingan Lebih Baru Postingan Lama

Selamat Datang di Blog Orang IT. Dibeberapa forum blogger saya sering melihat orang-orang mengeluh terkait permasalahan di indeks meskipun diblokir oleh robots.txt pada laman google search console khususnya bagi pengguna platform blogger. Bagaimana cara memperbaikinya dan apa pengaruhnya bagi blog ?

Kalau menurut saya pribadi sebaiknya anda abaikan saja pesan " di index meskipun diblokir oleh robot.txt" , mengapa ? sekarang coba buka alat GSC > cakupan indeks > geser ke tab status dengan peringatan > scroll kebawah dibagian detail klik pada peringatan ; diindeks , mesipun diblokir oleh robots.txt



Sekarang anda lihat baik-baik , halaman yang dikenai peringatan rata-rata berisi semua halaman pencarian berupa

Halaman label :

//www.helmykediri.com/search/label/Info

Halaman pencarian :

//www.helmykediri.com/search?q=Cara+membuat+blog

Halaman arsip :

//www.helmykediri.com/search?updated-max=2015-09-06T16:36:00%2B07:00&max-results=11

Seperti peringatan yang muncul , halaman-halaman tersebut memang di indeks oleh mesin pencari meskipun diblokir oleh pengaturan robots.txt . Hal ini dikarenakan pengaturan robots.txt yang digunakan oleh blogger secara default terlihat seperti ini :

User-agent: Mediapartners-Google

Disallow: 

User-agent: *

Disallow: /search

Allow: /

Sitemap: //www.helmykediri.com/sitemap.xml

Untuk melihat pengaturan robots.txt yang anda gunakan , tambahkan robots.txt dibelakang root domain contoh //www.helmykediri.com/robots.txt

Seperti yang anda lihat pada aturan robots.txt diatas bahwa semua bot mesin pencari * di ijinkan untuk merayap pada halaman kecuali dengan format namadomain.com/search tetapi bukan berarti itu tidak di indeks

Di indeks, meski diblokir oleh robots.txt: Halaman sudah diindeks, meskipun diblokir oleh robots.txt [Google selalu mematuhi robots.txt, namun tidak berlaku jika seseorang mencoba menaut ke halaman tersebut]. Kondisi ini ditandai sebagai peringatan karena google tidak yakin apakah Anda sengaja memblokir halaman dari hasil penelusuran.

Jika Anda memang ingin memblokir halaman ini, robots.txt bukanlah mekanisme yang tepat untuk mencegah agar halaman tidak diindeks. Agar halaman tidak diindeks, sebaiknya gunakan 'noindex' atau wajibkan autentikasi untuk melarang akses anonim. Anda dapat menggunakan penguji robots.txt untuk menentukan aturan mana yang memblokir halaman ini. Karena robots.txt, semua cuplikan yang ditampilkan untuk halaman mungkin akan kurang optimal. Jika tidak ingin memblokir halaman ini, perbarui file robots.txt agar pemblokiran halaman dibatalkan.

Intinya halaman tersebut tetap di indeks ke mesin pencari google tetapi mungkin saat bot lain mencoba untuk terhubung melalui tautan link itu akan ditolak dan bot tidak akan bisa mendapatkan hasil data dari halaman tersebut karena diblokir saat proses perayapan oleh robots.txt akibatnya meskipun di indeks google tetapi tidak ada data yang ditampilkan



Untuk mengatasi hal ini ada 2 cara :

1. Membolehkan bot mesin pencari untuk merayapi halaman "/search" dan mengijinkan perayapan bagi bot untuk mengekstract data pada halaman tersebut dengan membuka aturan pada file robots.txt

Caranya buka dashboard blogger > menu setelan > preferensi penelusuran > robots.txt khusus > aktifkan > pastekan robots.txt berikut tanpa /search

User-agent: *

Disallow: 

Allow: /

Sitemap: //www.helmykediri.com/sitemap.xml

Lihat gambar , kalau sudah silahkan disimpan


Hapus "/seach"

Kenapa saya menghapus user agent dari bot adsense ?

User-agent: Mediapartners-Google

Disallow: 

Sebenarnya itu tidak berguna coba anda lihat pada robots.txt bawaan blogger default dibaris pertama mereka mengijinkan Mediapartners-Google [bot adsense] untuk merayap kemudian pada baris ketiga mereka menyebut * [semua bot] di ijinkan untuk merayap, jadi sebaiknya dihapus saja

Penjelasannya bisa dibaca di >
//support.google.com/adsense/answer/10532?hl=id

Kemudian untuk sitemap dibaris paling akhir ada banyak versi, ada yang menambahkan semua versi sitemap kedalam robots.txt 

Sitemap: //www.helmykediri.com/sitemap.xml

Sitemap: //www.helmykediri.com/atom.xml?redirect=false&start-index=1&max-results=500

Sitemap: //www.helmykediri.com/feeds/posts/default

Sitemap: //www.helmykediri.com/sitemap-pages.xml

Dan ada juga yang menggunakan 1 versi saja yang sudah mencakup semua url didalam peta situs

Sitemap: //www.helmykediri.com/sitemap.xml [semua url postingan]

Kalau pakai versi > Sitemap: //www.helmykediri.com/feeds/posts/default [cuma dibatasi 50 url terbaru ]

Kalau versi > //www.helmykediri.com/sitemap-pages.xml [ untuk pos halaman statis ]

Untuk versi > //www.helmykediri.com/atom.xml?redirect=false&start-index=1&max-results=500 [ dibatasi url pos 1-500 ]

Meski saya cuma menggunakan 1 sitemap saja : //www.helmykediri.com/sitemap.xml bukan berarti postingan dihalaman statis tidak terindeks hanya saja kurang menjadi prioritas 

2. Memblokir halaman pencarian agar tidak terindex google dengan tag nofollow

Seperti yang anda tau bahwa halaman /search biasanya digunakan untuk arsip , pencarian , label jadi itu tidak dicari orang digoogle alias tidak perlu di indeks kan ke mesin pencari google

Mengapa demikian ? karena itu cuma membuang crawl budget 

Setiap harinya website anda menerima kuota perayapan yang terbatas dari googlebot yang akan memberikan nilai otoritas pada seluruh halaman yang ada dibawah root domain anda, dengan banyaknya jumlah postingan disertai halaman lain [yang tidak penting] akan membuang crawl budget anda 

Halaman-halaman penting dan postingan terbaru yang seharusnya menjadi proritas malah kekurangan nilai karena skor pagerank/otoritas halaman dibagi terlalu banyak

Bagaimana cara agar googlebot tidak mengindeks halaman search ini ? tambahkan sepotong kode berikut tepat dibawah tag head

Simpan template 

Setelah melakukan salah satu dari 2 cara yang saya berikan diatas selanjutnya buka kembali halaman google search console > menu coverage > geser ke tab berlaku dengan peringatan > scroll kebawah dibagian detail klik pada peringatan ; diindeks , meskipun diblokir oleh robots.txt > validate fix



Terakhir silahkan menunggu yahh mungkin sekitar 3-7 hari nanti kalau sudah fix saya update gambarnya dibawah :

Bagaimana cukup mudahkan memperbaiki masalah laporan perayapan digoogle search console terkait di indeks meskipun diblokir oleh robots.txt , ini statusnya bukan "masalah" tetapi "peringatan" bahwa googlebot berusaha memastikan halaman tersebut di indeks tetapi diblokir oleh robots.txt sehingga mungkin menolak tautan dari sumber lain jadi apabila anda ingin agar halaman tersebut tidak di indeks bukan melalui robots.txt melainkan melalui tag noindex

Sekian dan terimakasih

Video yang berhubungan

Bài Viết Liên Quan

Bài mới nhất

Chủ Đề