Sebagai seorang blogger, anda mungkin sudah pernah mendengar kata “robots.txt”. Dan saya yakin, saat pertama kali mendengarnya, anda bingung. Begitu pula dengan saya saat pertama kali mendengarnya. Namun, saat ini insyaallah saya sedikit banyak sudah paham apa itu robots.txt dan bagaimana cara kerjanya. Oleh karena itu, lewat artikel ini saya akan berbagi ilmu yang saya tahu mengenai robots.txt.
Daftar Isi Postingan
Apa itu Robots.txt
Robots.txt adalah sebuah file berformat text (.txt) yang wajib dimiliki setiap situs diinternet yang didaftarkan pada mesin pencari seperti google, yahoo, dan bing. Jadi robots.txt sangat erat hubungannya dengan SEO. Robot.txt berfungsi untuk mengontrol dan mengatur halaman atau direktori mana yang boleh ditampilkan/diindex mesin pencari.
Cara Kerja
Ketika situs anda berdomain namadomain.com didaftarkan pada mesin pencari (misal google), maka secara otomatis anda memperbolehkan atau menyuruh robot perayap mesin pencari tersebut untuk mengunjungi dan merayapi situs namadomain.com. Lalu, Pada saat robot perayap (bot crawler) mesin pencari itu mengunjungi situs anda, file yang pertama kali mereka rayapi adalah robots.txt yang terletak pada . Jadi, file robots.txt harus diletakkan pada direktori utama atau di folder public_html. File robots.txt itu berisi perintah-perintah pada bot crawler mengenai halaman mana saja yang boleh diindex atau ditampilkan di mesin pencari. Hal ini tentu saja untuk melindungi halaman sistem anda untuk diketahui oleh orang-orang. Misalnya halaman Administrator website yang merupakan halaman yang pantang untuk diketahui oleh umum atau diindeks oleh mesin pencari. Disitulah robots.txt melakukan tugasnya. Sama halnya dengan website, Blog juga memiliki file robots.txt. Hanya saja, robots.txt di blog biasanya telah ditetapkan sebagai standar oleh penyedia layanan blognya. Untuk blog blogspot, default robots.txt diatur seperti ini:
disallow:
User-agent: *
disallow: /search
allow: /
sitemap: http://blogURL/feed/posts/default?orderby=UPDATED
Arti dari kode di atas adalah :
1. “User-agent: Mediapartners-Google” : itu berarti bahwa kode yang ditempatkan di bawahnya hanya berlaku untuk Bot Crawler/robot perayap Mediapartners-Google. Mediapartners-Google adalah bot crawler untuk google adsense.
2. “Disallow: ” : Ini berarti bahwa tidak ada batasan halaman merangkak oleh crawler. Dengan kata lain, memungkinkan crawler merangkak semua halaman di situs.
3. “User-agent: *”: ini berarti bahwa kode/perintah yang ditempatkan di bawahnya berlaku padasemua robot crawler (diwakili dengan kode ‘*’).
4. “disallow: /search” : melarang crawler untuk menjelajah url yang memiliki awalan urlbloganda.com/search.
5. “allow: /”: Membiarkan crawler merayapi semua halaman kecuali yang dicantumkan pada perintah disallow.
6. “Sitemap: ” : Ini adalah sitemap dari situs Anda yang diberitahukan kepada crawler agar mudah ketika menjelajahinya lagi. Sitemap berisi semua link yang ada disitus untuk dirayapi crawler.
Kesimpulan :
– File robots.txt memperbolehkan crawler google adsense (User-agent:Mediapartner-Google) untuk menjelajah semua halaman situs anda
– Mengijinkan semua crawler dari mesin pencari manapun (User-agent:*) merangkak semua halaman blog Anda kecuali halaman dengan url yang memiliki awalan urlblog.com/search. Karena halaman dengan url awalan itu merupakan halaman-halaman arsip dan label.
Cara Mengatur Robots.txt
Jika Anda ingin memodifikasi atau mengatur robots.txt Anda, terlebih dahulu Anda harus berhati-hati dan paham betul karena kesalahan pengaturan bisa membuat website anda tidak diindex search engine. Oleh karena itu, sekarang saya akan menjelaskan bagaimana mengatur robots.txt dengan benar.
a. Memblokir url
Tidak hanya kode yang saya jelaskan di atas yang dapat digunakan dalam robots.txt. Contoh kasus, misalnya anda ingin memblokir posting tertentu agar tidak diindeks oleh semua mesin pencari, anda dapat melakukannya dengan menempatkan kode dibawah ini.
disalllow: /2012/11/url-permalink-posting.html
Kode yang saya warnai diatas merupakan contoh struktur url permalink posting blogspot yang di blokir tanpa menuliskan nama domain web di depannya.
b. Memblokir Folder/direktori
Untuk memblokir folder atau direktori (termasuk isinya) pada situs anda, Anda dapat melakukannya seperti pada contoh dibawah. Saya menggunakan direktori pada web dengan wordpress self hosted agar lebih familiar.
disallow: /cgi-bin/
disallow: /wp-admin/
disallow: /wp-includes/
disallow: /wp-content/plugins/
disallow: /wp-content/cache/
disallow: /wp-content/themes/
Kode diatas berarti melarang bot crawler untuk merayapi semua file web yang ada di dalam folder cgbin, wp-admin, wp-includes serta folder plugins, cache, dan themes yang merupakan sub-directory dari folder wp-content.
c. Memblokir URL yang mengandung karakter/kata tertentu
Dengan robots.txt kita juga dapat memblokir url yang memiliki karakter/kata tertentu agar tidak diindeks di mesin pencari. Misalnya saya menggunakan karakter tanda tanya (?) yang biasanya dipakai pada url untuk query string atau pencarian pada web tertentu yang menyebabkan duplikat. user-agent: * disallow: /*?* #untuk memblok semua url yang mengandung “?”. allow: /*?$ #untuk membolehkan akses pada semua url yang memiliki akhiran “?”
c. Memblokir akses pada ekstensi/format file tertentu
Kita juga dapat mengatur robots.txt untuk memblokir file dalam situs anda dengan format tertentu. Misalnya, kita akan memblokir file dengan format php (php), css (css) dan javascript (js).
disallow: /*.php$
disallow: /*.js$
disallow: /*.css$
User Agent
Saat mengatur robots.txt, Anda dapat mengatur mana saja bot crawler yang diperbolehkan atau dilarang untuk mengakses atau merayapi web anda secara spesifik. Oleh karena itu, Anda harus mengetahui nama beberapa bot crawler dari mesin pencari paling terkenal.
- Google Adsense : Mediapartners-google
- Google Search Engine : Googlebot
- Altavista : Scooter
- Lycos : Lycos_Spider_ (T-Rex)
- Alltheweb : FAST-WebCrawler /
- Inktomi : Slurp
- Yahoo : Yahoo Slurp
- MSN : msnbot
Okey, kali ini tu saja yang bisa saya bagikan. Masih bingung? jangan sungkan buat bertanya di komentar. Insyaallah akan saya jawab sebisa saya. Semoga bermanfaat.
~Muhammad Syakirurohman~
ki sekar
mantap sekali penjelasannya… terimakasih banyak mas syakirurohman salam santun
ki sekar
izin menyisipkan backlink hhee…
http://www.mustikasakralspiritual.com
sekali lagi terimakasih… salam rahayu
Catatan Sistel
Mau tanya gan ? apa efek jika ada url yang mengandung karakter ?
Syakir Rahman
ga masalah mas..
JATIBAGUS
saya suka Tutornya Mas Syakir Rahman sngat detail… kalau gini saya tidak ragu lagi untuk memprakteknya.
numpang dikit boleh ya Mas. hehe
http://www.jatibagus.com/sofa-emas-mewah-jepara/
dehan
mohon petunjuk cara mengatasi tag judul duplicate seperti ini :
http://www.dewalaptopku.com/sony-vaio-sve141j11w-core-i3-ivybridge-win-8-ori/
http://www.dewalaptopku.com/sony-vaio-sve141j11w-core-i3-ivybridge-win-8-ori
mohon diperhatikan di akhir url ada perbedaan karakter ( / )
thanks.
Syakir Rahman
Sebenarnya itu adalah halaman yang sama mas.. Jika ingin tidak terdeteksi duplicate tag judul, maka gunakan salah satu url pada link ke halaman tersebut..
dehan
maksud sy bagaimana cara blokir di robot.txt salah satu url diatas ?,
perlu diketahui bahwa jumlah tag judul duplicate jumlah nya ada ratusan.
tkanks.
Syakir Rahman
Kan sudah saya jelaskan di atas tentang cara memblokir URL, coba dibaca lagi.. Kalau jumlahnya ada ratusan, biasanya kesalahan ada di meta tag conditional-nya.. coba baca posting ini mas, tapi english : http://www.syakirurohman.net/en/2012/10/solve-duplicate-meta-description-problem.html
boy panjaitan
mau nanya mas, kalo mau buat sicky sidebar kayak yang website mas punya ini gimana yah. boleh minta tutorial nya gak?
Syakir Rahman
Ada mas, coba baca posting ini : Cara membuat sticky widget
dykrullah
Makasih ya bang infonyaa
sandy prastioz
wah ane bookmark dulu deh :3
Amry Martin
Terima Kasih telah berbagi ilmu yang sangat penting untuk saya, makluk saya masih pemula…hahaha
Jika Anda membutuhkan Drivers printer silahkan kunjungi situs saya di http://www.agendriver.com/
Prisma Try Laksana
Kalau blog saya waktu dicek di Webmaster untuk Mediapartners-Google disallow, berarti udah kena bann GA ya ? 🙁
Situsaya
thanks gan infonya..
Potaru
Thanks Info nya ^^
http://potaru-shop.blogspot.com/
Faiz Ihsan
Owalah, jadi seperti itu ya gan fungsi robot.txt
Terimakasih infonya, saya jadi mengerti sekarang 🙂
Jangan lupa baca Artikel Baru !
Khizbulloh Huda
Kalau saya pakai yang default aja, takut ada apa-apa
Riyadi
Mantab gan artikelnya…
Ane coba terapin robots d blog ane tapi kadang masih error…
Coba ane terapi tutorial ini…
Monggo berkunjung ke web ane mengenai jaringan telekomunikasi d riyadiaja.com
Rizal
bagus dan sangat detail dan saya jadi lebih ngerti tentang robot txt
mampir juga ke sini ya http://rampesteam.blogspot.com/
pion
Ulasannya cukup detail, dan cukup gampang untuk dimengerti, izin praktek ya gan.
Rangga
mengenai tutorialnya sih cukup mudah dimengerti, tp ane masih kwatir ngutak atik masalah robot.txt, salah-salah malah blog gk ke index.
tempat tidur tingkat
terus cara gunain /modifakasi robot text gimana gan..saya mau coba tapi takut…mungkin ada tutorialnya biar bisa tak praktekin
Syakir Rahman
Itu di atas sudah dijelaskan mas
Cream Qweena
kalau mengatasi masalah itu di quora.com gmn mas?
Syakir Rahman
Kok di quora ? quora kan cuma tempat nanya
qoziem
Gan mau nanya ..masih newbie
Jadi kalau kita ubah robot txt tersebut pengaruhnya apa?
Terima kasih
Thanks
Syakir Rahman
Robots.txt itu semacam perintah untuk mesin pencari.. halaman mana yang harus ditampilkan atau tidak di mesin pencari (google).. kalau salah settingnya, bisa menyebabkan blog tidak muncul di google
Baron
Gan newbie masih mau tanya ni…
dimana kita bisa setting robot.txt
Syakir Rahman
Kalo di blogger ada di setting, kalo di wp pakai plugin wp robots.txt
Maul
Mas, klo mslah yg dicekal sma Robot.txt itu gmn ya? pdhal ga diapa”in, mau otak atik robot.txtny, takut ad ap”, msih newbie soalny, hehe
Syakir Rahman
url yang dicekal tidak bisa di index oleh mesin pencari.. kalo belum begitu paham, lebih baik jangan di otak-atik dulu.. defaultnya halaman blog di blogger memang ada beberapa yang seharusnya di cekal kok
Archie Chuenca
ane mau tanya gan. .
kok di search console ane, kan ada tampilan thumbnail blog/site yang kita punya tuh ya. .
ane kemaren ganti template blog tapi kok tampilan thumbnail di daftar site search console ane tetep sama aja ya? maksud ane tampilan blog ane yang keliatan di daftar site/blog yang kita daftarkan di search console itu ga berubah, padahal kan udah ganti template.
Syakir Rahman
Blom aja kali gan.. tunggu aja nanti juga ganti sendiri
galang
Robots.txt saya terdapat tanda seru kuning, cara memperbaikinya gimana ya?
saya pakai wordpress
Syakir Rahman
Coba pakai plugin aja.. banyak kok
Ferdi
klo wordpress gmn pakenya gan?
Syakir Rahman
Pakai plugin aja.. cari keywordnya wp robots
Han
Sangat bermanfaat dan tambah wawasan tp saya masih kurang paham untuk sitemap nya om apa itu lokasi sitemap.xml atau bukan ya. Thx
Syakir Rahman
untuk memastikan itu url sitemapnya atau bukan.. yang tinggal buka di browser.. nanti ada sitemapnya..
Frisko Mayufid
Cara setting nya dimananya ya mas?
http://www.friskomayufid.blogspot.com
Syakir Rahman
Diatas sudah dijelaskan
Athayaonlinestore
Kang mau tanya, kalo mau liat robot text kita ada dmn ya? Di edit template atau dimana?
Syakir Rahman
Kalau di blogger, ada di settings > search preferences > crawlers & indexing (scroll ke bagian bawah)
kalau bahasa indonesia ada di setelan > preferensi pencarian > perayap dan pengindeksan
alan
siang mas …
mw nanya , search console ada tanda seru kuning dan seperti ini /sitemap_index.xml
2 link warnings , link itu kalau dihapus kira2 gmn mas …
apakah web kita bisa terbaca mesin pencari / tanda centang hijau kembali …
tolong infonya … tks
Syakir Rahman
Kalo tanda seru kuning biasanya ada pesan errornya gan.. coba dibaca disitu apa.. perkiraan saya sih web agan sitemap_index.xml-nya ga ada atau error ?
andi
Di search console banyak muncul peringatan pada peta situs, umumnya karena memang saya blok url di robots txt terutama di wp-content imagenya. Yang menjadi pertanyaan apa itu tidak masalah dari sisi seo nya mas? Mohon pencerahannya.
Salam kenal
syakirurahman
Hoo, sebaiknya kalo file di wp-content terutama bagian upload jangan di block mas.. kecuali bagian plugin atau themes, itu sah-sah aja di blok
Masboy
bgaimana kalau robot.txt tersebut tidak ada atau dinon-aktivkan di blog? apa yang terjadi..
Syakir Rahman
Kalo menggunakan blogger, maka ngga masalah karena otomatis akan di setting ke default blogger.. kalo website yang independent atau tanpa software CMS, maka itu akan bermasalah karena bisa membocorkan semua informasi di website yang seharusnya tidak ditampilkan di mesin pencari (google)
sungkono
syukur dah jadi tahu maksudnya robots itu apa,, mksh banyak informasinya..
mulyadi gedong
mas, saya ngecek web saya di small seo tools hasil check Robots.txt testnya “Warning! Your site does not use “robots.txt” file, maksudnya apa? bagaimana memperbaikinya? mohon pencerahannya ane masih pemula
syakirurahman
Itu artinya situsnya ga ada file robots.txt. Jadi nantinya mesin pancari kaya google bingung mau di index atau ngga
sellervimax
kalo bikin robot txt pada website yg tanpa cms gmn gan,. misalnya pada web berbasis bosstrap spt sellervimax.com ini ..?
Syakir Rahman
Harus bikin secara manual.. bootstrap ga ada hubungannya sama ini.. tinggal bikin file robots.txt di folder root websitenya sehingga bisa diakses se[erti ini : namadomain.com/robots.txt .. untuk settingnya, ikuti langkah2 diatas
Pengrajin Rumah Kayu
artikel yang menarik gan.
gan saya mau tanya kenapa semua artikel saya tidak dapat di baca search engine padahal ada sebagian artikel yang dapat di baca
ini blog saya gan…
https://pengrajinrumahkayu.blogspot.co.id/
mohon pencerahannya
Syakir Rahman
Belum keindex kali gan.. gunakan fetch as google aja di google webmaster
nariyo
Sangat bermanfaat Gan,.matur suwun..
nariyo
Sangat bermanfaat postingan nya Gan,.suwun Gan..
laptop bekas surabaya
terima kasih atas infonya. wat yg ingin cari laptop bekas di surabaya silakan kunjungi toko kami di http://techno-comp.com
Tempa Tidur murah
oh ernyata gitu gunanya ya kak, baru tau saya
siewom
womsurabaya.id
terima kasih sangat membantu sebagai pemula di dunia website
inuu
ow……infonya bermanfaat, ijin bookmark
Iman
Mantap banget gan, ilmu nya sangat bermanfaat.. Terimakasih banyakk
Gadget
mantap terimakasih
Yugni Maulana aziz
terimakasih gan
Furniture jepara murah
Makasih gan,tambah pengetahuan lagi ni
Sugeng
Makasih gan informasinya
Fini Nurfini, Skep,Akp
beruntung aku nemu artikel mu agan , makasih banyak nih sangat manfaat banget buat aku nambah wawasan nge blog ku
RICKY
susah bacanya kalo bisa background jangan biru tua
terima penukaran koin valas
Tambah pusing baca tentang robot txt di bikinin orang sebabnya sy punya robot txt
rheza
mau nanya gan, dalam contoh ini bot crawler yang digunakan Mediapartners-google, sedangkan macamnya kan banyak (misal: msn, yahoo, dll), kalau menggunakan semua bot crawler pada 1 file robots.txt apakah bisa?
syakirurahman
bisa, biasanya secara default robots.txt dibuat untuk semua bot crawler. di bagian user-agents nya di isi tanda ‘*’
Anto Ramana
mau nanya, perlu nggak ya mengatur robot.txt khusus untuk blogger?
syakirurahman
Sebaiknya kalo blogger ga usah kalo blognya cuma sekedar nulis posting aja.
admin muzi
totorialnya mantap mudah dipahami, tapi kalau pakai robot.txt pada plugin All In One SEO, gimana ya ?
apa sama saja ?
perlu penceraan, dan bisa dibales di email ane mas ?
hehehehe 🙂 http://muzi.pe.hu
syakirurahman
Sama saja gan
ada api
kalau pengindekssan di block oleh robot txt di webmaster apa itu gak jadi masalah?
syakirurahman
Kalo yang di blocknya banyak jadi masalah.. tapi kalau cuma beberapa itu memang normal
Mayuf
Terimakasih mas admin, saya jadi tambah paham
c-devart
thanks bermafaat sob.
https://cdevart.blogspot.com
Akbar
Terima kasih mas, tapi pertanyaan saya jika wp-content kita disallow apa postingannya diblokir ?
Syakir Rahman
Tidak akan diblokir, tapi gambar atau file yang di dalamnya yang blokir di google. Misal, artikelnya muncul di google, tapi gambar dalam artikelnya tidak akan muncul
dagu2
langsung prakter biar lebih paham
Fatta
Udah saya tambah disallow, paste link, tapi setelah direfresh tidak muncul. Kenapa ya Mas?
syakirurahman
Tidak muncul apanya ya maksudnya ?
Kiki
Gan kmrin ane dapat email dari google search console team… katanya ada masalah di web sya “di index meskipun di block robots.txt” pas sya liat masalahnya di disallow= /search….
jadi klo gitu mending di perbaiki di template atau di robots.txt nya
Syakir Rahman
Itu sebenarnya normal mas. Blogger emang secara default ngedissalow page search karena selalu berubah2
Atho Bekhen
kak kalo robot.txt nya di aktifkan di blog yg khusus pemula akan berdampak apa kak ? apa pencarian blog kita masuk di search google atau gimana kak ? maaf sebelumnya kak saya masih pemula saya belum paham sekali tentang blog
Syakir Rahman
Kalo masih belum paham sebaiknya jangan di edit-edit dulu. Robots.txt sudah otomatis aktif di blog
Husni El Mubarok
kalau dibaca dari awal sampai akhir artikel di atas, plus sama comment yang masuk. bisa disimpulkan bahwa, bagi pemula (seperti saya), ada baiknya untuk untuk dimerubah robots. txt bawaan google ya mas. Kalau nih, robots. txt khusus tersebut tidak kita aktifkan, apakah berdampak pada blog kita?. plus minusnya apa buat blog kita? (maklum mas Noob, :D)