Paano harangan ang isang site mula sa pag-index sa robots.txt: mga tagubilin at rekomendasyon

Talaan ng mga Nilalaman:

Paano harangan ang isang site mula sa pag-index sa robots.txt: mga tagubilin at rekomendasyon
Paano harangan ang isang site mula sa pag-index sa robots.txt: mga tagubilin at rekomendasyon
Anonim

Ang gawain ng isang SEO-optimizer ay napakalaking sukat. Pinapayuhan ang mga nagsisimula na isulat ang algorithm ng pag-optimize upang hindi makaligtaan ang anumang mga hakbang. Kung hindi, halos hindi matatawag na matagumpay ang promosyon, dahil ang site ay patuloy na makakaranas ng mga pagkabigo at mga error na kailangang itama sa mahabang panahon.

Ang isa sa mga hakbang sa pag-optimize ay gumagana sa robots.txt file. Ang bawat mapagkukunan ay dapat magkaroon ng dokumentong ito, dahil kung wala ito ay magiging mas mahirap na makayanan ang pag-optimize. Gumaganap ito ng maraming function na kailangan mong maunawaan.

Robot Assistant

Ang robots.txt file ay isang plain text na dokumento na maaaring tingnan sa karaniwang Notepad ng system. Kapag nililikha ito, dapat mong itakda ang pag-encode sa UTF-8 upang mabasa ito nang tama. Gumagana ang file sa mga protocol ng http, https at FTP.

Ang dokumentong ito ay isang katulong sa paghahanap ng mga robot. Kung sakaling hindi mo alam, ang bawat system ay gumagamit ng "mga spider" na mabilis na nag-crawl sa World Wide Web upang ibalik ang mga nauugnay na site para sa mga query.mga gumagamit. Dapat may access ang mga robot na ito sa resource data, gumagana ang robots.txt para dito.

Upang mahanap ng mga spider ang kanilang daan, kailangan mong ipadala ang dokumentong robots.txt sa root directory. Upang tingnan kung ang site ay mayroong file na ito, ilagay ang “https://site.com.ua/robots.txt” sa address bar ng browser. Sa halip na "site.com.ua" kailangan mong ilagay ang mapagkukunang kailangan mo.

Nagtatrabaho sa robots.txt
Nagtatrabaho sa robots.txt

Mga function ng dokumento

Ang robots.txt file ay nagbibigay sa mga crawler ng ilang uri ng impormasyon. Maaari itong magbigay ng bahagyang pag-access upang ang "spider" ay mag-scan ng mga partikular na elemento ng mapagkukunan. Binibigyang-daan ka ng buong pag-access na suriin ang lahat ng magagamit na mga pahina. Pinipigilan ng kumpletong pagbabawal ang mga robot na magsimulang magsuri, at umalis sila sa site.

Pagkatapos bisitahin ang mapagkukunan, ang "mga spider" ay makakatanggap ng naaangkop na tugon sa kahilingan. Maaaring may ilan sa kanila, ang lahat ay nakasalalay sa impormasyon sa robots.txt. Halimbawa, kung matagumpay ang pag-scan, matatanggap ng robot ang code 2xx.

Marahil ang site ay na-redirect mula sa isang pahina patungo sa isa pa. Sa kasong ito, natatanggap ng robot ang code 3xx. Kung nangyari ang code na ito nang maraming beses, susundan ito ng gagamba hanggang makatanggap ito ng isa pang tugon. Bagaman, bilang panuntunan, gumagamit lamang siya ng 5 pagtatangka. Kung hindi, lalabas ang sikat na 404 error.

Kung ang sagot ay 4xx, pinapayagan ang robot na i-crawl ang buong nilalaman ng site. Ngunit sa kaso ng 5xx code, maaaring ganap na huminto ang pagsusuri, dahil madalas itong nagpapahiwatig ng mga pansamantalang error sa server.

Maghanap ng mga robot
Maghanap ng mga robot

Para saankailangan ng robots.txt?

Tulad ng maaaring nahulaan mo, ang file na ito ay gabay ng mga robot sa ugat ng site. Ngayon ay ginagamit na ito upang bahagyang paghigpitan ang pag-access sa hindi naaangkop na nilalaman:

  • mga pahinang may personal na impormasyon ng mga user;
  • mirror sites;
  • mga resulta ng paghahanap;
  • mga form sa pagsusumite ng data, atbp.

Kung walang robots.txt file sa root ng site, ganap na iko-crawl ng robot ang lahat ng content. Alinsunod dito, maaaring lumitaw ang mga hindi gustong data sa mga resulta ng paghahanap, na nangangahulugang ikaw at ang site ay magdurusa. Kung may mga espesyal na tagubilin sa dokumentong robots.txt, susundan sila ng "spider" at ibibigay ang impormasyong nais ng may-ari ng mapagkukunan.

Paggawa gamit ang isang file

Upang gamitin ang robots.txt upang harangan ang site mula sa pag-index, kailangan mong malaman kung paano gawin ang file na ito. Upang gawin ito, sundin ang mga tagubilin:

  1. Gumawa ng dokumento sa Notepad o Notepad++.
  2. Itakda ang extension ng file na ".txt".
  3. Ilagay ang kinakailangang data at command.
  4. I-save ang dokumento at i-upload ito sa root ng site.

Tulad ng nakikita mo, sa isa sa mga yugto, kinakailangan na magtakda ng mga utos para sa mga robot. Ang mga ito ay may dalawang uri: pagpapahintulot (Allow) at pagbabawal (Disallow). Gayundin, maaaring tukuyin ng ilang optimizer ang bilis ng pag-crawl, host, at link sa mapa ng pahina ng mapagkukunan.

Paano isara ang isang site mula sa pag-index
Paano isara ang isang site mula sa pag-index

Upang magsimulang magtrabaho sa robots.txt at ganap na ma-block ang site mula sa pag-index, dapat mo ring maunawaan ang mga simbolo na ginamit. Halimbawa, sa isang dokumentogamitin ang "/", na nagpapahiwatig na ang buong site ay napili. Kung "" ang ginamit, kinakailangan ang isang pagkakasunod-sunod ng mga character. Sa ganitong paraan, posibleng tumukoy ng partikular na folder na maaaring i-scan o hindi.

Tampok ng mga bot

Ang "Spider" para sa mga search engine ay iba, kaya kung magtatrabaho ka para sa ilang mga search engine nang sabay-sabay, kakailanganin mong isaalang-alang ang sandaling ito. Magkaiba ang kanilang mga pangalan, ibig sabihin, kung gusto mong makipag-ugnayan sa isang partikular na robot, kakailanganin mong tukuyin ang pangalan nito: “User Agent: Yandex” (nang walang mga panipi).

Kung gusto mong magtakda ng mga direktiba para sa lahat ng search engine, kailangan mong gamitin ang command na: "User Agent: " (nang walang mga panipi). Upang maayos na ma-block ang site mula sa pag-index gamit ang robots.txt, kailangan mong malaman ang mga detalye ng mga sikat na search engine.

Ang katotohanan ay ang pinakasikat na mga search engine na Yandex at Google ay may ilang mga bot. Bawat isa sa kanila ay may kanya-kanyang gawain. Halimbawa, ang Yandex Bot at Googlebot ang pangunahing "mga spider" na gumagapang sa site. Alam ang lahat ng mga bot, magiging mas madaling i-fine-tune ang pag-index ng iyong mapagkukunan.

Paano gumagana ang robots.txt file
Paano gumagana ang robots.txt file

Mga Halimbawa

Kaya, sa tulong ng robots.txt, maaari mong isara ang site mula sa pag-index gamit ang mga simpleng command, ang pangunahing bagay ay upang maunawaan kung ano ang partikular na kailangan mo. Halimbawa, kung gusto mong hindi lapitan ng Googlebot ang iyong mapagkukunan, kailangan mong bigyan ito ng naaangkop na utos. Magmumukha itong: "User-agent: Googlebot Disallow: /" (walang mga panipi).

Ngayon kailangan nating maunawaan kung ano ang nasa utos na ito at kung paano ito gumagana. Kaya "User-agent"ay ginagamit upang gumamit ng direktang tawag sa isa sa mga bot. Susunod, ipinapahiwatig namin kung alin, sa aming kaso ito ay Google. Ang utos na "Disallow" ay dapat magsimula sa isang bagong linya at ipagbawal ang robot sa pagpasok sa site. Ang simbolo ng slash sa kasong ito ay nagpapahiwatig na ang lahat ng mga pahina ng mapagkukunan ay pinili para sa pagpapatupad ng command.

Para saan ang robots.txt?
Para saan ang robots.txt?

Sa robots.txt, maaari mong huwag paganahin ang pag-index para sa lahat ng mga search engine gamit ang isang simpleng command: "User-agent:Disallow: /" (nang walang mga panipi). Ang asterisk character sa kasong ito ay tumutukoy sa lahat ng mga robot sa paghahanap. Karaniwan, ang naturang command ay kinakailangan upang i-pause ang pag-index ng site at simulan ang pangunahing gawain dito, na kung hindi man ay maaaring makaapekto sa pag-optimize.

Kung ang mapagkukunan ay malaki at may maraming mga pahina, madalas itong naglalaman ng pagmamay-ari na impormasyon na alinman ay hindi kanais-nais na ibunyag, o maaari itong negatibong makaapekto sa promosyon. Sa kasong ito, kailangan mong maunawaan kung paano isara ang page mula sa pag-index sa robots.txt.

Maaari mong itago ang alinman sa isang folder o isang file. Sa unang kaso, kailangan mong magsimulang muli sa pamamagitan ng pakikipag-ugnayan sa isang partikular na bot o sa lahat, kaya ginagamit namin ang command na "User-agent", at sa ibaba ay tinukoy namin ang command na "Disallow" para sa isang partikular na folder. Ito ay magiging ganito: "Huwag Pahintulutan: / folder /" (nang walang mga panipi). Sa ganitong paraan itatago mo ang buong folder. Kung naglalaman ito ng ilang mahalagang file na gusto mong ipakita, kailangan mong isulat ang command sa ibaba: “Payagan: /folder/file.php” (nang walang mga panipi).

Suriin ang file

Kung gumagamit ng robots.txt upang isara ang site mula saNagtagumpay ka sa pag-index, ngunit hindi mo alam kung gumagana nang tama ang lahat ng iyong mga direktiba, maaari mong suriin ang kawastuhan ng trabaho.

Una, kailangan mong suriin muli ang pagkakalagay ng dokumento. Tandaan na dapat itong eksklusibo sa root folder. Kung ito ay nasa root folder, hindi ito gagana. Susunod, buksan ang browser at ipasok ang sumusunod na address doon: "https://yoursite. com/robots.txt" (nang walang mga panipi). Kung magkakaroon ka ng error sa iyong web browser, kung gayon ang file ay wala sa dapat na lugar.

Paano isara ang isang folder mula sa pag-index
Paano isara ang isang folder mula sa pag-index

Maaaring suriin ang mga direktif sa mga espesyal na tool na ginagamit ng halos lahat ng webmaster. Pinag-uusapan natin ang tungkol sa mga produkto ng Google at Yandex. Halimbawa, sa Google Search Console mayroong isang toolbar kung saan kailangan mong buksan ang "Crawl", at pagkatapos ay patakbuhin ang "Robots.txt File Inspection Tool". Kailangan mong kopyahin ang lahat ng data mula sa dokumento papunta sa window at simulan ang pag-scan. Ang eksaktong parehong pagsusuri ay maaaring gawin sa Yandex. Webmaster.

Inirerekumendang: