Paano i-set up nang tama ang Robots.txt?

Talaan ng mga Nilalaman:

Paano i-set up nang tama ang Robots.txt?
Paano i-set up nang tama ang Robots.txt?
Anonim

Ang tamang Robots txt para sa html site ay lumilikha ng mga action mockup para sa mga search engine bot, na nagsasabi sa kanila kung ano ang maaari nilang suriin. Ang file na ito ay madalas na tinutukoy bilang ang Robot Exclusion Protocol. Ang unang bagay na hinahanap ng mga bot bago i-crawl ang isang website ay robots.txt. Maaari itong tumuro o sabihin sa Sitemap na huwag suriin ang ilang mga subdomain. Kapag gusto mong hanapin ng mga search engine kung ano ang pinakamadalas na makita, hindi kinakailangan ang robots.txt. Napakahalaga sa prosesong ito na ang file ay na-format nang tama at hindi ini-index ang pahina ng user gamit ang personal na data ng user.

prinsipyo sa pag-scan ng robot

Ang prinsipyo ng pag-scan ng robot
Ang prinsipyo ng pag-scan ng robot

Kapag ang isang search engine ay nakatagpo ng isang file at nakakita ng isang ipinagbabawal na URL, hindi ito nagko-crawl, ngunit maaari itong mag-index. Ito ay dahil kahit na hindi pinapayagan ang mga robot na tingnan ang nilalaman, maaalala nila ang mga backlink na tumuturo sa ipinagbabawal na URL. Dahil sa na-block na access sa link, lalabas ang URL sa mga search engine, ngunit walang mga fragment. Kung angpara sa papasok na diskarte sa marketing, kailangan ang tamang Robots txt para sa bitrix (Bitrix), nagbibigay sila ng pag-verify ng site sa kahilingan ng user ng mga scanner.

Sa kabilang banda, kung hindi maayos na na-format ang file, maaari itong magresulta sa hindi pagpapakita ng site sa mga resulta ng paghahanap at hindi na matagpuan. Hindi ma-bypass ng mga search engine ang file na ito. Maaaring tingnan ng programmer ang robots.txt ng anumang site sa pamamagitan ng pagpunta sa domain nito at pagsunod dito gamit ang robots.txt, halimbawa, www.domain.com/robots.txt. Gamit ang isang tool tulad ng seksyon ng SEO optimization ng Unamo, kung saan maaari kang magpasok ng anumang domain, at magpapakita ang serbisyo ng impormasyon tungkol sa pagkakaroon ng file.

Mga paghihigpit para sa pag-scan:

  1. May luma o sensitibong content ang user.
  2. Ang mga larawan sa site ay hindi isasama sa mga resulta ng paghahanap ng larawan.
  3. Hindi pa handa ang site para sa demo na mai-index ng robot.

Tandaan na ang impormasyong gustong matanggap ng isang user mula sa isang search engine ay magagamit ng sinumang papasok sa URL. Huwag gamitin ang text file na ito upang itago ang sensitibong data. Kung ang domain ay may 404 (not found) o 410 (passed) error, sinusuri ng search engine ang site sa kabila ng pagkakaroon ng robots.txt, kung saan isinasaalang-alang nito na nawawala ang file. Ang iba pang mga error gaya ng 500 (Internal Server Error), 403 (Forbidden), nag-time out, o "not available" ay gumagalang sa mga tagubilin sa robots.txt, gayunpaman, maaaring maantala ang bypass hanggang sa maging available ang file.

Paggawa ng file sa paghahanap

Paglikha ng file sa paghahanap
Paglikha ng file sa paghahanap

MaramiAng mga CMS program gaya ng WordPress ay mayroon nang robots.txt file. Bago maayos na i-configure ang Robots txt WordPress, kailangang pamilyar ang user sa mga kakayahan nito upang malaman kung paano ito ma-access. Kung mismong ang programmer ang gumawa ng file, dapat nitong matugunan ang mga sumusunod na kundisyon:

  1. Dapat ay nasa maliit na titik.
  2. Gumamit ng UTF-8 encoding.
  3. I-save sa isang text editor bilang isang file (.txt).

Kapag hindi alam ng user kung saan ito ilalagay, nakikipag-ugnayan sila sa vendor ng software ng web server upang malaman kung paano i-access ang root ng isang domain o pumunta sa Google console at i-download ito. Gamit ang function na ito, masusuri din ng Google kung gumagana nang tama ang bot at ang listahan ng mga site na na-block gamit ang file.

Ang pangunahing format ng tamang Robots txt para sa bitrix (Bitrix):

  1. Legend robots.txt.
  2. , nagdaragdag ng mga komentong ginagamit bilang mga tala lamang.
  3. Ang mga komentong ito ay hindi papansinin ng mga scanner kasama ng anumang mga typo ng user.
  4. User-agent - isinasaad kung saang search engine nakalista ang mga tagubilin para sa file.
  5. Ang pagdaragdag ng asterisk () ay nagsasabi sa mga scanner na ang mga tagubilin ay para sa lahat.

Isinasaad ang isang partikular na bot, halimbawa, Googlebot, Baiduspider, Applebot. Sinasabi ng Disallow sa mga crawler kung aling mga bahagi ng website ang hindi dapat i-crawl. Mukhang ganito: User-agent:. Ang asterisk ay nangangahulugang "lahat ng mga bot". Gayunpaman, maaari mong tukuyin ang mga pahina para sa partikularmga bot. Para magawa ito, kailangan mong malaman ang pangalan ng bot kung saan nakatakda ang mga rekomendasyon.

Ang tamang robots txt para sa Yandex ay maaaring ganito ang hitsura:

Tamang robots txt para sa Yandex
Tamang robots txt para sa Yandex

Kung hindi dapat i-crawl ng bot ang site, maaari mo itong tukuyin, at upang mahanap ang mga pangalan ng mga user agent, inirerekomenda na maging pamilyar ka sa mga online na kakayahan ng useragentstring.com.

Pag-optimize ng page

Pag-optimize ng pahina
Pag-optimize ng pahina

Ang sumusunod na dalawang linya ay itinuturing na isang kumpletong robots.txt file, at ang isang solong robots file ay maaaring maglaman ng maraming linya ng mga user agent at mga direktiba na hindi pinapagana o pinapagana ang pag-crawl. Ang pangunahing format ng tamang Robots txt:

  1. Agent ng user: [username ng ahente].
  2. Disallow: .

Sa file, ang bawat bloke ng mga direktiba ay ipinapakita bilang discrete, na pinaghihiwalay ng isang linya. Sa file sa tabi ng direktoryo ng user ng ahente, inilalapat ang bawat panuntunan sa isang partikular na hanay ng mga linyang pinaghihiwalay ng seksyon. Kung ang isang file ay may multi-agent na panuntunan, isasaalang-alang lamang ng robot ang pinakaespesipikong pangkat ng mga tagubilin.

Teknikal na syntax

Teknikal na Syntax
Teknikal na Syntax

Maaari itong ituring na "wika" ng mga robots.txt file. Mayroong limang termino na maaaring umiral sa format na ito, ang mga pangunahing termino ay kinabibilangan ng:

  1. User-agent - Web crawler na may mga tagubilin sa pag-crawl, karaniwang isang search engine.
  2. Ang Disallow ay isang command na ginagamit upang sabihin sa user agent na mag-bypass(pagtanggal) ng isang partikular na URL. Mayroon lamang isang ipinagbabawal na kondisyon para sa bawat isa.
  3. Payagan. Para sa Googlebot na nakakakuha ng access, kahit na ang user page ay tinanggihan.
  4. Crawl-delay - tumutukoy kung ilang segundo ang kakailanganin ng crawler bago mag-crawl. Kapag hindi ito nakumpirma ng bot, itatakda ang bilis sa Google console.
  5. Sitemap - Ginagamit upang mahanap ang anumang mga XML na mapa na nauugnay sa isang URL.

Pattern Match

Pagdating sa aktwal na pag-block ng mga URL o pagpayag sa wastong Robots txt, ang mga pagpapatakbo ay maaaring medyo nakakalito dahil pinapayagan ka nitong gumamit ng pagtutugma ng pattern upang masakop ang ilang posibleng mga parameter ng URL. Parehong gumagamit ang Google at Bing ng dalawang character na tumutukoy sa mga page o subfolder na gustong ibukod ng SEO. Ang dalawang character ay ang asterisk () at ang dollar sign ($), kung saan:ay isang wildcard na kumakatawan sa anumang sequence ng mga character. $ - tumutugma sa dulo ng URL.

Nag-aalok ang Google ng malaking listahan ng mga posibleng syntax ng template na nagpapaliwanag sa user kung paano mag-set up nang maayos ng Robots txt file. Kasama sa ilang karaniwang kaso ng paggamit ang:

  1. Pigilan ang duplicate na content na lumabas sa mga resulta ng paghahanap.
  2. Panatilihing pribado ang lahat ng seksyon ng website.
  3. I-save ang mga panloob na page ng mga resulta ng paghahanap batay sa bukas na pahayag.
  4. Isaad ang lokasyon.
  5. Pigilan ang mga search engine na mag-index ng ilang partikularmga file.
  6. Pagtukoy ng pagkaantala sa pag-crawl upang ihinto ang pag-reload kapag nag-scan ng maraming bahagi ng nilalaman nang sabay-sabay.

Tinitingnan ang pagkakaroon ng robot file

Kung walang mga lugar sa site na kailangang i-crawl, hindi na kailangan ang robots.txt. Kung hindi sigurado ang user na umiiral ang file na ito, kailangan niyang ilagay ang root domain at i-type ito sa dulo ng URL, tulad nito: moz.com/robots.txt. Binabalewala ng ilang search bot ang mga file na ito. Gayunpaman, bilang panuntunan, ang mga crawler na ito ay hindi nabibilang sa mga kagalang-galang na search engine. Sila ang uri ng mga spammer, mail aggregator at iba pang uri ng mga automated na bot na sagana sa Internet.

Napakahalagang tandaan na ang paggamit ng robot exclusion standard ay hindi isang epektibong hakbang sa seguridad. Sa katunayan, maaaring magsimula ang ilang bot sa mga page kung saan itinatakda ng user ang mga ito sa scan mode. Mayroong ilang mga bahagi na napupunta sa karaniwang exception file. Bago mo sabihin sa robot kung aling mga pahina ang hindi dapat gumana, kailangan mong tukuyin kung aling robot ang kakausapin. Sa karamihan ng mga kaso, gagamit ang user ng simpleng deklarasyon na nangangahulugang "lahat ng mga bot".

SEO optimization

Pag-optimize ng SEO
Pag-optimize ng SEO

Bago mag-optimize, dapat tiyakin ng user na hindi niya haharangin ang anumang nilalaman o mga seksyon ng site na kailangang i-bypass. Ang mga link sa mga pahinang hinarangan ng tamang Robots txt ay hindi igagalang. Ibig sabihin:

  1. Kung hindi sila naka-link sa ibang mga page na available sa mga search engine ie. mga pahina,hindi na-block ng robots.txt o ng meta robot, at ang mga nauugnay na mapagkukunan ay hindi mako-crawl at samakatuwid ay hindi ma-index.
  2. Walang link na maipapasa mula sa isang naka-block na pahina patungo sa patutunguhan ng link. Kung may ganoong page, mas mainam na gumamit ng ibang mekanismo ng pagharang kaysa robots.txt.

Dahil maaaring direktang mag-link ang ibang mga page sa isang page na naglalaman ng personal na impormasyon at gusto mong i-block ang page na ito mula sa mga resulta ng paghahanap, gumamit ng ibang paraan, gaya ng proteksyon ng password o noindex meta data. Ang ilang mga search engine ay may maraming mga ahente ng gumagamit. Halimbawa, ginagamit ng Google ang Googlebot para sa mga organic na paghahanap at Googlebot-Image para sa mga paghahanap ng larawan.

Karamihan sa mga ahente ng user mula sa parehong search engine ay sumusunod sa parehong mga panuntunan, kaya hindi na kailangang tumukoy ng mga direktiba para sa bawat isa sa ilang mga crawler, ngunit ang magagawa nito ay makakapagpahusay sa pag-crawl ng nilalaman ng site. Ini-cache ng search engine ang mga nilalaman ng file, at karaniwang ina-update ang mga naka-cache na nilalaman kahit isang beses sa isang araw. Kung babaguhin ng user ang file at gusto itong i-update nang mas mabilis kaysa karaniwan, maaari nilang isumite ang URL ng robots.txt sa Google.

Mga search engine

Sinusuri ang pagkakaroon ng isang robot file
Sinusuri ang pagkakaroon ng isang robot file

Upang maunawaan kung paano gumagana nang tama ang Robots txt, kailangan mong malaman ang tungkol sa mga kakayahan ng mga search engine. Sa madaling salita, ang kanilang kakayahan ay nakasalalay sa katotohanan na nagpapadala sila ng mga "scanner", na mga programa nanagba-browse sa Internet para sa impormasyon. Pagkatapos ay iniimbak nila ang ilan sa impormasyong ito upang maipasa ito sa gumagamit.

Para sa maraming tao, ang Google na ang Internet. Sa katunayan, tama sila, dahil ito marahil ang pinakamahalagang imbensyon niya. At kahit na ang mga search engine ay nagbago nang malaki mula nang sila ay mabuo, ang pinagbabatayan na mga prinsipyo ay pareho pa rin. Ang mga crawler, na kilala rin bilang "bots" o "spiders", ay naghahanap ng mga page mula sa bilyun-bilyong website. Ang mga search engine ay nagbibigay sa kanila ng mga direksyon kung saan pupunta, habang ang mga indibidwal na site ay maaari ding makipag-ugnayan sa mga bot at sabihin sa kanila kung aling mga partikular na page ang dapat nilang tingnan.

Sa pangkalahatan, ayaw ipakita ng mga may-ari ng site sa mga search engine: admin page, backend portal, kategorya at tag, at iba pang page ng impormasyon. Ang robots.txt file ay maaari ding gamitin upang pigilan ang mga search engine na suriin ang mga pahina. Sa madaling salita, sinasabi ng robots.txt sa mga web crawler kung ano ang gagawin.

I-ban Pages

Ito ang pangunahing bahagi ng robot exclusion file. Sa isang simpleng deklarasyon, sinabihan ng user ang isang bot o grupo ng mga bot na huwag mag-crawl ng ilang partikular na page. Ang syntax ay simple, halimbawa, upang tanggihan ang access sa lahat ng nasa direktoryo ng "admin" ng site, isulat ang: Disallow: /admin. Pipigilan ng linyang ito ang mga bot na i-crawl ang yoursite.com/admin, yoursite.com/admin/login, yoursite.com/admin/files/secret.html, at anumang bagay sa ilalim ng admin directory.

Upang huwag payagan ang isang page, tukuyin lang ito sa linyang hindi payagan: Disallow: /public/exception.html. Ngayon ang pahina ng "pagbubukod".hindi lilipat, ngunit lahat ng iba pa sa "pampubliko" na folder ay lilipat.

Upang magsama ng maraming page, ilista lang ang mga ito:

Mga direktoryo at pahina
Mga direktoryo at pahina

Ang apat na linyang ito ng tamang Robots txt para sa symphony ay malalapat sa sinumang user agent na nakalista sa itaas ngrobots.txt na seksyon para sa

I-ban ang mga page
I-ban ang mga page

Sitemap:

Iba pang command:live - huwag payagan ang mga web crawler na mag-index ng mga cpresource/ o provider/.

User Agent:Disallow: /cpresources/.

Deny: / vendor / Disallow: /.env.

Pagtatakda ng mga pamantayan

Maaaring tukuyin ng user ang mga partikular na page para sa iba't ibang bot sa pamamagitan ng pagsasama-sama ng nakaraang dalawang elemento, ito ang hitsura nito. Ang isang halimbawa ng tamang Robots txt para sa lahat ng mga search engine ay ipinakita sa ibaba.

Pagtatakda ng mga Pamantayan
Pagtatakda ng mga Pamantayan

Ang mga seksyong "admin" at "pribado" ay hindi makikita ng Google at Bing, ngunit makikita pa rin ng Google ang "lihim" na direktoryo, habang hindi makikita ng Bing. Maaari mong tukuyin ang mga pangkalahatang tuntunin para sa lahat ng mga bot gamit ang asterisk user agent, at pagkatapos ay magbigay ng mga partikular na tagubilin sa mga bot sa mga sumusunod na seksyon. Gamit ang kaalaman sa itaas, maaaring magsulat ang user ng isang halimbawa ng tamang Robots txt para sa lahat ng search engine. Paganahin lang ang iyong paboritong text editor at sabihin sa mga bot na hindi sila welcome sa ilang partikular na bahagi ng site.

Mga tip para sa pagpapabuti ng performance ng server

Ang SublimeText ayisang versatile text editor at ang gold standard para sa maraming programmer. Ang kanyang mga tip sa programming ay batay sa mahusay na coding, bukod pa rito. pinahahalagahan ng mga gumagamit ang pagkakaroon ng mga shortcut sa programa. Kung gusto ng user na makakita ng halimbawa ng robots.txt file, dapat silang pumunta sa anumang site at magdagdag ng "/robots.txt" sa dulo. Narito ang bahagi ng robots.txt file na GiantBicycles.

Ang programa ay nagbibigay ng paglikha ng mga pahina na hindi gustong ipakita ng mga user sa mga search engine. At mayroon ding ilang eksklusibong bagay na kakaunti lang ang nakakaalam. Halimbawa, habang ang robots.txt file ay nagsasabi sa mga bot kung saan hindi dapat pumunta, ang sitemap file ay gumagawa ng kabaligtaran at tinutulungan silang mahanap kung ano ang kanilang hinahanap, at habang ang mga search engine ay malamang na alam na kung saan matatagpuan ang sitemap, hindi ito nakakakuha. sa daan.

Mayroong dalawang uri ng mga file: HTML page o XML file. Ang HTML page ay isa na nagpapakita sa mga bisita ng lahat ng available na page sa isang website. Sa sarili nitong robots.txt, ganito ang hitsura nito: Sitemap://www.makeuseof.com/sitemap_index.xml. Kung ang site ay hindi na-index ng mga search engine, bagama't ilang beses na itong na-crawl ng mga web robot, kailangan mong tiyakin na ang file ay naroroon at ang mga pahintulot nito ay naitakda nang tama.

By default, ito ay mangyayari sa lahat ng SeoToaster installation, ngunit kung kinakailangan, maaari mo itong i-reset tulad nito: File robots.txt - 644. Depende sa PHP server, kung hindi ito gagana para sa user, ito inirerekomendang subukan ang sumusunod: File robots.txt - 666.

Pagtatakda ng pagkaantala sa pag-scan

Ang direktiba sa pagkaantala ng bypass ay nagpapaalam ng ilang bagaymga search engine kung gaano kadalas nila mai-index ang isang pahina sa site. Ito ay sinusukat sa ilang segundo, bagama't ang ilang mga search engine ay medyo naiiba ang interpretasyon nito. Nakikita ng ilang tao ang pagkaantala sa pag-crawl 5 kapag sinabihan silang maghintay ng limang segundo pagkatapos ng bawat pag-scan upang simulan ang susunod.

Itinuturing ito ng iba bilang isang tagubilin na mag-scan lamang ng isang pahina bawat limang segundo. Ang robot ay hindi makakapag-scan nang mas mabilis para makatipid ng bandwidth ng server. Kung kailangang tumugma ang server sa trapiko, maaari itong magtakda ng bypass na pagkaantala. Sa pangkalahatan, sa karamihan ng mga kaso, ang mga gumagamit ay hindi kailangang mag-alala tungkol dito. Ganito itinakda ang pagkaantala sa pag-crawl na walong segundo - Pagkaantala ng pag-crawl: 8.

Ngunit hindi lahat ng search engine ay susunod sa direktiba na ito, kaya kapag hindi pinapayagan ang mga page, maaari kang magtakda ng iba't ibang pagkaantala sa pag-crawl para sa ilang partikular na search engine. Matapos ma-set up ang lahat ng mga tagubilin sa file, maaari mo itong i-upload sa site, siguraduhin muna na isa itong simpleng text file at may pangalang robots.txt at makikita sa yoursite.com/robots.txt.

Pinakamagandang WordPress bot

Pinakamahusay na WordPress Bot
Pinakamahusay na WordPress Bot

May ilang mga file at direktoryo sa isang WordPress site na kailangang i-lock sa bawat oras. Ang mga direktoryo na hindi dapat payagan ng mga user ay ang direktoryo ng cgi-bin at ang karaniwang mga direktoryo ng WP. Hindi pinapayagan ng ilang server ang pag-access sa direktoryo ng cgi-bin, ngunit dapat itong isama ng mga user sa direktibang hindi pinapayagan bago maayos na i-configure ang Robots txt WordPress

Mga karaniwang direktoryo ng WordPress,na dapat i-block ay wp-admin, wp-content, wp-includes. Ang mga direktoryo na ito ay hindi naglalaman ng data na sa simula ay kapaki-pakinabang sa mga search engine, ngunit mayroong isang pagbubukod, ibig sabihin, mayroong isang subdirectory na pinangalanang mga pag-upload sa direktoryo ng wp-content. Dapat pahintulutan ang subdirectory na ito sa robot.txt file dahil kasama rito ang lahat ng na-load gamit ang feature na pag-upload ng WP media. Gumagamit ang WordPress ng mga tag o kategorya upang buuin ang nilalaman.

Kung ginamit ang mga kategorya, para magawa ang tamang Robots txt para sa Wordpress, gaya ng tinukoy ng tagagawa ng program, kinakailangang harangan ang mga archive ng tag mula sa paghahanap. Una, sinusuri nila ang database sa pamamagitan ng pagpunta sa panel na "Administration"> "Mga Setting"> "Permalink".

Bilang default, ang base ay ang tag, kung walang laman ang field: Disallow: / tag /. Kung ginamit ang isang kategorya, dapat mong i-disable ang kategorya sa robot.txt file: Disallow: /category/. Bilang default, ang base ay ang tag, kung walang laman ang field: Disallow: / tag /. Kung ginamit ang isang kategorya, dapat mong i-disable ang kategorya sa robot.txt file: Disallow: / category /.

Mga file na pangunahing ginagamit para sa pagpapakita ng content, iba-block sila ng tamang Robots txt file para sa Wordpress:

Robots txt para sa wordpress
Robots txt para sa wordpress

pangunahing setup ng Joomla

Kapag na-install ng user ang Joomla, kailangan mong tingnan ang tamang Joomla Robots txt setting sa pandaigdigang configuration, na matatagpuan sa control panel. Ang ilang mga setting dito ay napakahalaga para sa SEO. Hanapin muna ang pangalan ng site at tiyaking iyonang maikling pangalan ng site ay ginagamit. Pagkatapos ay nakahanap sila ng isang pangkat ng mga setting sa kanan ng parehong screen, na tinatawag na mga setting ng SEO. Ang tiyak na kailangang baguhin ay ang pangalawa: gumamit ng muling pagsulat ng URL.

Mukhang kumplikado ito, ngunit nakakatulong ito sa Joomla na gumawa ng mas malinis na mga URL. Pinaka kapansin-pansin kung aalisin mo ang linya ng index.php mula sa mga URL. Kung babaguhin mo ito sa ibang pagkakataon, magbabago ang mga URL at hindi ito magugustuhan ng Google. Gayunpaman, kapag binago ang setting na ito, maraming hakbang ang dapat gawin nang sabay-sabay upang gawin ang tamang robots txt para sa Joomla:

  1. Hanapin ang htaccess.txt file sa Joomla root folder.
  2. Markahan ito bilang.htaccess (walang extension).
  3. Isama ang pangalan ng site sa mga pamagat ng page.
  4. Hanapin ang mga setting ng metadata sa ibaba ng screen ng pangkalahatang configuration.

Robot sa cloud MODX

Robot sa MODX Cloud
Robot sa MODX Cloud

Noon, binigyan ng MODX Cloud ang mga user ng kakayahang kontrolin ang gawi ng pagpayag na maihatid ang robots.txt file batay sa isang toggle sa dashboard. Bagama't ito ay kapaki-pakinabang, posibleng hindi sinasadyang payagan ang pag-index sa mga staging/dev site sa pamamagitan ng pag-togg sa isang opsyon sa Dashboard. Katulad nito, madaling i-disable ang pag-index sa production site.

Ngayon ay ipinapalagay ng serbisyo ang pagkakaroon ng mga robots.txt file sa file system na may sumusunod na pagbubukod: anumang domain na nagtatapos sa modxcloud.com ay magsisilbing Disallow: /directive para sa lahat ng user agent, anuman ang presensya o kawalan ng file. Ang mga production site na tumatanggap ng tunay na trapiko ng bisita ay kailangang gumamit ng sarili nilang domain kung gusto ng user na i-index ang kanilang site.

Ang ilang organisasyon ay gumagamit ng tamang Robots txt para sa modx upang magpatakbo ng maraming website mula sa iisang pag-install gamit ang Contexts. Ang isang kaso kung saan maaaring ilapat ito ay isang pampublikong marketing site na pinagsama sa mga micro site ng landing page at posibleng isang hindi pampublikong intranet.

Tradisyunal na mahirap gawin ito para sa mga pag-install ng maraming user dahil iisa ang ugat ng network. Sa MODX Cloud, madali ito. Mag-upload lang ng dagdag na file sa isang website na tinatawag na robots-intranet.example.com.txt na may sumusunod na nilalaman at haharangan nito ang pag-index gamit ang mahusay na gumaganang mga robot at lahat ng iba pang hostname ay babalik sa karaniwang mga file maliban kung may iba pang partikular na mga node ng pangalan.

Ang Robots.txt ay isang mahalagang file na tumutulong sa user na mag-link sa site sa Google, mga pangunahing search engine at iba pang mga website. Matatagpuan sa ugat ng isang web server, ang file ay nagtuturo sa mga web robot na i-crawl ang isang site, itakda kung aling mga folder ang dapat o hindi dapat i-index, gamit ang isang hanay ng mga tagubilin na tinatawag na Bot Exclusion Protocol. Ang isang halimbawa ng tamang Robots txt para sa lahat ng mga search engine na obots.txt ay lalong madaling gawin sa SeoToaster. Isang espesyal na menu ang ginawa para dito sa control panel, kaya hindi na kailangang mag-overwork ang bot upang makakuha ng access.

Inirerekumendang: