Ano ang pag-index ng website? Paano ito nangyayari? Makakahanap ka ng mga sagot sa mga ito at iba pang mga tanong sa artikulo. Ang web indexing (pag-index sa mga search engine) ay ang proseso ng pagdaragdag ng impormasyon tungkol sa isang site sa database ng isang robot ng search engine, na pagkatapos ay ginamit upang maghanap ng impormasyon sa mga proyekto sa web na sumailalim sa naturang pamamaraan.
Ang data tungkol sa mga mapagkukunan ng web ay kadalasang binubuo ng mga keyword, artikulo, link, dokumento. Maaari ding ma-index ang audio, mga larawan, at iba pa. Alam na ang algorithm ng pagtukoy ng keyword ay nakadepende sa search engine.
May ilang limitasyon sa mga uri ng naka-index na impormasyon (flash file, javascript).
Pamamahala sa pagsisimula
Ang pag-index ng isang site ay isang kumplikadong proseso. Upang pamahalaan ito (halimbawa, upang ipagbawal ang attachment ng isang partikular na page), kailangan mong gamitin ang robots.txt file at ang mga tagubilin tulad ng Allow, Disallow, Crawl-delay, User-agent at iba pa.
Gayundin, ginagamit ang mga tag at props para sa pag-index, pagtatago ng nilalaman ng mapagkukunan mula sa mga robot ng Google at Yandex (Ginagamit ng Yahoo ang tag).
Sa Goglle search engine, ini-index ang mga bagong site mula sa ilang araw hanggang isang linggo, at sa Yandex - mula isa hanggang apat na linggo.
Gusto mo bang lumabas ang iyong site sa mga query sa resulta ng search engine? Pagkatapos ay dapat itong iproseso ng Rambler, Yandex, Google, Yahoo, at iba pa. Dapat mong ipaalam sa mga search engine (mga spider, system) ang tungkol sa pagkakaroon ng iyong website, at pagkatapos ay iko-crawl nila ito nang buo o bahagi.
Maraming site ang hindi na-index sa loob ng maraming taon. Ang impormasyong nasa kanila ay hindi nakikita ng sinuman maliban sa kanilang mga may-ari.
Mga paraan ng pagproseso
Ang pag-index ng isang site ay maaaring gawin sa maraming paraan:
- Ang unang opsyon ay manu-manong pagdaragdag. Kailangan mong ipasok ang data ng iyong site sa pamamagitan ng mga espesyal na form na inaalok ng mga search engine.
- Sa pangalawang kaso, hinahanap mismo ng search engine robot ang iyong web site sa pamamagitan ng mga link at ini-index ito. Mahahanap niya ang iyong site sa pamamagitan ng mga link mula sa iba pang mapagkukunan na humahantong sa iyong proyekto. Ang pamamaraang ito ay ang pinaka-epektibo. Kung ang isang search engine ay nakahanap ng isang site sa ganitong paraan, ito ay itinuturing na makabuluhan.
Timing
Ang pag-index sa site ay hindi masyadong mabilis. Iba-iba ang mga tuntunin, mula 1-2 linggo. Ang mga link mula sa mga makapangyarihang mapagkukunan (na may mahusay na PR at Titz) ay makabuluhang nagpapabilis sa paglalagay ng site sa database ng search engine. Ngayon, ang Google ay itinuturing na pinakamabagal, bagama't hanggang 2012 ay magagawa nito ang trabahong ito sa loob ng isang linggo. UpangSa kasamaang palad, ang mga bagay ay nagbabago nang napakabilis. Alam na ang Mail.ru ay nagtatrabaho sa mga website sa lugar na ito sa loob ng humigit-kumulang anim na buwan.
Ang pag-index ng isang site sa mga search engine ay hindi posible para sa bawat espesyalista. Ang oras ng pagdaragdag ng mga bagong pahina sa database ng isang site na naproseso na ng mga search engine ay apektado ng dalas ng pag-update ng nilalaman nito. Kung patuloy na lumalabas ang sariwang impormasyon sa isang mapagkukunan, itinuturing ng system na ito ay madalas na na-update at kapaki-pakinabang sa mga tao. Sa kasong ito, binibilisan ang kanyang trabaho.
Maaari mong sundin ang pag-usad ng pag-index ng isang web site sa mga espesyal na seksyon para sa mga webmaster o sa mga search engine.
Mga Pagbabago
Kaya, naisip na namin kung paano na-index ang site. Dapat tandaan na ang mga database ng search engine ay madalas na ina-update. Samakatuwid, ang bilang ng mga pahina ng iyong proyektong idinagdag sa mga ito ay maaaring magbago (parehong bumaba at tumaas) para sa mga sumusunod na dahilan:
- mga parusa sa search engine laban sa website;
- ang pagkakaroon ng mga error sa site;
- pagbabago ng mga algorithm ng search engine;
- nakasusuklam na pagho-host (hindi naa-access ng server kung saan matatagpuan ang proyekto) at iba pa.
Mga sagot ng Yandex sa mga karaniwang tanong
Ang "Yandex" ay isang search engine na ginagamit ng maraming user. Ito ay nasa ikalima sa mga sistema ng paghahanap sa mundo sa mga tuntunin ng bilang ng mga naprosesong kahilingan sa pananaliksik. Kung nagdagdag ka ng isang site dito, maaaring magtagal upang maidagdag sa database.
Ang pagdaragdag ng URL ay hindi ginagarantiyahan ang pag-index nito. Ito ay isa lamang sa mga pamamaraan kung saan sinasabi ang system robottungkol sa isang bagong mapagkukunan. Kung kakaunti o walang mga link sa isang site mula sa ibang mga website, ang pagdaragdag nito ay makakatulong sa iyong mahanap ito nang mas mabilis.
Kung hindi nangyari ang pag-index, kailangan mong suriin kung mayroong anumang mga pagkabigo sa server sa oras ng paglikha ng isang application para dito mula sa Yandex robot. Kung nag-ulat ang server ng error, tatapusin ng robot ang trabaho nito at susubukan itong kumpletuhin sa isang round trip order. Hindi mapapataas ng mga empleyado ng Yandex ang bilis ng pagdaragdag ng mga pahina sa database ng search engine.
Ang pag-index ng isang site sa Yandex ay medyo mahirap na gawain. Hindi mo alam kung paano magdagdag ng mapagkukunan sa isang search engine? Kung may mga link dito mula sa iba pang mga website, hindi mo kailangang magdagdag ng isang espesyal na site - awtomatikong mahahanap ito ng robot at mai-index ito. Kung wala kang ganoong mga link, maaari mong gamitin ang form na "Magdagdag ng URL" upang sabihin sa search engine na umiiral ang site.
Tandaan na hindi ginagarantiyahan ng pagdaragdag ng URL na mai-index (o mai-index) ang iyong nilikha.
Maraming tao ang nagtataka kung gaano katagal bago mag-index ng site sa Yandex. Ang mga empleyado ng kumpanyang ito ay hindi nagbibigay ng mga garantiya at hindi hinuhulaan ang mga termino. Bilang panuntunan, dahil nalaman ng robot ang tungkol sa site, lalabas ang mga page nito sa paghahanap sa loob ng dalawang araw, minsan sa loob ng ilang linggo.
Proseso
Ang "Yandex" ay isang search engine na nangangailangan ng katumpakan at pansin. Ang pag-index ng site ay binubuo ng tatlong bahagi:
- Nag-crawl ang robot sa paghahanap sa mga pahina ng mapagkukunan.
- Nilalaman(nilalaman) ng site ay naitala sa database (index) ng sistema ng paghahanap.
- Sa 2-4 na linggo, pagkatapos i-update ang database, makikita mo ang mga resulta. Lalabas (o hindi) ang iyong site sa mga resulta ng paghahanap.
Pagsusuri sa pag-index
Paano tingnan ang pag-index ng website? May tatlong paraan para gawin ito:
- Ilagay ang pangalan ng iyong negosyo sa search bar (halimbawa, "Yandex") at suriin ang bawat link sa una at pangalawang pahina. Kung makikita mo doon ang URL ng iyong brainchild, natapos na ng robot ang gawain nito.
- Maaari mong ilagay ang URL ng iyong website sa search bar. Makikita mo kung gaano karaming mga internet sheet ang ipinapakita, ibig sabihin, na-index.
- Magparehistro sa mga pahina ng mga webmaster sa Mail.ru, Google, Yandex. Pagkatapos mong ipasa ang pag-verify ng site, makikita mo ang mga resulta ng pag-index at iba pang mga serbisyo ng search engine na ginawa upang mapabuti ang pagganap ng iyong mapagkukunan.
Bakit nabigo ang Yandex?
Ang pag-index ng isang site sa Google ay isinasagawa tulad ng sumusunod: ipinapasok ng robot sa database ang lahat ng mga pahina ng site, mababa ang kalidad at mataas na kalidad, nang hindi pinipili. Ngunit ang mga kapaki-pakinabang na dokumento lamang ang kasama sa pagraranggo. At agad na ibinubukod ng "Yandex" ang lahat ng basura sa web. Maaari itong mag-index ng anumang pahina, ngunit sa kalaunan ay aalisin ng search engine ang lahat ng basura.
Ang parehong system ay may incremental index. Ang parehong mababang kalidad na pahina ay nakakaapekto sa pagraranggo ng web site sa kabuuan. Mayroong isang simpleng pilosopiya sa trabaho dito. Mga paboritong mapagkukunan ng isang partikularang gumagamit ay sasakupin ang mas matataas na posisyon sa kanyang pagpapalabas. Ngunit ang parehong indibidwal na ito ay mahihirapang maghanap ng site na hindi niya nagustuhan noong nakaraan.
Iyon ang dahilan kung bakit, una, kinakailangan upang masakop ang mga kopya ng mga dokumento sa web mula sa pag-index, tingnan ang mga walang laman na pahina at pigilan ang mababang kalidad na nilalaman na ma-index.
Pabilisin ang Yandex
Paano ko mapapabilis ang pag-index ng site sa Yandex? Sundin ang mga hakbang na ito:
- I-install ang Yandex browser sa iyong computer at gamitin ito upang i-browse ang mga pahina ng site.
- Kumpirmahin ang mga karapatang pamahalaan ang mapagkukunan sa Yandex. Webmaster.
- Mag-post ng link sa artikulo sa Twitter. Nabatid na ang Yandex ay nakikipagtulungan sa kumpanyang ito mula noong 2012.
- Magdagdag ng paghahanap mula sa Yandex para sa site. Sa seksyong "Pag-index," maaari mong ilagay ang iyong sariling mga URL.
- Ilagay ang "Yandex. Metrica" code nang hindi nilagyan ng check ang "Ipinagbabawal ang pagsumite ng mga page para sa pag-index".
- Gumawa ng Sitemap na umiiral lamang para sa robot at hindi nakikita ng madla. Magsisimula sa kanya ang pagpapatunay. Ang address ng Sitemap ay inilagay sa robots.txt o sa naaangkop na anyo sa "Webmaster" - "Mga Setting ng Pag-index" - "Mga File ng Sitemap".
Mga intermediate na pagkilos
Ano ang kailangang gawin hanggang sa ma-index ng Yandex ang web page? Dapat isaalang-alang ng domestic search engine ang site bilang pangunahing mapagkukunan. Kaya naman bago pa man mailathala ang artikulo, kailangang idagdag ang nilalaman nito sa anyo ng "Mga tiyak na teksto". Kung hindiKokopyahin ng mga plagiarist ang rekord sa kanilang mapagkukunan at magiging una sa database. Bilang resulta, makikilala sila bilang mga may-akda.
Google Database
Para sa Google, ang parehong mga rekomendasyon na inilarawan namin sa itaas ay angkop, tanging ang mga serbisyo ay magkakaiba:
- Google+ (papalitan ang Twitter);
- Google Chrome;
- Google Tools for Programmer - "I-scan" - "Mukhang Googlebot" - opsyon "I-scan" - opsyon na "Index";
- paghahanap sa loob ng isang mapagkukunan mula sa Google;
- Google Analytics (sa halip na Yandex. Metrics).
Pagbabawal
Ano ang pagbabawal sa pag-index ng site? Maaari mo itong i-overlay pareho sa buong pahina at sa isang hiwalay na bahagi nito (link o piraso ng teksto). Sa katunayan, mayroong isang pandaigdigang pagbabawal sa pag-index at isang lokal. Paano ito ipinapatupad?
Isaalang-alang natin ang pagbabawal sa pagdaragdag ng web site sa database ng search engine sa Robots.txt. Gamit ang robots.txt file, maaari mong ibukod ang pag-index ng isang page o isang buong resource heading tulad nito:
- User-agent:
- Disallow: /kolobok.html
- Disallow: /foto/
Ang unang punto ay nagsasabi na ang mga tagubilin ay tinukoy para sa lahat ng PS, ang pangalawa ay nagpapahiwatig na ang pag-index ng kolobok.html file ay ipinagbabawal, at ang pangatlo ay hindi pinapayagan ang pagdaragdag ng buong pagpupuno ng folder ng foto sa database. Kung kailangan mong magbukod ng maraming pahina o folder, mangyaring tukuyin ang lahat ng ito sa Robots.
Upang maiwasan ang pag-index ng isang partikular na Internet sheet, maaari mong gamitin ang robots meta tag. Iba ito sa robots.txtang katotohanan na nagbibigay ito ng mga tagubilin sa lahat ng PS nang sabay-sabay. Ang meta tag na ito ay sumusunod sa mga pangkalahatang prinsipyo ng html na format. Dapat itong ilagay sa pamagat ng pahina sa pagitan ng mga tag. Halimbawa, maaaring isulat ang isang entry para sa isang pagbabawal:.
Ajax
Paano ini-index ng Yandex ang mga Ajax site? Ngayon, ang teknolohiya ng Ajax ay ginagamit ng maraming mga developer ng web site. Siyempre, malaki ang potensyal niya. Gamit nito, makakagawa ka ng mabilis at produktibong interactive na mga web page.
Gayunpaman, "nakikita" ng search engine robot ang listahan sa web nang iba kaysa sa user at sa browser. Halimbawa, ang isang tao ay tumitingin sa isang komportableng interface na may mga movably load na Internet sheet. Para sa isang crawler, ang nilalaman ng parehong page ay maaaring walang laman o ipakita bilang ang natitirang nilalaman ng static na HTML, kung saan hindi gumagana ang mga script.
Maaari kang gumamit ng URL na mayupang lumikha ng mga site ng Ajax, ngunit hindi ito ginagamit ng search engine. Karaniwan ang bahagi ng URL pagkatapos ngay pinaghihiwalay. Dapat itong isaalang-alang. Samakatuwid, sa halip na isang URL tulad ng https://site.ru/example, gumawa siya ng aplikasyon sa pangunahing pahina ng mapagkukunan na matatagpuan sa https://site.ru. Nangangahulugan ito na ang nilalaman ng Internet sheet ay maaaring hindi makapasok sa database. Bilang resulta, hindi ito lalabas sa mga resulta ng paghahanap.
Upang mapabuti ang pag-index ng mga Ajax site, sinusuportahan ng Yandex ang mga pagbabago sa search robot at ang mga panuntunan para sa pagproseso ng mga URL ng naturang mga web site. Ngayon, maaaring ipahiwatig ng mga webmaster sa search engine ng Yandex ang pangangailangan para sa pag-index sa pamamagitan ng paglikha ng isang naaangkop na pamamaraan sa istraktura ng mapagkukunan. Para dito kailangan mo:
- Palitan ang simbolosa URL ng mga pagesa !. Ngayon ay mauunawaan ng robot na maaari itong mag-apply para sa HTML na bersyon ng nilalaman ng Internet sheet na ito.
- HTML na bersyon ng nilalaman ng naturang page ay dapat ilagay sa isang URL kung saan ! pinalitan ng ?_escaped_fragment_=.