Et af værktøjerne til styring af indeksering af websteder med søgemaskiner er robots.txt-filen. Det bruges hovedsageligt til at forhindre alle eller kun visse robotter i at downloade indholdet af bestemte sidegrupper. Dette giver dig mulighed for at slippe af med "affald" i søgemaskinens resultater og i nogle tilfælde forbedre ressourcens placering markant. Det er vigtigt at have den korrekte robots.txt-fil til en vellykket anvendelse.
Nødvendig
teksteditor
Instruktioner
Trin 1
Lav en liste over robotter, for hvilke der vil blive angivet særlige ekskluderingsregler, eller der skal anvendes direktiver for den udvidede robots.txt-standard, såvel som ikke-standardiserede og specifikke direktiver (udvidelser af en bestemt søgemaskine). Indtast i denne liste værdierne for felterne User-Agent i HTTP-anmodningsoverskrifter sendt af de valgte robotter til webstedsserveren. Navnene på robotterne kan også findes i referenceafsnittene på søgemaskinens websteder.
Trin 2
Vælg de grupper af URL'er på de webstedsressourcer, som adgang til hver af robotterne skal nægtes til på listen, der blev samlet i det første trin. Udfør den samme handling for alle andre robotter (et ubestemt sæt indekseringsbots). Med andre ord bør resultatet være flere lister, der indeholder links til sektioner på siden, grupper af sider eller kilder til medieindhold, der er forbudt at indeksere. Hver liste skal svare til en anden robot. Der bør også være en liste over forbudte URL'er til alle andre bots. Lav lister baseret på sammenligningen af websteds logiske struktur med den fysiske placering af dataene på serveren samt ved at gruppere siderne på siderne i henhold til deres funktionelle egenskaber. For eksempel kan du medtage i benægningslisterne indholdet af eventuelle servicekataloger (grupperet efter placering) eller alle brugerprofilsider (grupperet efter formål).
Trin 3
Vælg URL-tegn for hver af de ressourcer, der findes på listerne, der er samlet i andet trin. Når du behandler ekskluderingslister for robotter, der kun bruger standard robots.txt-direktiver og udefinerede robotter, skal du fremhæve de unikke URL-dele med den maksimale længde. For de resterende sæt adresser kan du oprette skabeloner i overensstemmelse med specifikationerne for specifikke søgemaskiner.
Trin 4
Opret en robots.txt-fil. Tilføj grupper af direktiver til det, som hver svarer til et sæt forbudte regler for en bestemt robot, hvis liste blev samlet i det første trin. Sidstnævnte skal følges af en gruppe direktiver for alle andre robotter. Separat regelgrupper med en enkelt tom linje. Hver regelsæt skal begynde med et User-agent-direktiv, der identificerer robotten, efterfulgt af et Disallow-direktiv, som forbyder indeksering af URL-grupper. Lav linjerne opnået i tredje trin med værdierne i Disallow-direktiverne. Adskil direktiverne og deres betydning med et kolon. Overvej følgende eksempel: User-agent: YandexDisallow: / temp / data / images / User-agent: * Disallow: / temp / data / Dette sæt direktiver instruerer hovedroboten i Yandex-søgemaskine til ikke at indeksere URL'en, som indeholder understrenget / temp / data / billeder /. Det forhindrer også alle andre robotter i at indeksere webadresser, der indeholder / temp / data /.
Trin 5
Suppler robots.txt med udvidede standarddirektiver eller specifikke direktiver for søgemaskiner. Eksempler på sådanne direktiver er: Host, Sitemap, Request-rate, Visit-time, Crawl-delay.