Monday, February 07, 2005

Konfiguration af robots.txt

Da jeg nu et stykke tid har kørt min egen webserver under mit skrivebord har jeg taget mig sammen til at ændre min robots.txt fil for www.busknet.com. Det er ikke så svært når man bruger mere end 15 sekunder på det.

Searchengineworld giver den bedste og mest overskuelige gennemgang på dette link.
Basalt set er filen bygget op på følgende måde:

<Field> ":" <value>

Herefter er det så bare at finde ud af hvilke fields der kan udfyldes.
De vigtige er:

User-agent:

Disallow:

Med User-agent kan man specificere hvad specifikke bots må indexere. det vil sige at man for eksempel kan lade Google indexere dele af et site og yahoo andre. Et eksempel kunne se sådan ud

User-agent: googlebot
Disallow: /pictures/

Det vil betyde at googlebot ikke må indexere alt hvad der ligger under /pictures.

Hvis man ønsker at ramme alle skriver man

User-agent: *
Disallow: /pictures/

Det er også muligt at ekskludere specifikke sider ved at gøre sådan:

User-agent: *
Disallow: email.htm

Kommentarer i robots.txt skal start med # og kan principielt skrives hvor som helst i filen. Det betegnes som dårlig stil at starte med whitespaces og have "for mange" af dem.

No comments: