Områdekart i XML-format

Gå til:
Definisjoner av XML-koder
Enhetsomgåelse
Bruk av Sitemap-indeksfiler
Andre Sitemap-formater
Plassering av Sitemap-filer
Validere områdekartet
Utvide Sitemap-protokollen
Informere søkemotorenes robotsøkeprogrammer

Dette dokumentet beskriver XML-skjemaet for Sitemap-protokollen.

Sitemap-protokollformatet består av XML-koder. Alle dataverdier i et områdekart må ha enhetsomgåelse. Selve tekstfilen må bruke UTF-8-koding.

Områdekartet må oppfylle følgende krav:

Alle andre koder er valgfrie. Ulike søkemotorer kan ha ulik grad av støtte for disse valgfrie kodene. Du finner mer informasjon i dokumentasjonen til hver enkelt søkemotor.

Dessuten må alle URL-adresser i et områdekart være fra en enkel vert, for eksempel www.example.com eller store.example.com. Du finner mer detaljer under Plassering av Sitemap-fil

Eksempel på XML-områdekart

Nedenfor ser du et eksempel på et områdekart som bare inneholder én webadresse, og som bruker alle valgfrie koder. De valgfrie kodene står i kursiv.


<?xml version="1.0" encoding="UTF-8"?>

<urlset xmlns="http://www.sitemaps.org/schemas/sitemap/0.9">

   <url>

      <loc>http://www.example.com/</loc>

      <lastmod>2005-01-01</lastmod>

      <changefreq>monthly</changefreq>

      <priority>0.8</priority>

   </url>

</urlset> 

Se også eksempelet vårt med flere webadresser.

Definisjoner av XML-koder

De tilgjengelige XML-kodene er beskrevet nedenfor.

Attributt Beskrivelse
<urlset> obligatorisk

Begynner og avslutter filen, og viser til gjeldende protokollstandard.

<url> obligatorisk

Overordnet kode for hver webadresseoppføring. De resterende kodene er underordnet denne koden.

<loc> obligatorisk

Sidens webadresse. Denne webadressen må begynne med protokollen (for eksempel http) og eventuelt slutte med en skråstrek hvis dette kreves av webserveren. Denne verdien må være mindre enn 2 048 tegn.

<lastmod> valgfritt

Datoen for siste endring av filen. Denne datoen må være i W3C Datetime-format. I dette formatet kan du utelate klokkeslettdelen hvis du vil det, og bruke YYYY-MM-DD.

Vær oppmerksom på at denne koden er forskjellig fra "If-Modified-Since (304)"-hodet som serveren kan returnere, og at søkemotorer kan bruke informasjonen fra begge kilder på ulike måter.

<changefreq> valgfritt

Hvor hyppig det er sannsynlig at siden endres. Denne verdien er generell informasjon til søkemotorene, og samsvarer ikke nødvendigvis med hvor ofte de gjennomgår siden. Gyldige verdier:

  • always
  • hourly
  • daily
  • weekly
  • monthly
  • yearly
  • never

Verdien "always" bør brukes til å beskrive dokumenter som endres hver gang de åpnes. Verdien "never" bør brukes til å beskrive arkiverte webadresser.

Vær oppmerksom på at verdien for denne koden anses som et tips, ikke en kommando. Selv om denne informasjonen kan ha innvirkning på atferden til søkemotorenes robotsøkeprogrammer, kan disse programmene gjennomgå sider som er merket "hourly" sjeldnere enn det, og de kan gjennomgå sider merket "yearly" oftere enn det. Robotsøkeprogrammene kan jevnlig gjennomgå sider merket "never", slik at de kan håndtere uventede endringer på disse sidene.

<priority> valgfritt

Denne webadressens prioritet i forhold andre webadresser på Webområdet. Gyldige verdier går fra 0.0 til 1.0. Denne verdien påvirker ikke hvordan sidene dine sammenlignes med sidene på andre webområder, den forteller bare søkemotorene hvilke sider du anser som de viktigste for robotsøkeprogrammene.

Standardprioriteten for en side er 0.5.

Vær oppmerksom på at prioriteten du gir en side, sannsynligvis ikke vil påvirke plasseringen til webadressene dine i søkeresultatene for en søkemotor. Søkemotorer kan bruke denne informasjonen når de skal velge mellom webadresser på samme webområde. Derfor kan du bruke denne koden til å øke sannsynligheten for at de viktigste sidene vises i en søkeindeks.

Vær dessuten oppmerksom på at det sannsynligvis ikke hjelper deg å gi alle webadressene på webområdet ditt høy prioritet. Prioriteten er relativ, og derfor brukes den bare til å velge mellom webadressene på webområdet ditt.

Tilbake til toppen

Enhetsomgåelse

Sitemap-filen din må være kodet som UTF-8 (du kan vanligvis velge dette når du lagrer filen). Som med alle XML-filer må alle dataverdier (inkludert webadresser) inneholde omgåelseskoder for tegnene som er med i tabellen nedenfor.

Tegn Omgåelseskode
Ampersand & &amp;
Enkelt anførselstegn ' &apos;
Dobbelt anførselstegn " &quot;
Større enn > &gt;
Mindre enn < &lt;

I tillegg må alle webadresser (inkludert webadressen for webområdekartet ditt) være kodet som webadresse og for lesbarhet av webserveren der de befinner seg. Hvis du imidlertid bruker et skript, et verktøy eller en loggfil til å generere webadressene med (alt som ikke involverer å skrive dem inn manuelt), gjøres dette vanligvis for deg. Kontroller at webadressene dine følger RFC-3986-standarden for URIer, RFC-3987-standarden for IRIer og XML-standarden.

Nedenfor ser du et eksempel på en webadresse som bruker både et ikke-ASCII-tegn (ü) og et tegn som krever enhetsomgåelse (&):

http://www.example.com/ümlat.html&q=name

Nedenfor ser du samme webadresse med ISO-8859-1-koding (tilrettelagt for servere som bruker slik koding) og webadresseomgåelse:

http://www.example.com/%FCmlat.html&q=name

Nedenfor ser du samme webadresse med UTF-8-koding (tilrettelagt for servere som bruker slik koding) og webadresseomgåelse:

http://www.example.com/%C3%BCmlat.html&q=name

Nedenfor ser du samme webadresse, men også med enhetsomgåelse:

http://www.example.com/%C3%BCmlat.html&amp;q=name

Eksempel på XML-områdekart

Følgende eksempel viser et områdekart i XML-format. Områdekartet i eksempelet inneholder noen få webadresser. Hver av disse bruker ulike sett med valgfrie parametere.


<?xml version="1.0" encoding="UTF-8"?>

<urlset xmlns="http://www.sitemaps.org/schemas/sitemap/0.9">

   <url>

      <loc>http://www.example.com/</loc>

      <lastmod>2005-01-01</lastmod>

      <changefreq>monthly</changefreq>

      <priority>0.8</priority>

   </url>

   <url>

      <loc>http://www.example.com/catalog?item=12&amp;desc=ferie_hawaii</loc>

      <changefreq>weekly</changefreq>

   </url>

   <url>

      <loc>http://www.example.com/catalog?item=73&amp;desc=ferie_new_zealand</loc>

      <lastmod>2004-12-23</lastmod>

      <changefreq>weekly</changefreq>

   </url>

   <url>

      <loc>http://www.example.com/catalog?item=74&amp;desc=ferie_newfoundland</loc>

      <lastmod>2004-12-23T18:00:15+00:00</lastmod>

      <priority>0.3</priority>

   </url>

   <url>

      <loc>http://www.example.com/catalog?item=83&amp;desc=ferie_usa</loc>

      <lastmod>2004-11-23</lastmod>

   </url>

</urlset>

Tilbake til toppen

Bruk av Sitemap-indeksfiler (til å gruppere flere Sitemap-filer)

Du kan angi flere Sitemap-filer, men hver Sitemap-fil du angir, kan ha maksimalt 50 000 webadresser og kan ikke være større enn 50 MB (52 428 800 byte). Hvis du vil, kan du komprimere Sitemap-filer ved hjelp av gzip for å redusere kravene til båndbredde. Den ukomprimerte Sitemap-filen må imidlertid ikke overstige 50 MB. Hvis du vil ha en liste på over 50 000 webadresser, må du opprette flere Sitemap-filer.

Hvis du har flere Sitemap-filer, kan du føre opp hver Sitemap-fil i en Sitemap-indeksfil. Sitemap-indeksfiler kan ikke inneholder mer enn 50 000 områdekart, og de må ikke være større enn 50 MB (52 428 800 byte) og kan være komprimert. Du kan ha flere enn én Sitemap-indeksfil. XML-formatet i en Sitemap-indeksfil ligner på XML-formatet i en Sitemap-fil.

Sitemap-indeksfilen må oppfylle følgende krav:

Den valgfrie <lastmod>-koden er også tilgjengelig for Sitemap-indeksfiler.

Merk: En Sitemap-indeksfil kan bare angi områdekart som er plassert på samme webområde som Sitemap-indeksfilen. Eksempel: http://www.dittnettsted.no/sitemap_index.xml kan inkludere områdekart på http://www.dittnettsted.no, men ikke på http://www.eksempel.no eller http://dinvert.dittnettsted.no. På samme måte som med områdekartene må også Sitemap-indeksfilen være kodet i UTF-8-format.

Eksempel på Sitemap-indeks i XML-format

Følgende eksempel viser en Sitemap-indeks med to områdekart:


<?xml version="1.0" encoding="UTF-8"?>

<sitemapindex xmlns="http://www.sitemaps.org/schemas/sitemap/0.9">

   <sitemap>

      <loc>http://www.example.com/sitemap1.xml.gz</loc>

      <lastmod>2004-10-01T18:23:17+00:00</lastmod>

   </sitemap>

   <sitemap>

      <loc>http://www.example.com/sitemap2.xml.gz</loc>

      <lastmod>2005-01-01</lastmod>

   </sitemap>

</sitemapindex>

Obs!  Sitemap-URL-adresser, som alle verdier i XML-filene dine, må bruke enhetsomgåelse.

Definisjoner av XML-koder for Sitemap-indeksering

Attributt Beskrivelse
<sitemapindex> obligatorisk Omslutter informasjon om alle områdekartene i filen.
<sitemap> obligatorisk Omslutter informasjon om ett enkelt områdekart.
<loc> obligatorisk

Identifiserer plasseringen av områdekartet.

Denne plasseringen kan være et webområdekart, en Atom-fil, en RSS-fil eller en enkel tekst-fil.

<lastmod> valgfritt

Identifiserer tidspunktet da den tilhørende Sitemap-filen ble endret. Den angir ikke tidspunktet da sidene i områdekartet ble endret. Verdien for lastmod-koden må være i W3C Datetime-format.

Ved å angi et tidsstempel for siste endring, gjør du det mulig for robotsøkeprogrammene å bare hente et delsett av webområdekartene i indeksen. Med andre ord kan robotsøkeprogrammet bare hente webområdekart som ble endret etter en bestemt dato. Med denne typen henting av webområdekart kan robotsøkeprogrammet raskt finne nye webadresser på svært store webområder.

Tilbake til toppen

Andre Sitemap-formater

Sitemap-protokollen lar deg angi detaljer om dine sider til søkemotorer og vi anbefaler at du bruker den, siden du kan gi mer informasjon om websider i tillegg til webadressen. I tillegg til XML-protokollen støtter vi imidlertid også RSS-innmatinger og tekstfiler som gir mer begrenset informasjon.

Syndikeringsinnmating

Du kan gi en RSS (Real Simple Syndication) 2.0 eller Atom 0.3 eller 1.0-innmating. Vanligvis brukes dette formatet bare hvis webområdet allerede har en syndikeringsinnmating. Vær oppmerksom på at denne metoden kanskje ikke vil opplyse søkemotorer om alle webadressene på webområdet ditt. Dette er fordi innmatingen bare kan gi informasjon om de nyeste webadressene, selv om søkemotorer fortsatt kan bruke disse opplysningene til å finne andre sider på webområdet under den vanlige gjennomgangen ved å følge koblinger på sidene i innmatingen. Påse at innmatingen er plassert i katalogen på det høyeste nivået du vil at søkemotorer skal søke gjennom. Slik henter søkemotorer ut opplysningene fra innmatingen:

Tekstfil

Du kan gi oss en enkel tekstfil som inneholder én webadresse per linje. Tekstfilene må følge disse retningslinjene:

Nedenfor ser du eksempler på oppføringer i en tekstfil.

http://www.eksempel.no/catalog?item=1


http://www.eksempel.no/catalog?item=11

Tilbake til toppen

Plassering av Sitemap-fil

Plasseringen til en Sitemap-fil bestemmer webadressesettet som kan inkluderes i områdekartet. En Sitemap-fil med plasseringen http://eksempel.no/catalog/sitemap.xml kan inneholde webadresser som begynner med http://eksempel.no/catalog/, men kan ikke inneholde webadresser som begynner med http://eksempel.no/images/.

Hvis du har tilgang til å endre http://eksempel.no/bane/områdekart.xml, kan du gå ut fra at du også har tilgang til å angi informasjon for webadresser med prefikset http://eksempel.no/bane/. Eksempler på webadresser som anses som gyldige i http://eksempel.no/katalog/områdekart.xml:


http://example.com/catalog/show?item=23

http://example.com/catalog/show?item=233&user=3453

Eksempler på webadresser som ikke anses som gyldige i http://eksempel.no/catalog/sitemap.xml:


http://example.com/image/show?item=23

http://example.com/image/show?item=233&user=3453

https://example.com/catalog/page1.html

Vær oppmerksom på at alle webområdene som er oppført i områdekartet, må bruke samme protokoll (i dette eksempelet er det http) og være plassert på samme vert som områdekartet. Hvis områdekartet for eksempel er plassert på http://www.eksempel.no/sitemap.xml, kan det ikke inkludere webadresser fra http://underdomene.eksempel.no.

Webområder som ikke anses som gyldige, utelates fra videre vurdering. Du anbefales på det sterkeste å plassere områdekartet i rotkatalogen på webserveren. Hvis for eksempel webserveren er på eksempel.no, vil Sitemap-indeksfilen være på http://eksempel.no/sitemap.xml. I enkelte tilfeller kan det hende du må opprette ulike områdekart for ulike baner (for eksempel hvis sikkerhetstillatelser i organisasjonen fordeler skrivetilgangen til ulike kataloger uten forbindelse).

Hvis du sender et webområdekart ved hjelp av en bane med et portnummer, må du ta med dette portnummeret som del av banen i hver webadresse i webområdekartfilen. Hvis webområdekartet for eksempel er på http://www.eksempel.no:100/områdekart.xml, må hver webadresse i webområdekartet begynne med http://www.eksempel.no:100.

Områdekart og kryssinnsendinger

Hvis du vil sende inn områdekart for flere verter fra én vert, må du "bevise" at du har eierskap til verten(e) du sender inn URL-adresser for i et områdekart. Her er et eksempel. La oss si at du ønsker å sende inn områdekart for tre verter:


www.host1.com med Sitemap-fil sitemap-host1.xml

www.host2.com med Sitemap-fil sitemap-host2.xml

www.host3.com med Sitemap-fil sitemap-host3.xml

I tillegg ønsker du å plassere alle områdekartene på en enkel vert: www.sitemaphost.com. URL-adressene til områdekartene blir dermed som følger:


http://www.sitemaphost.com/sitemap-host1.xml

http://www.sitemaphost.com/sitemap-host2.xml

http://www.sitemaphost.com/sitemap-host3.xml

Som standard vil dette resultere i en kryssinnsendingsfeil siden du prøver å sende inn URL-adresser for www.host1.com via et områdekart som ligger på www.sitemaphost.com (og likeledes for de to andre vertene). En måte å unngå denne feilen på er å bevise at du eier (altså at du har tillatelse til å endre filer) www.host1.com. Du kan gjøre dette ved å endre robots.txt-filen på www.host1.com slik at den peker til områdekartet på www.sitemaphost.com.

I dette eksempelet vil robots.txt-filen på http://www.host1.com/robots.txt inneholde linjen "Sitemap: http://www.sitemaphost.com/sitemap-host1.xml". Ved å endre robots.txt-filen på www.host1.com slik at den peker på områdekartet på www.sitemaphost.com, har du underforstått bevist at du eier www.host1.com. Med andre ord, den som kontrollerer robots.txt-filen på www.host1.com, har klarert at http://www.sitemaphost.com/sitemap-host1.xml skal inneholde URL-adresser for www.host1.com. Den samme fremgangsmåten kan gjentas for de to andre vertene.

Nå kan du sende inn områdekartene på www.sitemaphost.com.

Når en bestemt verts robots.txt-fil, for eksempel http://www.host1.com/robots.txt, peker til et områdekart eller en områdekartindeks på en annen vert, forventes det at for hvert av målområdekartene, for eksempel http://www.sitemaphost.com/sitemap-host1.xml, tilhører alle URL-adressene verten som peker på det. Dette er fordi, som nevnt tidligere, et områdekart forventes å bare inneholde URL-adresser fra en enkel vert.

Tilbake til toppen

Validere områdekartet

XML-skjemaene nedenfor angir hvilke elementer og attributter som kan vises i Sitemap-filen din. Du kan laste ned dette skjemaet fra koblingene nedenfor:

For områdekart: http://www.sitemaps.org/schemas/sitemap/0.9/sitemap.xsd
For Sitemap-indeksfiler: http://www.sitemaps.org/schemas/sitemap/0.9/siteindex.xsd

Det finnes en rekke verktøy som du kan bruke når du skal validere strukturen i områdekartet basert på dette skjemaet. Du finner en liste over XML-relaterte verktøy på disse stedene:

http://www.w3.org/XML/Schema#Tools
http://www.xml.com/pub/a/2000/12/13/schematools.html

Hvis du skal kunne validere områdekartet eller Sitemap-indeksfilen mot et skjema, trenger XML-filen flere topptekster, som vist nedenfor.

Områdekart:


<?xml version='1.0' encoding='UTF-8'?>

<urlset xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"

         xsi:schemaLocation="http://www.sitemaps.org/schemas/sitemap/0.9 http://www.sitemaps.org/schemas/sitemap/0.9/sitemap.xsd"

         xmlns="http://www.sitemaps.org/schemas/sitemap/0.9">

   <url>

      ...

   </url>

</urlset>

Sitemap-indeksfil:


<?xml version='1.0' encoding='UTF-8'?>

<sitemapindex xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"

         xsi:schemaLocation="http://www.sitemaps.org/schemas/sitemap/0.9 http://www.sitemaps.org/schemas/sitemap/0.9/siteindex.xsd"

         xmlns="http://www.sitemaps.org/schemas/sitemap/0.9">

   <sitemap>

      ...

   </sitemap>

</sitemapindex>

Tilbake til toppen

Utvide Sitemap-protokollen

Du kan utvide Sitemaps-protokollen ved hjelp av ditt eget navneområde. Du angir ganske enkelt dette navneområdet i rotelementet. Eksempel:


<?xml version='1.0' encoding='UTF-8'?>

<urlset xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"

         xsi:schemaLocation="http://www.sitemaps.org/schemas/sitemap/0.9 http://www.sitemaps.org/schemas/sitemap/0.9/sitemap.xsd"

         xmlns="http://www.sitemaps.org/schemas/sitemap/0.9"

         xmlns:example="http://www.example.com/schemas/example_schema"> <!-- namespace extension -->

   <url>

      <example:example_tag>

         ...

      </example:example_tag>

      ...

   </url>

</urlset>

Tilbake til toppen

Informere søkemotorenes robotsøkeprogrammer

Når du har opprettet Sitemap-filen og plassert den på webserveren din, må du informere søkemotorer som støtter denne protokollen, om plasseringen. Du kan gjør det på følgende måter:

Søkemotorene kan deretter hente områdekartet og gjøre webadressene tilgjengelige for robotsøkeprogrammer.

Slik sender du inn Sitemap ved hjelp av søkemotorens grensesnitt for innsending

Hvis du vil sende områdekartet ditt direkte til en søkemotor, som lar deg motta statusinformasjon og eventuelle behandlingsfeil, kan du lese hver søkemotors dokumentasjon.

Slik spesifiserer du plasseringen av Sitemap i robots.txt-filen

Du kan spesifisere plasseringen av Sitemap ved å bruke en robots.txt-fil. For å gjøre dette, legger du til følgende linje:

Sitemap: http://www.example.com/sitemap.xml

Denne katalogen er uavhengig av User-Agent-linjen, så det har ingen betydning hvor du plasserer den i filen. Hvis du har en Sitemap-indeksfil, kan du inkludere plasseringen til bare den filen. Du trenger ikke angi hver enkelt Sitemap som finnes i indeksfilen.

Du kan angi flere enn én områdekartfil per robots.txt-fil.

Sitemap: http://www.example.com/sitemap-host1.xml

Sitemap: http://www.example.com/sitemap-host2.xml

Slik sender du inn et områdekart ved hjelp av en HTTP-forespørsel

For å sende inn områdekartet ditt ved hjelp av en HTTP-forespørsel (erstatter du < searchengine_URL > med webadressen som du får fra søkemotoren). Send forespørselen til følgende webadresse:

<searchengine_URL>/ping?sitemap=sitemap_url

Hvis for eksempel områdekartet er plassert på http://www.eksempel.no/sitemap.gz, vil webadressen bli:

<searchengine_URL>/ping?sitemap=http://www.example.com/sitemap.gz

Alt etter /ping?sitemap= skal kodes som webadresse:

<searchengine_URL>/ping?sitemap=http%3A%2F%2Fwww.dittnettsted.no%2Fsitemap.gz

Du kan opprette en HTTP-forespørsel ved hjelp av wget, curl eller andre alternativer som du foretrekker. En vellykket forespørsel returnerer en HTTP 200-svarkode. Hvis du mottar et annet svar, bør du sende forespørselen din på nytt. HTTP 200-svarkoden angir bare at søkemotoren har mottatt webområdekartet ditt, ikke at selve webområdekartet eller de aktuelle webadressene er gyldige. En enkel måte å gjøre dette på, er å konfigurere automatisk og regelmessig generering og sending av webområdekart.
Merk: Hvis du angir en Sitemap-indeksfil, trenger du bare sende én HTTP-forespørsel som inkluderer plasseringen av Sitemap-indeksfilen. Du trenger ikke sende enkeltforespørsler for hvert områdekart som er oppført i indeksen.

Tilbake til toppen

Ekskludere innhold

Sitemaps-protokollen gjør det mulig for deg å la søkemotorer få vite hva slags innhold som skal indekseres. For å fortelle søkemotorer hvilket innhold du ikke vil skal indekseres, bruker du en robots.txt-fil eller en metakode. Se robotstxt.org hvis du vil ha mer informasjon om hvordan du utelater innhold fra søkemotorer.

 

Tilbake til toppen

Sist oppdatert: 21. november 2016