Sitemaps-XML-format

Gå til:
XML-kodedefinitioner
Angivelse af tegnkoder
Brug af Sitemap-indeksfiler
Andre Sitemap-formater
Placering af Sitemap-filer
Gennemgang af dit Sitemap
Udvidelse af Sitemaps-protokollen
Informering af søgemaskinecrawlere

Dette dokument beskriver XML-skemaet for Sitemaps-protokollen.

Sitemap-protokolformatet består af XML-koder. Alle dataværdier i et Sitemap skal angives med tegnkoder. Filen selv skal være UTF-8-kodet.

Sitemap'et skal:

Alle øvrige koder er valgfrie. Understøttelse af disse valgfrie koder kan variere fra søgemaskine til søgemaskine. Se dokumentationen for hver søgemaskine for at få yderligere detaljer.

Desuden skal alle webadresser komme fra en enkelt vært, f.eks. www.example.com eller store.example.com. Hvis du vil have flere oplysninger, skal du se under Placering af Sitemap-filer

Eksempel på XML Sitemap

Følgende eksempel viser et Sitemap, der blot indeholder én webadresse og bruger alle de valgfri koder. De valgfri koder vises med kursiv.


<?xml version="1.0" encoding="UTF-8"?>

<urlset xmlns="http://www.sitemaps.org/schemas/sitemap/0.9">

   <url>

      <loc>http://www.example.com/</loc>

      <lastmod>2005-01-01</lastmod>

      <changefreq>monthly</changefreq>

      <priority>0.8</priority>

   </url>

</urlset> 

Se også vores eksempel med flere webadresser.

XML-kodedefinitioner

De tilgængelige XML-koder beskrives nedenfor.

Attribut Beskrivelse
<urlset> påkrævet

Indkapsler filen og henviser til den aktuelle protokolstandard.

<url> påkrævet

Overordnet kode for hver enkelt webadresse. De resterende koder er underordnede for denne kode.

<loc> påkrævet

Sidens webadresse. Denne webadresse skal begynde med protokollen (f.eks. http) og slutte med en skråstreg, hvis webserveren kræver det. Denne værdi skal være mindre end 2,048 tegn.

<lastmod> valgfri

Datoen for den seneste ændring af filen. Denne dato skal være i formatet W3C-datotid. Dette format giver dig mulighed for at udelade tidsdelen, hvis du ønsker dette, og bruge ÅÅÅÅ-MM-DD.

Læg mærke til, at denne kode er adskilt fra HTTP-overskriften If-Modified-Since (304), som serveren kan returnere, og søgemaskiner kan muligvis bruge oplysningerne fra begge kilder forskelligt.

<changefreq> valgfri

Hvor ofte siden ændres. Denne værdi giver søgemaskiner generelle oplysninger og svarer muligvis ikke nøjagtigt til, hvor ofte siden gennemgås. Gyldige værdier er følgende:

  • always
  • hourly
  • daily
  • weekly
  • monthly
  • yearly
  • never

Værdien "always" skal bruges til at beskrive dokumenter, der ændres, hver gang de åbnes. Værdien "never" skal bruges til at beskrive arkiverede webadresser.

Bemærk, at værdien af denne kode betragtes som et tip, ikke som en kommando. Selvom søgemaskinecrawlere kan tage disse oplysninger i betragtning, når de træffer beslutninger, gennemgår de muligvis sider, der er markeret som "hourly", mindre hyppigt end dette, og de gennemgår muligvis sider, der er markeret som "yearly", hyppigere end dette. Webcrawlere kan jævnligt gennemgå sider, der er markeret som "never", så de kan varetage uventede ændringer på de pågældende sider.

<priority> valgfri

Denne webadresses prioritet i forhold til andre webadresser på dit websted. Gyldige værdier varierer fra 0.0 til 1.0. Denne værdi har ingen indflydelse på, hvordan dine sider sammenlignes med sider på andre websteder. Den giver blot søgemaskinerne oplysninger om, hvilke af dine sider der er vigtigst for webcrawlerne efter din mening.

Standardprioriteten for en side er 0,5.

Bemærk, at den prioritet, du tildeler en side, sandsynligvis ikke påvirker placeringen af webadresserne på søgemaskinens resultatsider. Søgemaskiner kan bruge disse oplysninger, når der vælges mellem webadresser på det samme websted, så du kan bruge denne kode for at øge sandsynligheden for, at de vigtigste sider vises i et søgeindeks.

Bemærk også, at det højst sandsynligt ikke hjælper at give høj prioritet til alle webadresserne på webstedet. Eftersom prioriteten er relativ, bruges den kun til at vælge mellem webadresser på dit websted.

Tilbage til toppen

Angivelse af tegnkoder

Din Sitemap-fil skal være UTF-8-kodet (du kan sædvanligvis gøre dette, når du gemmer filen). Ligesom med alle XML-filer skal alle dataværdier (herunder webadresser) bruge tegnkoder for de tegn, der vises i tabellen nedenfor.

Tegn Tegnkode
&-tegn & &amp;
Enkelte anførselstegn ' &apos;
Anførselstegn " &quot;
Større end > &gt;
Mindre end < &lt;

Derudover skal alle webadresser (herunder webadressen til dit Sitemap) URL-tegnkodes til at kunne læses af den webserver, som de er placeret på. Hvis du imidlertid bruger en form for script, værktøj eller logfil til at generere dine webadresser (alt med undtagelse af at indtaste dem manuelt), er dette sædvanligvis allerede gjort for dig. Du skal også sikre, at alle dine webadresser følger RFC-3986-standarden for URI'er, RFC-3987-standarden for IRI'er og XML-standarden.

Nedenfor findes et eksempel på en webadresse, der bruger et ikke-ASCII-tegn (ü), samt et tegn, der kræver angivelse med tegnkoder (&):

http://www.example.com/ümlat.html&q=name

Nedenfor findes den samme webadresse, ISO-8859-1-kodet (til hosting på en server, der bruger den pågældende kodning) og webadressetegnkodet:

http://www.example.com/%FCmlat.html&q=name

Nedenfor findes den samme webadresse, UTF-8-kodet (til hosting på en server, der bruger den pågældende kodning) og webadressetegnkodet:

http://www.example.com/%C3%BCmlat.html&q=name

Nedenfor findes den samme webadresse, men her også angivet med tegnkoder:

http://www.example.com/%C3%BCmlat.html&amp;q=name

Eksempel på et Sitemap i XML-format

I følgende eksempel vises et Sitemap i XML-format. Sitemap'et i eksemplet indeholder et lille antal webadresser, som hver især bruger et forskelligt sæt valgfrie parametre.


<?xml version="1.0" encoding="UTF-8"?>

<urlset xmlns="http://www.sitemaps.org/schemas/sitemap/0.9">

   <url>

      <loc>http://www.example.com/</loc>

      <lastmod>2005-01-01</lastmod>

      <changefreq>monthly</changefreq>

      <priority>0.8</priority>

   </url>

   <url>

      <loc>http://www.example.com/catalog?item=12&amp;desc=vacation_hawaii</loc>

      <changefreq>weekly</changefreq>

   </url>

   <url>

      <loc>http://www.example.com/catalog?item=73&amp;desc=vacation_new_zealand</loc>

      <lastmod>2004-12-23</lastmod>

      <changefreq>weekly</changefreq>

   </url>

   <url>

      <loc>http://www.example.com/catalog?item=74&amp;desc=vacation_newfoundland</loc>

      <lastmod>2004-12-23T18:00:15+00:00</lastmod>

      <priority>0.3</priority>

   </url>

   <url>

      <loc>http://www.example.com/catalog?item=83&amp;desc=vacation_usa</loc>

      <lastmod>2004-11-23</lastmod>

   </url>

</urlset>

Tilbage til toppen

Brug af Sitemap-indeksfiler (til at gruppere flere Sitemap-filer)

Du kan angive flere Sitemap-filer, men hver Sitemap-fil, du angiver, må ikke indeholde mere end 50.000 webadresser og må ikke fylde mere end 50 MB (52,428,800 bytes). Hvis du vil, kan du komprimere dine Sitemap-filer med gzip for at reducere kravet til din båndbredde. Men når en Sitemap-fil pakkes ud igen, må den ikke fylde mere en 50 MB. Hvis du vil angive mere end 50.000 webadresser, skal du oprette flere Sitemap-filer.

Hvis du vælger at oprette flere Sitemaps, skal du angive hver Sitemap-fil i en Sitemap-indeksfil. Sitemap-indeksfiler må ikke indeholde mere end 50.000 Sitemaps og må ikke fylde mere end 50 MB (52,428,800 bytes), og de kan komprimeres. Det er muligt at have mere end én Sitemap-indeksfil. XML-formatet for en Sitemap-indeksfil ligner i høj grad XML-formatet for en Sitemap-fil.

Sitemap-indeksfilen skal:

Den valgfrie <lastmod>-kode findes også for Sitemap-indeksfiler.

Bemærk! En Sitemap-indeksfil kan kun angive Sitemaps, der findes på det samme websted som Sitemap-indeksfilen. F.eks. kan http://www.ditwebsted.com/sitemap_index.xml indeholde Sitemaps fra http://www.ditwebsted.com, men ikke fra http://www.example.com eller http://dinvært.ditwebsted.com. Ligesom med Sitemaps skal din Sitemap-indeksfil være UTF-8-kodet.

Eksempel på et XML-Sitemap-indeks

I følgende eksempel vises et Sitemap-indeks i, som indeholder to Sitemaps:


<?xml version="1.0" encoding="UTF-8"?>

<sitemapindex xmlns="http://www.sitemaps.org/schemas/sitemap/0.9">

   <sitemap>

      <loc>http://www.example.com/sitemap1.xml.gz</loc>

      <lastmod>2004-10-01T18:23:17+00:00</lastmod>

   </sitemap>

   <sitemap>

      <loc>http://www.example.com/sitemap2.xml.gz</loc>

      <lastmod>2005-01-01</lastmod>

   </sitemap>

</sitemapindex>

Bemærk! Ligesom alle værdierne i dine XML-filer skal Sitemap-webadresser være angivet med tegnkoder.

Definitioner på XML-koder i Sitemap-indekset

Attribut Beskrivelse
<sitemapindex> påkrævet Indkapsler oplysninger om alle Sitemaps i filen.
<sitemap> påkrævet Indkapsler oplysninger om et enkelt Sitemap.
<loc> påkrævet

Identificerer placeringen af Sitemap'et.

Dette sted kan være et Sitemap, en Atom-fil, en RSS-fil eller en simpel tekstfil.

<lastmod> valgfri

Identificerer det tidspunkt, den tilsvarende Sitemap-fil blev ændret på. Det svarer ikke til det tidspunkt, nogen af de sider, der er angivet i Sitemap'et, blev ændret på. Værdien for koden lastmod skal være i W3C-datotid-format.

Ved at angive tidsstemplet for den seneste ændring gør du det kun muligt for webcrawlere at hente en delmængde af Sitemap'ene i indekset, dvs. at en webcrawler kun kan hente Sitemaps, der er blevet ændret efter en bestemt dato. Denne trinvise mekanisme for hentning af Sitemaps giver mulighed for hurtig registrering af nye webadresser på meget store websteder.

Tilbage til toppen

Andre Sitemap-formater

Sitemap-protokollen giver mulighed for at angive detaljer om dine sider til søgemaskiner, og vi opfordrer dig til at bruge det, da du kan angive yderligere oplysninger om webstedssider udover bare webadresserne. Udover XML-protokollen understøtter vi dog også RSS-feeds og tekstfiler, der indeholder mere begrænsede oplysninger.

Annoncenetværksfeed

Du kan angive en RSS (Real Simple Syndication) 2.0- eller Atom 0.3- eller 1.0-feed. Generelt skal du kun bruge dette format, hvis dit websted allerede har et annoncenetværksfeed. Bemærk, at denne metode måske ikke fortæller søgemaskiner om alle webadresserne på dit websted, da feedet måske kun indeholder oplysninger om seneste webadresser, selvom søgemaskiner stadig kan bruge de pågældende oplysninger til at finde andre sider på dit websted under de almindelige gennemgangsprocesser ved at følge links på siderne i feedet. Kontroller, at feedet er placeret i mappen på det højeste niveau, som du ønsker, søgemaskinerne skal gennemgå. Søgemaskiner trækker oplysningerne ud af feedet som følger:

Tekstfil

Du kan angive en simpel tekstfil, der indeholder én webadresse pr. linje. Tekstfilen skal følge retningslinjerne nedenfor:

Poster i prøvetekstfiler vises nedenfor.

http://www.example.com/catalog?item=1


http://www.example.com/catalog?item=11

Tilbage til toppen

Placering af Sitemap-filer

Placeringen af en Sitemap-fil bestemmer det sæt webadresser, der kan medtages i det pågældende Sitemap. En Sitemap-fil på http://example.com/catalog/sitemap.xml kan indeholde enhver webadresse, der starter med http://example.com/catalog/, men kan ikke indeholde webadresser, der begynder med http://example.com/images/.

Hvis du har tilladelse til at ændre http://example.org/sti/sitemap.xml, har du sandsynligvis også tilladelse til angive oplysninger om webadresser med præfikset http://example.org/sti/. Eksempler på webadresser, der betragtes som gyldige i http://example.com/katalog/sitemap.xml, omfatter:


http://example.com/catalog/show?item=23

http://example.com/catalog/show?item=233&user=3453

Webadresser, der ikke betragtes som gyldige på http://example.com/catalog/sitemap.xml, inkluderer:


http://example.com/image/show?item=23

http://example.com/image/show?item=233&user=3453

https://example.com/catalog/page1.html

Bemærk, at dette betyder, at alle webadresser, som Sitemap'et indeholder, skal bruge den samme protokol (http i dette eksempel) og befinde sig på den samme vært som Sitemap'et. Hvis Sitemap'et f.eks. findes på http://www.example.com/sitemap.xml, kan det ikke indeholde webadresser fra http://underdomæne.example.com.

Webadresser, der ikke betragtes som gyldige, udelades fra yderligere overvejelse. Det anbefales, at du placerer dit Sitemap i webserverens rodmappe. Hvis webserveren f.eks. findes under example.com, skal din Sitemap-indeksfil være under http://example.com/sitemap.xml. I visse tilfælde kan det være fordelagtigt at oprette forskellige Sitemaps til forskellige stier, (f.eks. hvis sikkerhedstilladelser i din organisation inddeler skriveadgang til forskellige mapper).

Hvis du sender et Sitemap via en sti med et portnummer, skal du inkludere dette portnummer som en del af stien i hver webadresse, som er anført i Sitemap-filen. Hvis Sitemap'et f.eks. findes på http://www.example.com:100/sitemap.xml, skal hver webadresse i Sitemap'et starte med: http://www.example.com:100.

Sitemaps og tværgående afsendelser

Hvis du vil sende Sitemaps til flere værter fra en enkelt vært, skal du "bevise" ejerskabet af den eller de værter, som webadresser sendes for i et Sitemap. Her er et eksempel. Lad os sige, at du vil sende Sitemaps til tre værter:


www.host1.com with Sitemap file sitemap-host1.xml

www.host2.com with Sitemap file sitemap-host2.xml

www.host3.com with Sitemap file sitemap-host3.xml

Derudover vil du placere alle tre Sitemaps på en enkelt vært: www.sitemaphost.com. Det vil sige, at Sitemap-webadressen bliver:


http://www.sitemaphost.com/sitemap-host1.xml

http://www.sitemaphost.com/sitemap-host2.xml

http://www.sitemaphost.com/sitemap-host3.xml

Som standard resulterer det i en fejlmeddelelse om "tværgående afsendelse", fordi du prøver at sende webadresser for www.host1.com via et Sitemap, som er placeret på www.sitemaphost.com (og det samme gælder for de to andre værter). En måde, du kan undgå fejlen på, er at bevise, at du ejer (dvs.har beføjelse til at ændre filer) www.host1.com. Det kan du gøre ved at redigere filen robots.txt på www.host1.com, så den peger på Sitemap'et på www.sitemaphost.com.

I dette eksempel indeholder filen robots.txt på http://www.host1.com/robots.txt linjen "Sitemap: http://www.sitemaphost.com/sitemap-host1.xml". Ved at ændre filen robots.txt på www.host1.com, så den peger på Sitemap'et på www.sitemaphost.com, har du automatisk bevist, at du ejer www.host1.com. Med andre ord – den, som kontrollerer filen robots.txt på www.host1.com giver Sitemap'et på http://www.sitemaphost.com/sitemap-host1.xml lov til at indeholde webadresser for www.host1.com. Den samme proces kan gentages for de to andre værter.

Nu kan du sende Sitemaps på www.sitemaphost.com.

Når en bestemt værts robots.txt-fil, f.eks. http://www.host1.com/robots.txt, peger på et Sitemap eller et Sitemap-indeks på en anden vært; forventes det for hver destinations-Sitemap, f.eks. http://www.sitemaphost.com/sitemap-host1.xml, at alle webadresserne hører til den vært, som peger på det. Som tidligere nævnt er det, fordi et Sitemap kun forventes at have webadresser fra en enkelt vært.

Tilbage til toppen

Validering af dit Sitemap

Følgende XML-skemaer definerer de elementer og attributter, der kan vises i Sitemap-filen. Du kan downloade dette skema ved hjælp af de links, der vises nedenfor:

For Sitemaps: http://www.sitemaps.org/schemas/sitemap/0.9/sitemap.xsd
For Sitemap-indeksfiler: http://www.sitemaps.org/schemas/sitemap/0.9/siteindex.xsd

Der er en række tilgængelige værktøjer, du kan bruge til at bekræfte strukturen i Sitemap'et på basis af dette skema. Du kan finde en liste med XML-relaterede værktøjer på en af følgende placeringer:

http://www.w3.org/XML/Schema#Tools
http://www.xml.com/pub/a/2000/12/13/schematools.html

Hvis du vil bekræfte et Sitemap eller en Sitemap-indeksfil på basis af et skema, skal XML-filen have yderligere overskrifter, som vist nedenfor.

Sitemap:


<?xml version='1.0' encoding='UTF-8'?>

<urlset xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"

         xsi:schemaLocation="http://www.sitemaps.org/schemas/sitemap/0.9 http://www.sitemaps.org/schemas/sitemap/0.9/sitemap.xsd"

         xmlns="http://www.sitemaps.org/schemas/sitemap/0.9">

   <url>

      ...

   </url>

</urlset>

Sitemap-indeksfil:


<?xml version='1.0' encoding='UTF-8'?>

<sitemapindex xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"

         xsi:schemaLocation="http://www.sitemaps.org/schemas/sitemap/0.9 http://www.sitemaps.org/schemas/sitemap/0.9/siteindex.xsd"

         xmlns="http://www.sitemaps.org/schemas/sitemap/0.9">

   <sitemap>

      ...

   </sitemap>

</sitemapindex>

Tilbage til toppen

Udvidelse af Sitemaps-protokollen

Du kan udvide Sitemaps-protokollen med dit eget navneområde. Du skal angive navneområdet i rodelementet. Eksempel:


<?xml version='1.0' encoding='UTF-8'?>

<urlset xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"

         xsi:schemaLocation="http://www.sitemaps.org/schemas/sitemap/0.9 http://www.sitemaps.org/schemas/sitemap/0.9/sitemap.xsd"

         xmlns="http://www.sitemaps.org/schemas/sitemap/0.9"

         xmlns:example="http://www.example.com/schemas/example_schema"> <!-- namespace extension -->

   <url>

      <example:example_tag>

         ...

      </example:example_tag>

      ...

   </url>

</urlset>

Tilbage til toppen

Informering af søgemaskinecrawlere

Når du har oprettet Sitemap-filen og placeret den på din webserver, skal du oplyse de søgemaskiner, som understøtter Sitemaps-protokollen, om dens placering. Dette kan du gøre ved at:

Søgemaskinerne kan nu hente dit Sitemap og gøre webadresserne tilgængelige for deres webcrawlere.

Afsendelse af dit Sitemap via søgemaskinens sendegrænseflade

Hvis du vil sende dit Sitemap direkte til en søgemaskine, som vil gøre det muligt at modtage statusoplysninger og eventuelle behandlingsfejl, skal du se i hver søgemaskines dokumentation.

Angivelse af placeringen af Sitemap i din robots.txt-fil

Du kan angive placeringen af dit Sitemap ved hjælp af en robots.txt-fil. Du gør det ved blot at tilføje følgende linje:

Sitemap: http://www.example.com/sitemap.xml

Dette direktiv er uafhængigt af User-Agent-linjen, så det gør ikke noget, hvor du placerer det i din fil. Hvis du har en Sitemap-indeksfil, kan du inkludere placeringen af bare den fil. Du skal ikke opstille hver enkelt Sitemap i indeksfilen.

Du kan angive mere end én Sitemap-fil pr. robots.txt-fil.

Sitemap: http://www.example.com/sitemap-host1.xml

Sitemap: http://www.example.com/sitemap-host2.xml

Afsendelse af dit Sitemap via en HTTP-anmodning

Hvis du vil sende dit Sitemap via en HTTP-anmodning (erstat <searchengine_URL> med den webadresse, du får fra søgemaskinen) skal du udstede din anmodning til følgende webadresse:

<searchengine_URL>/ping?sitemap=sitemap_url

Hvis dit Sitemap f.eks. findes på http://www.example.com/sitemap.gz, bliver webadressen:

<searchengine_URL>/ping?sitemap=http://www.example.com/sitemap.gz

Webadressekodning af alt efter URL/ping?sitemap=:

<searchengine_URL>/ping?sitemap=http%3A%2F%2Fwww.ditwebsted.dk%2Fsitemap.gz

Du kan sende en HTTP-anmodning vha. wget, curl eller en anden mekanisme efter eget valg. En fuldført anmodning returnerer en HTTP 200-svarkode. Hvis du modtager et andet svar, skal du sende anmodningen igen. Svarkoden HTTP 200 angiver kun, at søgemaskinen har modtaget dit Sitemap, ikke at selve Sitemap'et eller webadresserne i det er gyldige. En nem måde at gøre dette på er at oprette et automatisk job, der skal generere og sende Sitemaps regelmæssigt.
Bemærk! Hvis du angiver en Sitemap-indeksfil, skal du kun sende en HTTP-anmodning, der omfatter placeringen af Sitemap-indeksfilen. Du behøver ikke at sende særskilte anmodninger for hvert enkelt Sitemap, der er angivet i indekset.

Tilbage til toppen

Udelukkelse af indhold

Sitemaps-protokollen giver dig mulighed for at lade søgemaskiner vide det indhold, du vil indeksere. Brug robots.txt-filen eller robots-metatag til at fortælle søgemaskiner om det indhold, du ikke vil indeksere. Se robotstxt.org for at få flere oplysninger om, hvordan du ekskluderer indhold fra søgemaskiner.

 

Tilbage til toppen

Senest opdateret: 21. november 2016