Sivustokarttojen XML-muoto
Siirry:
XML-koodin määritykset
Entity escape -koodaus
Sivustokarttahakemistotiedostojen käyttäminen
Muut sivustokartan tiedostomuodot
Sivustokarttatiedoston sijainti
Sivustokartan vahvistaminen
Sitemap-protokollan laajentaminen
Tiedon antaminen hakukoneen indeksoijille
Tässä asiakirjassa kuvataan Sitemap-protokollan XML-kaava.
Sitemap-protokollamuoto sisältää XML-koodeja. Sivustokartan kaikkien data-arvojen on oltava entity-escaped -koodattuina. Itse tiedoston on oltava UTF-8-koodattu.
Sivustokartan on täytettävä seuraavat edellytykset:
- Aloita avaavalla
<urlset>
-tunnisteella ja päätä sulkevalla</urlset>
-tunnisteella. - Määritä nimitila (protokollastandardi)
<urlset>
-tunnisteen sisällä. - Sisällytä
<url>
-merkintä kuhunkin URL-osoitteeseen ylemmän tason XML-tunnisteena. - Sisällytä alemman tason
<loc>
-merkintä kuhunkin<url>
-päätunnisteeseen.
Kaikki muut tunnisteet ovat valinnaisia. Valinnaisten tunnisteiden tuki vaihtelee hakukoneittain. Katso lisätietoja hakukoneen dokumentaatiosta.
Sivustokartan URL-osoitteiden on myös oltava peräisin yksittäisestä isännästä, joka voi olla esimerkiksi www.example.com tai store.example.com. Lisätietoja on kohdassa Sivustokarttatiedoston sijainti.
XML-esimerkkisivustokartta
Seuraava esimerkki on sivustokartasta, joka sisältää vain yhden URL-osoitteen ja joka käyttää kaikkia valinnaisia tunnisteita. Valinnaiset tunnisteet on merkitty kursiivilla.
<?xml version="1.0" encoding="UTF-8"?> <urlset xmlns="http://www.sitemaps.org/schemas/sitemap/0.9"> <url> <loc>http://www.example.com/</loc> <lastmod>2005-01-01</lastmod> <changefreq>monthly</changefreq> <priority>0.8</priority> </url> </urlset>
Katso myös esimerkkimme useista URL-osoitteista.
XML-tunnistemääritykset
Käytettävissä olevat XML-koodit on kuvattu alla.
Määrite | Kuvaus | |
---|---|---|
<urlset>
|
pakollinen |
Kapseloi tiedoston ja viittaa nykyiseen protokollastandardiin. |
<url>
|
pakollinen |
Kunkin URL-osoitteen ylemmän tason tunniste. Loput tunnisteet ovat kyseisen tunnisteen alitunnisteita. |
<loc>
|
pakollinen |
Sivun URL-osoite. Tämän URL-osoitteen alussa on oltava protokolla (kuten http) ja lopussa sulkeva kenoviiva, jos Web-palvelimesi sitä edellyttää. Tämän arvon on oltava alle 2 048 merkkiä. |
<lastmod>
|
valinnainen |
Tiedoston viimeisimmän muutoksen päivämäärä. Päivämäärän tulee olla W3C Datetime -muodossa. Sen ansiosta voit halutessasi ohittaa kellonajan ja käyttää merkintää VVVV-KK-PP. Huomaa, että päivämääräksi on määritettävä päivämäärä, jolloin linkitettyä sivua on viimeksi muutettu, ei päivämäärää, jolloin sivukartta on luotu. Huomaa, että tämä merkintä eroaa If-Modified-Since (304) -otsikosta, jonka palvelin voi palauttaa. Hakukoneet saattavat käyttää molemmista lähteistä saatua tietoa eri tavoin. |
<changefreq>
|
valinnainen |
Miten usein sivu todennäköisesti muuttuu. Tämä arvo tarjoaa hakukoneille lisätiedon, eikä se välttämättä kerro juuri sitä, miten usein hakukoneet indeksoivat sivun. Kelpaavat arvot ovat seuraavat:
Arvon "always" avulla kuvataan tiedostoja, jotka muuttuvat aina avattaessa. Arvon "never" avulla kuvataan arkistoituja URL-sivuja. Huomaa, että tämän tunnisteen arvon katsotaan olevan vihje, ei komento. Vaikka hakukoneen indeksoijat saattavat ottaa tämän tiedon huomioon päätöksenteossaan, ne saattavat indeksoida "hourly"-merkittyjä sivuja harvemmin kuin kerran tunnissa ja "yearly";-merkittyjä sivuja useammin kuin kerran vuodessa. Indeksoijat saattavat indeksoida säännöllisesti sivuja, joilla on merkintä "never", jolloin ne voivat käsitellä kyseisten sivujen odottamattomia muutoksia. |
<priority>
|
valinnainen |
Tämän URL-osoitteen painoarvo suhteessa muihin sivustosi URL-osoitteisiin. Kelvolliset arvot ovat 0.0–1.0. Arvo ei vaikuta siihen, miten sivujasi verrataan muissa sivustoissa oleviin sivuihin. Se vain ilmaisee hakukoneille, mitä sivuistasi pidät tärkeimpinä indeksoijille. Sivun oletuspainoarvo on 0,5. Muista, että sivulle asettamasi painoarvo ei todennäköisesti vaikuta URL-osoitteidesi sijaintiin hakukoneen tulossivuilla. Hakukoneet saattavat käyttää sitä suorittaessaan valintaa saman sivuston URL-osoitteiden välillä, joten voit käyttää tätä tunnistetta, jotta tärkeimmät sivusi olisivat todennäköisemmin mukana hakuhakemistossa. Muista myös, että kaikkien sivustosi URL-osoitteiden määrittäminen erittäin tärkeiksi ei todennäköisesti hyödytä sinua. Koska painoarvo on suhteellinen, sitä käytetään vain suoritettaessa valintaa sivustosi URL-osoitteiden välillä. |
Entity escape -koodaus
Sivustokarttatiedostosi on oltava UTF-8-koodattu (voit yleensä varmistaa asian tiedoston tallennuksen yhteydessä). Kaikkien XML-tiedostojen tapaan kaikissa data-arvoissa (mukaan lukien URL-osoitteet) on käytettävä ns. entity escape -koodausta alla olevassa taulukossa olevien merkkien osalta.
Merkki | Escape-koodi | |
---|---|---|
Et-merkki | & |
&
|
Heittomerkki | ' |
'
|
Lainausmerkki | " |
"
|
Suurempi kuin | > |
>
|
Vähemmän kuin | < |
<
|
Lisäksi kaikkien URL-osoitteiden (myös sivustokartan URL-osoitteen) on oltava URL escape -koodattuja ja koodattuja sen WWW-palvelimen suorittamaa lukua varten, jolla sivustot sijaitsevat. Jos URL-osoitteiden luomiseen käytetään jotakin komentosarjaa, sovellusta tai lokitiedostoa (eli luettelo tehdään jollakin muulla tavoin kuin manuaalisesti kirjoittamalla), tämä osuus on tavallisesti jo valmiiksi tehty. Varmista myös, että URL-osoitteesi noudattavat URI-osoitteiden RFC-3986-standardia, IRI-osoitteiden RFC-3987-standardia ja XML-standardia.
Alla on esimerkki URL-osoitteesta, joka käyttää muuta kuin ASCII-merkkiä (ü
),
sekä entity escape -koodausta vaativaa merkkiä (&
):
http://www.example.com/ümlat.html&q=name
Alla on sama URL-osoite ISO-8859-1-merkistöisenä (palvelimille, jotka sitä käyttävät) ja ns. URL escaped -koodattuna:
http://www.example.com/%FCmlat.html&q=name
Alla on sama URL-osoite UTF-8-merkistöisenä (palvelimille, jotka sitä käyttävät) ja ns. URL escaped -koodattuna:
http://www.example.com/%C3%BCmlat.html&q=name
Alla on sama URL-osoite myös entity escaped -koodattuna:
http://www.example.com/%C3%BCmlat.html&q=name
XML-esimerkkisivustokartta
Seuraava esimerkki näyttää sivustokartan XML-muodossa. Esimerkin sivustokartta sisältää vain muutaman URL-osoitteen, joista kuhunkin liittyy erilaisia valinnaisten parametrien joukkoja.
<?xml version="1.0" encoding="UTF-8"?> <urlset xmlns="http://www.sitemaps.org/schemas/sitemap/0.9"> <url> <loc>http://www.example.com/</loc> <lastmod>2005-01-01</lastmod> <changefreq>monthly</changefreq> <priority>0.8</priority> </url> <url> <loc>http://www.example.com/catalog?item=12&desc=vacation_hawaii</loc> <changefreq>weekly</changefreq> </url> <url> <loc>http://www.example.com/catalog?item=73&desc=vacation_new_zealand</loc> <lastmod>2004-12-23</lastmod> <changefreq>weekly</changefreq> </url> <url> <loc>http://www.example.com/catalog?item=74&desc=vacation_newfoundland</loc> <lastmod>2004-12-23T18:00:15+00:00</lastmod> <priority>0.3</priority> </url> <url> <loc>http://www.example.com/catalog?item=83&desc=vacation_usa</loc> <lastmod>2004-11-23</lastmod> </url> </urlset>
Sivustokarttahakemistotiedostojen käyttäminen (useiden sivustokarttatiedostojen ryhmittämiseen)
Sivustokarttatiedostoja voidaan antaa useita, mutta kukin annettu tiedosto saa sisältää enintään 50 000 URL-osoitetta, eikä tiedoston koko saa ylittää 50 megatavua (52 428 800 tavua). Jos haluat, voit pakata sivustokarttatiedostosi gzip-muodossa pienentääksesi kaistanleveyden tarvetta, mutta puretun sivustokarttatiedoston koko ei saa ylittää 50 megatavua. Jos URL-osoitteita on yli 50 000, on luotava useita sivustokarttatiedostoja.
Jos annat useita sivustokarttatiedostoja, sinun tulee luetella jokainen sivustokarttatiedosto sivustokarttahakemistotiedostossa. Sivustokarttahakemistotiedostot saavat sisältää korkeintaan 50 000 sivustokarttaa. Tiedostojen enimmäiskoko on 50 megatavua (52 428 800 tavua), ja ne voidaan pakata. Sivustokarttahakemistotiedostoja voi olla useita. Sivustokarttahakemistotiedoston XML-muoto on hyvin samankaltainen kuin sivustokarttatiedoston XML-muoto.
Sivustokarttahakemistotiedoston on
- alettava avaavalla
<sitemapindex>
-tunnisteella ja päätyttävä sulkevaan</sitemapindex>
-tunnisteeseen - sisällettävä
<sitemap>
-merkintä kullekin sivustokartalle ylemmän tason XML-tunnisteena - sisällettävä alemman tason
<loc>
-merkintä kullekin ylemmän tason<sitemap>
-tunnisteelle.
Valinnainen <lastmod>
-tunniste
on myös käytettävissä sivustokarttahakemistotiedostoille.
Huomautus: Sivustokarttahakemistotiedosto voi määrittää ainoastaan sen kanssa samaan sivustoon kuuluvat kartat. Esimerkiksi http://www.omasivu.fi/sitemap_index.xml voi sisältää sivustokarttoja sivustoon http://www.omasivu.fi, mutta ei sivustoon http://wwww.esimerkki.fi tai http://omapalvelin.omasivu.fi. Sivustokarttahakemistotiedoston tulee olla sivustokarttojen tapaan UTF-8-muodossa.
Esimerkki XML-sivustokarttahakemistosta
Seuraava esimerkki näyttää sivustokarttahakemiston, jossa luetellaan kaksi sivustokarttaa:
<?xml version="1.0" encoding="UTF-8"?> <sitemapindex xmlns="http://www.sitemaps.org/schemas/sitemap/0.9"> <sitemap> <loc>http://www.example.com/sitemap1.xml.gz</loc> <lastmod>2004-10-01T18:23:17+00:00</lastmod> </sitemap> <sitemap> <loc>http://www.example.com/sitemap2.xml.gz</loc> <lastmod>2005-01-01</lastmod> </sitemap> </sitemapindex>
Huomautus: Sivustokarttojen URL-osoitteet, kuten kaikki XML-tiedostojen arvot, on entity escape -koodattava.
Sivustokarttahakemiston XML-tunnistemääritykset
Määrite | Kuvaus | |
---|---|---|
<sitemapindex>
|
pakollinen | Kapseloi tiedoston kaikkien sivustokarttojen tiedot. |
<sitemap>
|
pakollinen | Kapseloi yksittäisen sivustokartan tiedot. |
<loc>
|
pakollinen |
Osoittaa sivustokartan sijainnin. Sijainti voi olla sivustokartta, Atom-tiedosto, RSS-tiedosto tai tavallinen tekstitiedosto. |
<lastmod>
|
valinnainen |
Ilmaisee ajankohdan, jolloin sitä vastaavaa sivustokarttatiedostoa muutettiin. Se ei vastaa ajankohtaa, jona mitä tahansa kyseiseen sivustokarttaan merkittyä sivua muutettiin. Lastmod-tunnisteen arvon tulee olla W3C Datetime -muodossa. Kun annat viimeisimmän muutoksen aikaleiman, hakukoneen indeksoijat voivat hakea vain osan hakemiston sivustokartoista, eli vain tietyn päivämäärän jälkeen muutetut sivustokartat. Tämä muuttuvan sivustokartan hakumekanismi mahdollistaa uusien URL-osoitteiden nopean löytämisen suurista sivustoista. |
Muut sivustokartan tiedostomuodot
Sitemap-protokolla mahdollistaa sivujesi yksityiskohtien lähettämisen hakukoneille. Kehotamme käyttämään sitä, koska sen avulla voit antaa pelkän URL-osoitteen lisäksi muitakin lisätietoja sivustosi sivuista. XML-protokollan lisäksi tuemme RSS-syötteitä ja tekstitiedostoja, jotka sisältävät vähemmän tietoa.
Jakelusyöte
Voit lähettää RSS (Real Simple Syndication) 2.0- tai Atom 0.3 tai 1.0 -syötteet. Tavallisesti tätä muotoa käytetään vain, jos sivustossasi jo on jakelusyöte. Tieto sivustosi URL-osoitteista ei välttämättä välity näin hakukoneille, jos syötteeseen sisältyy tietoa ainoastaan viimeisimmistä URL-osoitteista, hakukoneet voivat hyödyntää myös näitä tietoja ja selvittää muut sivuston sivut normaalien indeksointiprosessien yhteydessä seuraamalla syötteen sivujen sisäisiä linkityksiä. Varmista, että syöte sijaitsee ylimmällä hakemistotasolla, jonka haluat hakukoneiden indeksoivan. Hakukoneet selvittävät tiedot syötteestä seuraavasti:
- <lind> kenttä - ilmoittaa URL-osoitteen
- muokkauspäiväkenttä ( <pubDate> RSS-syötteillä ja <updated>päiväkenttä Atom-syötteillä) – ilmoittaa URL-osoitteen viimeisen muutosajankohdan. Muokkauspäiväkentän käyttäminen ei ole pakollista.
Tekstitiedosto
Voit lähettää yksinkertaisen tekstitiedoston, joka sisältää yhden URL-osoitteen riviä kohden. Tekstitiedoston tulee noudattaa seuraavia ohjeita:
- Tekstitiedostossa on oltava yksi URL-osoite riviä kohden. URL-osoitteet eivät voi sisältää uusia sisäkkäisiä rivejä.
- Sinun on annettava täydelliset URL-osoitteet sekä http.
- Kukin tekstitiedosto saa sisältää enintään 50 000 URL-osoitetta, ja tiedoston koko saa olla enintään 50 megatavua (52 428 800 tavua). Jos sivusto sisältää yli 50 000 URL-osoitetta, voit jakaa luettelon useiksi tekstitiedostoiksi ja lisätä jokaisen niistä erikseen.
- Tekstitiedoston on käytettävä UTF-8-koodausta. Voit määrittää koodauksen tiedoston tallennuksen yhteydessä (esimerkiksi Muistiossa se on mainittu Tallenna nimellä valintaikkunan Koodaus-valikossa).
- Tekstitiedoston ei pitäisi sisältää muita tietoja kuin URL-osoiteluettelon.
- Tekstitiedoston ei pitäisi sisältää ylä- tai alatunnistetietoja.
- Jos haluat, voit pakata sivustokarttatekstitiedostosi gzip-muotoon, jotta voit pienentää kaistanleveyden tarvetta.
- Voit nimetä tekstitiedoston haluamallasi tavalla. Varmista, että URL-osoitteesi ovat standardin RFC-3986 mukaisia URI-osoitteille ja standardin RFC-3987 mukaisia IRI-osoitteille.
- Lähetä tekstitiedosto ylimmälle hakemistotasolle, jonka haluat hakukoneiden indeksoivan, ja varmista, ettet merkitse URL-osoitteita ylemmällä hakemistotasolla oleviin tekstitiedostoihin.
Tekstitiedoston esimerkkimerkinnät on esitetty alla.
http://www.example.com/catalog?item=1
http://www.example.com/catalog?item=11
Sivustokarttatiedoston sijainti
Sivustokarttatiedoston sijainti määrittää, mitä URL-osoitteita sivustokarttaan voi lisätä. Sivustokartta, joka sijaitsee osoitteessa http://esimerkki.fi/catalog/sitemap.xml, voi sisältää minkä tahansa URL-osoitteen, jonka alussa on http://esimerkki.fi/catalog/, mutta se ei voi sisältää URL-osoitteita, joiden alussa on http://esimerkki.fi/images/.
Jos sinulla on lupa muuttaa polkua http://esimerkki.org/polku/sivustokartta.xml, oletetaan, että sinulla on myös lupa antaa tietoja sellaisista URL-osoitteista, joiden alussa on http://esimerkki.org/polku/. Esimerkkejä URL-osoitteista, joiden katsotaan olevan kelvollisia osoitteessa http://example.com/catalog/sitemap.xml:
http://example.com/catalog/show?item=23 http://example.com/catalog/show?item=233&user=3453
URL-osoitteet, joiden ei katsota olevan kelvollisia, ovat osoitteessa http://esimerkki.fi/catalog/sitemap.xml ja niihin kuuluu
http://example.com/image/show?item=23 http://example.com/image/show?item=233&user=3453 https://example.com/catalog/page1.html
Muista, että kaikkien sivustokartassa lueteltujen URL-osoitteiden on käytettävä samaa protokollaa (tässä esimerkissä http) ja oltava samalla palvelimella kuin sivustokartan. Jos sivustokartta on esimerkiksi osoitteessa http://www.esimerkki.fi/sitemap.xml, se ei voi sisältää URL-osoitteita osoitteesta http://aliverkkotunnus.esimerkki.fi.
Kelpaamattomiksi katsottuja URL-osoitteita ei oteta enää myöhemmin huomioon. On erittäin suositeltavaa, että sijoitat sivustokartan Web-palvelimesi juurihakemistoon. Jos Web-palvelimesi on esimerkiksi osoitteessa esimerkki.fi, sivustokarttahakemistotiedostosi on osoitteessa http://esimerkki.fi/sitemap.xml. Joissakin tapauksissa sinun on ehkä luotava erilaisia sivustokarttoja eri polkuihin (kuten silloin, kun organisaatiosi suojaluvat jakavat eri hakemistojen kirjoitusoikeudet osiin).
Jos lähetät sivustokartan käyttämällä polkua, jolla on porttinumero, sinun on lisättävä porttinumero osaksi polkua jokaisessa sivustokarttatiedoston URL-osoitteessa. Jos sivustokartta sijaitsee esimerkiksi osoitteessa http://www.esimerkki.fi:100/sivustokartta.xml, jokaisen sivustokartassa mainitun URL-osoitteen alussa on oltava http://www.esimerkki.fi:100.
Sivustokartat ja ristiinlähetykset
Jos haluat lähettää useiden isäntien sivustokarttoja yhdestä isännästä, sinun on "todistettava" niiden isäntien omistajuus, jotka sivustokartassa lähetetään. Seuraavassa on esimerkki. Oletetaan, että haluat lähettää sivustokartat kolmelle isännälle:
www.host1.com, jonka sivustokarttatiedosto on sitemap-host1.xml www.host2.com jonka sivustokarttatiedosto on sitemap-host2.xml www.host3.com jonka sivustokarttatiedosto on sitemap-host3.xml.
Lisäksi haluat sijoittaa kaikki sivustokartat yksittäiseen isäntään nimeltä www.sitemaphost.com. Sivustokarttojen URL-osoitteet ovat siten seuraavat:
http://www.sitemaphost.com/sitemap-host1.xml http://www.sitemaphost.com/sitemap-host2.xml http://www.sitemaphost.com/sitemap-host3.xml.
Oletusarvon mukaan tämä antaa tulokseksi ristiinlähetysvirheen, sillä yrität lähettää URL-osoitteita sivustolle www.host1.com sivustossa www.sitemaphost.com isännöitävän sivustokartan avulla (sama koskee kahta muuta esimerkin isäntää). Yksi tapa välttää tämä virhe on todistaa, että omistat sivuston www.host1.com (eli sinulla on oikeudet muokata tiedostoja). Voit tehdä tämän muokkaamalla sivuston www.host1.com Robots.txt-tiedoston osoittamaan sivustokarttaan sivustossa www.sitemaphost.com.
Tässä esimerkissä Robots.txt-tiedosto osoitteessa http://www.host1.com/robots.txt sisältää rivin "Sitemap: http://www.sitemaphost.com/sitemap-host1.xml". Muokkaamalla Robots.txt-tiedostoa sivustossa www.host1.com ja määrittämällä sen osoittamaan sivustokarttaan sivustossa www.sitemaphost.com todistat implisiittisesti omistavasi sivuston www.host1.com. Toisin sanoen kuka tahansa, joka hallitsee Robots.txt-tiedostoa sivustossa www.host1.com, luottaa siihen, että sivustokartta osoitteessa http://www.sitemaphost.com/sitemap-host1.xml sisältää URL-osoitteet sivustolle www.host1.com. Sama prosessi voidaan toistaa esimerkin kahdelle muulle isännälle.
Nyt voit lähettää sivuston www.sitemaphost.com sivustokartat.
Kun jonkin tietyn isännän Robots.txt-tiedosto (kuten http://www.host1.com/robots.txt) osoittaa toisessa isännässä olevaan sivustokarttaan tai sivustokarttahakemistoon, odotetaan, että kunkin kohdesivustokartan (http://www.sitemaphost.com/sitemap-host1.xml) kaikki URL-osoitteet kuuluvat isännälle, joka siihen viittaa. Kuten aiemmin on kerrottu, tämä johtuu siitä, että sivustokartan oletetaan sisältävän vain yksittäisen isännän URL-osoitteet.
Sivustokartan vahvistaminen
Seuraavat XML-kaavat määrittävät elementit ja attribuutit, jotka voivat näkyä sivustokarttatiedostossasi. Voit ladata tämän kaavan alla olevista linkeistä:
Sivustokartat:
http://www.sitemaps.org/schemas/sitemap/0.9/sitemap.xsd
Sivustokarttahakemistotiedostot:
http://www.sitemaps.org/schemas/sitemap/0.9/siteindex.xsd
Käytettävissäsi on useita työkaluja, joiden avulla voit vahvistaa tähän kaavaan
perustuvan sivustokartan rakenteen. Löydät luettelon XML-koodiin liittyvistä työkaluista
kaikissa seuraavissa paikoissa:
http://www.w3.org/XML/Schema#Tools
http://www.xml.com/pub/a/2000/12/13/schematools.html
Jotta sivustokarttasi tai sivustokarttasi hakemistotiedostot voidaan vahvistaa kaavan mukaan, on XML-tiedostossa oltava ylimääräiset otsikot alla esitetyn mukaisesti.
Sivustokartta:
<?xml version='1.0' encoding='UTF-8'?> <urlset xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://www.sitemaps.org/schemas/sitemap/0.9 http://www.sitemaps.org/schemas/sitemap/0.9/sitemap.xsd" xmlns="http://www.sitemaps.org/schemas/sitemap/0.9"> <url> ... </url> </urlset>
Sivustokarttahakemistotiedosto:
<?xml version='1.0' encoding='UTF-8'?> <sitemapindex xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://www.sitemaps.org/schemas/sitemap/0.9 http://www.sitemaps.org/schemas/sitemap/0.9/siteindex.xsd" xmlns="http://www.sitemaps.org/schemas/sitemap/0.9"> <sitemap> ... </sitemap> </sitemapindex>
Sivustokarttaprotokollan laajentaminen
Voit laajentaa Sitemaps-protokollan omalla nimitilallasi. Määritä nimitila juurielementissä. Esimerkki:
<?xml version='1.0' encoding='UTF-8'?> <urlset xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://www.sitemaps.org/schemas/sitemap/0.9 http://www.sitemaps.org/schemas/sitemap/0.9/sitemap.xsd" xmlns="http://www.sitemaps.org/schemas/sitemap/0.9" xmlns:example="http://www.example.com/schemas/example_schema"> <!-- namespace extension --> <url> <example:example_tag> ... </example:example_tag> ... </url> </urlset>
Tiedon antaminen hakukoneen indeksoijille
Kun olet luonut sivustokarttatiedoston ja sijoittanut sen Web-palvelimelle, sinun täytyy ilmoittaa protokollaa tukeville hakukoneille sen sijainti. Voit tehdä sen seuraavilla tavoilla:
- Lähettäminen hakukoneen lähetystoiminnon kautta
- sijainnin määritteleminen sivustosi robots.txt tiedostossa
- HTTP-pyynnön lähettäminen
Tämän jälkeen hakukoneet voivat hakea kyseisen sivustokartan ja saattaa sen URL-osoitteet indeksoijiensa käytettäviksi.
Sivustokartan lähettäminen hakukoneen
lähetystoiminnon kautta
Jos haluat lähettää sivustokarttasi suoraan hakukoneeseen, lue kyseisen hakukoneen tarjoamat ohjeet. Näin toimimalla saat tietoja tilasta ja prosessointivirheistä.
Sivustokartan sijainnin määritteleminen
Robots.txt-tiedostossa
Voit määritellä sivustokartan sijainnin käyttämällä robots.txt-tiedostoa. Lisää vain seuraava rivi:
Sitemap: http://www.example.com/sitemap.xml
Tämä toimintaohje ei ole riippuvainen user-agent-rivistä, joten voit laittaa se mihin tahansa tiedostossasi. Jos sinulla on sivustokarttatiedosto, voit lisätä vain sen tiedoston sijainnin. Sinun ei tarvitse luetella kaikkia hakemistotiedostossa lueteltuja yksittäisiä sivustokarttoja.
Voit määrittää useamman kuin yhden sivustokarttatiedoston Robots.txt-tiedostoa kohden.
Sitemap: http://www.example.com/sitemap-host1.xml Sitemap: http://www.example.com/sitemap-host2.xml
Sivustokartan lähettäminen HTTP-pyynnön
avulla
Lähetä sivustokarttasi HTTP-pyyntö (korvaa <hakukoneen_URL-osoite> hakukoneen antamalla URL-osoitteella) seuraavaan URL-osoitteeseen:
<searchengine_URL>/ping?sitemap=sitemap_url
Jos sivustokarttasi sijaitsee esimerkiksi osoitteessa http://www.esimerkki.fi/sitemap.gz, URL-osoitteesi on seuraavanlainen:
<searchengine_URL>/ping?sitemap=http://www.example.com/sitemap.gz
URL-koodaus kaikkeen /ping?sitemap= -määritteen jälkeen tulevaan:
<searchengine_URL>/ping?sitemap=http%3A%2F%2Fwww.omasivu.fi%2Fsitemap.gz
HTTP-pyyntö voidaan esittää käyttämällä wget- tai curl-toimintoa tai muuta valitsemaasi
tapaa. Onnistunut pyyntö palauttaa HTTP 200 -vastauskoodin. Jos saat muun vastauksen,
lähetä pyyntö uudelleen. HTTP 200 -vastauskoodi ilmoittaa ainoastaan, että hakukone
on saanut sivustokarttasi, ei siis esimerkiksi sitä, että itse sivustokartta tai
sen sisältämät URL-osoitteet ovat kelvollisia. Helppo tapa suorittaa tämä on määrittää
automaattinen tehtävä, jossa luodaan ja lähetetään sivustokartat säännöllisin väliajoin.
Huomautus: Jos lähetät sivustokarttahakemistotiedoston, sinun tarvitsee
tehdä ainoastaan yksi HTTP-pyyntö, joka sisältää sivustokarttahakemistotiedoston
sijainnin. Sinun ei tarvitse tehdä yksittäisiä pyyntöjä jokaista hakemiston sivustokarttaa
kohden.
Sisällön poistaminen
Sitemaps-protokollan avulla ilmoitat hakukoneille, mitä sisältöä haluaisit indeksoida. Ilmoita hakukoneille, mitä sisältöä et halua indeksoida, robots.txt-tiedoston tai robottien sisällönkuvauskentän avulla. Täältä saat robotstxt.org lisätietoja sisällön poistamisesta hakukoneista.
Viimeisin päivitys: 21.11.2016