Format XML Sitemaps

Salt la:
definiţii etichete XML
Şir escape entitate
Utilizarea fişierelor de index Sitemap
Alte formate de Sitemap
Locaţie fişier Sitemap
Validarea Sitemap-ului dvs.
Extinderea protocolului Sitemaps
Informare motoare de căutare cu accesări prin crawler

Acest document descrie schema XML pentru protocolul de Sitemap.

Formatul protocolului de Sitemap constă în etichete XML. Toate valorile datelor dintr-un Sitemap trebuie să fie entity-escaped. Fişierul însuşi trebuie să fie codificat UTF-8.

Sitemap-ul trebuie să:

Toate celelalte etichete sunt opţionale. Asistenţa pentru aceste etichete opţionale poate varia în funcţie de motorul de căutare. Pentru detalii, consultaţi documentaţia fiecărui motor de căutare.

Mostră Sitemap XML

Următorul exemplu arată un Sitemap care conţine un singur URL şi utilizează toate etichetele opţionale. Etichetele opţionale sunt în italice.


<?xml version="1.0" encoding="UTF-8"?>

<urlset xmlns="http://www.sitemaps.org/schemas/sitemap/0.9">

   <url>

      <loc>http://www.example.com/</loc>

      <lastmod>2005-01-01</lastmod>       <changefreq>monthly</changefreq>       <priority>0.8</priority>

   </url>

</urlset> 

Vedeţi şi exemplul nostru cu mai multe adrese URL.

Definiţii de etichetă XML

Etichetele XML disponibile sunt descrise mai jos.

Atribut Descriere
<urlset> necesitat

Încadrează fişierul şi apelează standardul protocolului curent.

<url> necesitat

Etichetă părinte pentru fiecare intrare URL. Etichetele rămase sunt copii ai acestei etichete.

<loc> necesitat

Adresa URL a paginii. Această adresă URL trebuie să înceapă cu protocolul (cum ar fi http) şi să se termine cu un slash de final, dacă serverul dvs. Web o cere. Această valoare trebuie să aibă mai puţin de 2.048 de caractere.

<lastmod> opţional

Data ultimei modificări a fişierului. Această dată trebuie să fie în format W3C Datetime. Acest format vă permite să omiteţi partea cu ora, dacă doriţi, sau să utilizaţi YYYY-MM-DD.

Rețineți că data trebuie să fie setată la data la care pagina legată a fost modificată ultima dată, nu la data la care este generată harta site-ului.

Reţineţi că această etichetă este separată de antetul If-Modified-Since (304) pe care îl poate întoarce serverul şi motoarele de căutare pot utiliza diferit informaţia din ambele surse.

<changefreq> opţional

Cât de des este probabil să se schimbe pagina. Această valoare furnizează informaţii generale motoarelor de căutare şi este posibil să nu fie corelată exact cu frecvenţa cu care se accesează cu crawlere pagina. Valorile valide sunt:

  • always
  • hourly
  • daily
  • weekly
  • monthly
  • yearly
  • never

Valoarea „întotdeauna” trebuie să fie utilizată pentru a descrie documentele care se modifică de fiecare dată când sunt accesate. Valoarea „niciodată” trebuie să fie utilizată pentru a descrie adresele URL arhivate.

Reţineţi că valoarea acestei etichete este considerată sugestie, nu comandă. Deşi crawlerele motorului de căutare pot lua în considerare această informaţie când decid, ele pot accesa pagini marcate „în fiecare oră” mai rar decât atât, şi pot accesa pagini marcate „anual” mai des decât atât. Este posibil ca crawlerele să acceseze periodic pagini marcate „niciodată”, pentru a putea trata modificările neaşteptate ale celorlalte pagini.

<priority> opţional

Prioritatea acestei adrese URL în comparaţie cu alte adrese URL de pe site-ul dvs. Valorile corecte variază între 0,0 şi 1,0. Această valoare nu afectează modul în care sunt comparate paginile dvs. cu alte pagini din alte site-uri—ci doar anunţă motoarele de căutare care dintre pagini consideraţi că sunt cele mai importante pentru crawlere.

Prioritatea implicită a unei pagini este 0,5.

A se remarca faptul că prioritatea pe care o atribuiţi unei pagini nu este probabil să influenţeze poziţia adresi dvs. URL în paginile de rezultat ale unui motor de căutare. Motoarele de căutare ar putea utiliza această informaţie când selectează între adresele URL de pe acelaşi site, astfel încât puteţi utiliza această etichetă pentru a creşte probabilitatea faptului că cele mai importante pagini ale dvs. sunt prezente într-un index de căutare.

De asemenea, trebuie remarcat faptul că repartizarea unei priorităţi mari tuturor adreselor URL de pe site-ul dvs. nu vă va ajuta prea mult. Deoarece prioritatea este relativă, se utilizează doar pentru a selecta între adresele URL de pe site-ul dvs.

Înapoi la început

Şir escape entitate

Fişierul dvs. Sitemap trebuie să fie codificat UTF-8 (în general, puteţi face asta atunci când salvaţi fişierul). Ca la toate fişierele XML, orice valori ale datelor (inclusiv adrese URL) trebuie să utilizeze coduri de ieşire entitate pentru caracterele listate în tabelul de mai jos.

Caracter Cod de ieşire
Ampersand & &amp;
Ghilimea simplă ' &apos;
Citat Dublu " &quot;
Mai mare de > &gt;
Mai puţin de < &lt;

În plus, toate adresele URL (inclusiv adresa URL a Sitemap-ului dvs.) trebuie să conţină şiruri de escape adrese URL şi codificate pentru a fi citite de serverul Web pe care sunt localizate. Cu toate acestea, dacă utilizaţi orice fel de script, instrument sau fişier jurnal pentru a genera adresele dvs. URL. (orice altceva, cu excepţia tastării lor manual), aceasta este, de obicei, deja făcută pentru dvs. Asiguraţi-vă că adresele URL sunt conforme standardului pentru URI-uri RFC-3986, standardului pentru IRI-uriRFC-3987 precum şi standardului XML.

Mai jos veţi găsi un exemplu de URL care utilizează un caracter non-ASCII (ü), precum şi un caracter care necesită şir de escape entitate (&):

http://www.exemplu.ro/ümlat.html&q=name

Mai jos este acelaşi URL, codificat ISO-8859-1 (pentru găzduirea pe un server care utilizează acea codificare) cu şir de escape URL:

http://www.exemplu.ro/%FCmlat

.html&q=name

Mai jos este acelaşi URL, codificat UTF-8 (pentru găzduirea pe un server care utilizează acea codificare) şi cu şir de escape URL:

http://www.exemplu.ro/%C3%BCmlat.html&q=nume

Mai jos este acelaşi URL dar acum este şi şir de escape entitate:

http://www.exemplu.ro/%C3%BCmlat.html&amp;q=nume

Sitemap XML mostră

Următorul exemplu arată un Sitemap în format XML. Sitemap-ul din exemplu conţine un număr mic de adrese URL, fiecare folosind un set diferit de parametri opţionali.


<?xml version="1.0" encoding="UTF-8"?>

<urlset xmlns="http://www.sitemaps.org/schemas/sitemap/0.9">

   <url>

      <loc>http://www.example.com/</loc>

      <lastmod>2005-01-01</lastmod>

      <changefreq>monthly</changefreq>

      <priority>0.8</priority>

   </url>

   <url>

      <loc>http://www.example.com/catalog?item=12&amp;desc=vacation_hawaii</loc>

      <changefreq>weekly</changefreq>

   </url>

   <url>

      <loc>http://www.example.com/catalog?item=73&amp;desc=vacation_new_zealand</loc>

      <lastmod>2004-12-23</lastmod>

      <changefreq>weekly</changefreq>

   </url>

   <url>

      <loc>http://www.example.com/catalog?item=74&amp;desc=vacation_newfoundland</loc>

      <lastmod>2004-12-23T18:00:15+00:00</lastmod>

      <priority>0.3</priority>

   </url>

   <url>

      <loc>http://www.example.com/catalog?item=83&amp;desc=vacation_usa</loc>

      <lastmod>2004-11-23</lastmod>

   </url>

</urlset>

Înapoi la început

Utilizarea fişierelor index Sitemap (pentru a grupa fişiere sitemap multiple)

Puteţi furniza fişiere Sitemap multiple, dar niciun fişier Sitemap furnizat nu trebuie să aibă mai mult de 50.000 de adrese URL şi nu trebuie să fie mai mare de 50 MO (52,428,800 octeţi). Dacă doriţi, puteţi comprima fişierele dvs. Sitemap utilizând gzip pentru a nu depăşi limita de 50 MO şi pentru a reduce lăţimea de bandă necesară. Dacă doriţi să listaţi peste 50.000 de adrese URL, trebuie să creaţi fişiere Sitemap multiple.

Dacă furnizaţi mai multe Sitemaps, trebuie să listaţi apoi fiecare fişier Sitemap într-un fişier index Sitemap. Fişierele index Sitemap nu listează mai mult de 50.000 de Sitemaps şi trebuie să nu fie mai mari de 50 MO (52,428,800 octeţi). Formatul XML al unui fişier de index Sitemap este foarte similar cu formatul XML al unui fişier Sitemap.

Fişierul index Sitemap trebuie să:

Eticheta opţională <lastmod> este, de asemenea, disponibilă pentru fişiere index Sitemap.

Notă: Un fişier index Sitemap poate specifica doar Sitemap-urile care se găsesc în acelaşi site ca şi fişierul index Sitemap. De exemplu, http://www.siteulmeu.ro/sitemap_index.xml poate include Sitemaps în http://www.siteulmeu.ro, dar nu şi în http://www.exemplu.ro sau în http://gazdamea.siteulmeu.ro. Precum Sitemaps, fişierul dvs. index Sitemap trebuie să fie codificat UTF-8.

Mostră Index Sitemap XML

În exemplul următor este prezentat un index Sitemap care listează două Sitemaps:


<?xml version="1.0" encoding="UTF-8"?>

<

                sitemapindex xmlns="http://www.sitemaps.org/schemas/sitemap/0.9">

   <sitemap>

      <loc>http://www.example.com/sitemap1.xml.gz</loc>

      <lastmod>2004-10-01T18:23:17+00:00</lastmod>

   </sitemap>

   <sitemap>

      <loc>http://www.example.com/sitemap2.xml.gz</loc>

      <lastmod>2005-01-01</lastmod>

   </sitemap>

</sitemapindex>

Notă: Adresele URL de Sitemap, ca toate valorile din fişierele dvs. XML, trebuie să conţină un şir escape entitate.

Index Sitemap Etichete XML de Definiţii

Atribut Descriere
<sitemapindex> necesitat Încadrează informaţii despre toate Sitemaps din fişier.
<sitemap> necesitat Rezumă informaţii despre un anumit Sitemap.
<loc> necesitat

Identifică locaţia Sitemap-ului.

Această locaţie poate fi un Sitemap, un fişier Atom, fişier RSS sau un simplu fişier text.

<lastmod> opţional

Identifică ora la care a fost modificat fişierul Sitemap corespondent. Nu corespunde orei la care au fost modificate paginile listate în acel Sitemap. Valoarea etichetei lastmod trebuie să fie în format Datăoră W3C.

Furnizând marcajul de timp al ultimei modificări, daţi posibilitatea crawlerelor motoarelor de căutare să regăsească doar un subset de Sitemap-uri în index, adică un crawler poate regăsi doar Sitemap-urile care au fost modificate începând cu o anumită dată. Acest mecanism incremental de căutare a Sitemap-urilor permite găsirea rapidă a adreselor URL noi pe site-urile foarte mari.

Alte formate de Sitemap

Protocolul Sitemap-ului vă permite să furnizaţi motoarelor de căutare detalii despre paginile dvs., iar noi încurajăm utilizarea lui, de vreme ce puteţi furniza informaţii suplimentare despre paginile site-ului pe lângă adresele URL. Totuşi, pe lângă protocolul XML, acceptăm alimentări RSS şi fişiere text, care furnizează informaţii mai limitate.

Alimentare

Puteţi furniza o alimentare RSS (Real Simple Syndication) 2.0 sau Atom 0.3 sau 1.0. În general, aţi utiliza acest format numai dacă site-ul dvs. are deja o alimentare. Reţineţi că această metodă ar putea să nu permită motoarelor de căutare să afle toate adresele URL din site-ul dvs., de vreme ce alimentarea poate furniza numai informaţii despre adresele URL recente, deşi motoarele de căutare pot totuşi să utilizeze acele informaţii pentru a afla alte pagini de pe site-ul dvs. în timpul proceselor lor normale de accesare urmând linkurile din paginile alimentării. Asiguraţi-vă că alimentarea este localizată în directorul de la nivelul cel mai înalt pe care doriţi să-l acceseze cu crawlere motoarele de căutare. Motoarele de căutare extrag informaţiile din alimentare după cum urmează:

Fişier text

Puteţi furniza un fişier text simplu care să conţină o singură adresă URL pe linie. Fişierul text trebuie să respecte aceste reguli:

Intrările fişierului text mostră sunt afişate mai jos.

http://www.exemplu.ro/catalog?item=1


http://www.exemplu.ro/catalog?item=11

Locaţie fişier Sitemap

Locaţia unui fişier Sitemap determină setul de adrese URL care poate fi inclus în acel Sitemap. Un fişier Sitemap localizat la http://exemplu.ro/catalog/sitemap.xml poate include oricare adresă URL care începe cu http://exemplu.ro/catalog/, dar nu poate include adrese URL care încep cu http://exemplu.ro/imagini/.

Dacă aveţi permisiunea să schimbaţi http://examplu.org/path/sitemap.xml, se presupune că aveţi şi permisiunea să furnizaţi informaţii pentru adresele URL cu prefixul http://exemplu.org/path/. Exemple de adrese URL considerate valide în http://exemplu.ro/catalog/sitemap.xml includ:


http://example.com/catalog/show?item=23

http://example.com/catalog/show?item=233&user=3453

Adresele URL considerate invalide în http://exemplu.ro/catalog/sitemap.xml includ:


http://example.com/image/show?item=23

http://example.com/image/show?item=233&user=3453

https://example.com/catalog/page1.html

De remarcat că aceasta înseamnă că toate adresele URL listate în Sitemap trebuie să utilizeze acelaşi protocol (http, în acest exemplu) şi să aibă aceeaşi gazdă ca şi Sitemap-ul. De exemplu, dacă Sitemap-ul este localizat la http://www.exemplu.ro/sitemap.xml, poate include adrese URL din http://subdomeniu.exemplu.ro.

Adresele URL care nu sunt considerate valide sunt retrase din consideraţii ulterioare. Se recomandă să vă plasaţi Sitemap-ul la directorul rădăcină al serverului dvs. de Web. De exemplu, dacă serverul dvs. de Web este la exemplu.ro, atunci fişierul de indexare al Sitemap-ului dvs. va fi la http://exemplu.ro/sitemap.xml. În anumite cazuri, e posibil să aveţi nevoie să produceţi diferite Sitemap-uri pentru diferite căi (de exemplu, dacă permisiunile de securitate din organizaţia dvs. compartimentează accesul la scriere pentru diferite directoare).

Dacă trimiteţi un Sitemap utilizând o cale cu un număr de port, trebuie să includeţi acel număr de port ca parte din cale în fiecare URL listat în fişierul Sitemap. De exemplu, dacă Sitemap-ul dvs. este localizat la http://www.exemplu.ro:100/sitemap.xml, atunci fiecare URL listat în Sitemap trebuie să înceapă cu http://www.exemplu.ro:100.

Înapoi la început

Validarea Sitemap-ului dvs.

Următoarele scheme XML definesc elementele şi atributele care pot apărea în fişierul dvs. Sitemap. Puteţi descărca această schemă din link-urile de mai jos:

Pentru Sitemap-uri: http://www.sitemaps.org/schemas/sitemap/0.9/sitemap.xsd
Pentru fişierele index Sitemap: http://www.sitemaps.org/schemas/sitemap/0.9/siteindex.xsd

Există un număr de instrumente disponibile pentru a vă ajuta să validaţi structura Sitemap-ului dvs. pe baza acestei scheme. Puteţi găsi o listă cu instrumente referitoare la XML la fiecare dintre locaţiile următoare:

http://www.w3.org/XML/Schema#Tools
http://www.xml.com/pub/a/2000/12/13/schematools.html

Pentru a valida Sitemap-ul dvs. sau fişierul index Sitemap pe baza unei scheme, fişierul XML va avea nevoie de antete suplimentare, după cum se arată mai jos.

Sitemap:


<?xml version='1.0' encoding='UTF-8'?>

<urlset xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"

         xsi:schemaLocation="http://www.sitemaps.org/schemas/sitemap/0.9 http://www.sitemaps.org/schemas/sitemap/0.9/sitemap.xsd"

         xmlns="http://www.sitemaps.org/schemas/sitemap/0.9">

   <url>

      ...

   </url>

</urlset>

Fişier index Sitemap:


<?xml version='1.0' encoding='UTF-8'?>

<sitemapindex xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"

         xsi:schemaLocation="http://www.sitemaps.org/schemas/sitemap/0.9 http://www.sitemaps.org/schemas/sitemap/0.9/siteindex.xsd"

         xmlns="http://www.sitemaps.org/schemas/sitemap/0.9">

   <sitemap>

      ...

   </sitemap>

</sitemapindex>

Extinderea protocolului de Sitemap-uri

Puteţi extinde protocolul Sitemaps utilizând propriul spaţiu de nume. Doar specificaţi acest spaţiu de nume în elementul rădăcină. De exemplu:


<?xml version='1.0' encoding='UTF-8'?>

<urlset xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"

         xsi:schemaLocation="http://www.sitemaps.org/schemas/sitemap/0.9 http://www.sitemaps.org/schemas/sitemap/0.9/sitemap.xsd"

         xmlns="http://www.sitemaps.org/schemas/sitemap/0.9"

         xmlns:example="http://www.example.com/schemas/example_schema"> <!-- namespace extension -->

   <url>

      <example:example_tag>

         ...

      </example:example_tag>

      ...

   </url>

</urlset>

Informare motoare de căutare cu accesări prin crawler

Odată ce aţi creat fişierul Sitemap şi l-aţi plasat pe serverul dvs. Web, trebuie să informaţi motoarele de căutare care acceptă acest protocol despre locaţia lui. Puteţi face aceasta prin:

Motoarele de căutare pot apoi regăsi Sitemap-ul dvs. şi pot face adresele URL disponibile pentru crawlerele lor.

Trimiterea Sitemap-ului prin intermediul interfeţei de trimitere a motorului de căutare

Pentru a trimite Sitemap-ul direct la un motor de căutare, care vă va permite să primiţi informaţii de stare şi orice erori de procesare, consultaţi documentaţia fiecărui motor de căutare.

Specificaţi locaţia Sitemap-ului în fişierul dvs. robots.txt.

Puteţi specifica locaţia pentru Sitemap utilizând un fişier robots.txt. Pentru a face aceasta, pur şi simplu adăugaţi următoarea linie:

Sitemap: http://www.example.com/sitemap.xml

Această directivă este independentă de linia user-agent, astfel încât nu contează unde o plasaţi în fişierul dvs. Dacă aveţi un fişier index Sitemap, puteţi include doar locaţia acelui fişier. Nu este necesar să listaţi fiecare Sitemap individual din fişierul index.

Trimiterea Sitemap-ului printr-o solicitare HTTP

Pentru a trimite Sitemap-ul utilizând o solicitare HTTP (înlocuiţi <searchengine_URL> cu adresa URL furnizată de motorul de căutare), trimiteţi solicitarea dvs. spre următoarea adresă URL:

<searchengine_URL>/ping?sitemap=sitemap_url

De exemplu, dacă Sitemap-ul dvs. este localizat la http://www.exemplu.ro/sitemap.gz, adresa URL va deveni:

<searchengine_URL>/ping?sitemap=http://www.exemplu.ro/sitemap.gz

Codificaţi complet adresa URL după /ping?sitemap=:

<searchengine_URL>/ping?sitemap=http%3A%2F%2Fwww.yoursite.com%2Fsitemap.gz

Puteţi emite solicitarea HTTP utilizând wget, curl sau un alt mecanism la alegere. O solicitare reuşită va returna un cod de răspuns HTTP 200; dacă primiţi un răspuns diferit, trebuie să retrimiteţi solicitarea. Codul de răspuns HTTP 200 indică doar faptul că motorul de căutare a primit Sitemap-ul dvs., nu faptul că Sitemap-ul sau adresa URL cuprinsă în el sunt valide. O metodă facilă de a face aceasta este să configuraţi un serviciu automat pentru generarea şi trimiterea Sitemap-urilor în mod regulat.
Notă: Dacă furnizaţi un fişier index Sitemap, nu trebuie să emiteţi decât o singură solicitare HTTP care să includă locaţia fişierului index Sitemap; nu este necesar să emiteţi solicitări individuale pentru fiecare Sitemap listat în index.

Excluderea conţinutului

Protocolul Sitemaps vă permite să anunţaţi motoarele de căutare ce conţinut aţi dori să fie indexat. Pentru a indica motoarelor de căutare ce conţinut nu doriţi să fie indexat, utilizaţi un fişier robots.txt sau meta-eticheta robots.txt. Consultaţi robotstxt.org pentru mai multe informaţii despre cum să excludeţi conţinut din motoarele de căutare.

 

Înapoi la început

Ultima Actualizare: 21 noiembrie 2016