SEO設(shè)計過程的第一步是確保你的網(wǎng)站能夠被搜索引擎發(fā)現(xiàn)并爬行。說起來容易,但做起來卻很難,因為有許多熱門網(wǎng)站設(shè)計和運行架構(gòu)是爬蟲無法理解的。
可索引的內(nèi)容
要想在搜索引擎中獲得好的排名,那么你的網(wǎng)站內(nèi)容,也就是呈現(xiàn)給網(wǎng)站訪客的材料,必須是HTML文本格式。例如,圖片和 Flash文件盡管能被搜索引擎爬廳,但搜索引擎卻很難分析這些內(nèi)容。因此這些文件便不適合向搜索引擎?zhèn)鬟f頁面相關(guān)性的信號。搜索引擎很難識別圖片的相關(guān)性,這是因為GIF、JPEG或PNG格式的圖片文件內(nèi)含有極少的文本輸入字段(也就是文件名、標(biāo)題及l(fā)屬性)。因此,我們強烈建議你在這些字段中準(zhǔn)確詳細(xì)地對圖片進行標(biāo)注,僅僅一個圖片是無法為網(wǎng)頁在相關(guān)搜索請求中獲得較高排名的;圖片識別技術(shù)不斷進步,所以在不久的將來,處理能力的局限性可能會妨礙搜索引擎在網(wǎng)絡(luò)搜索中廣泛運用這種分析方法。
除了文本之外,谷歌允許用戶使用圖片作為搜索請求進行搜索(不過,用戶可以輸入文本對該搜索請求進行補充說明),上傳一張圖片,從桌面拖曳一張圖片,輸入圖片網(wǎng)址或在瀏覽器(安裝有插件的 Firefox及 Chrom測覽器)內(nèi)右擊圖片,用戶通常都能在網(wǎng)頁中找到該圖片的其他位置以進行參考和研究,同時還會找到與該圖片的色調(diào)和內(nèi)容相似的其他圖片。這雖然不能立即改變圖片在SEO中的局面,但最起碼它給了我們一個提示,讓我們知道谷歌如何擴充圖片內(nèi)容的通用相關(guān)性指示符。
對于 Flash文件,盡管可以爬取具體的w文件(最常見的Fash文件擴展名)并且建立索引,而且當(dāng)用戶在運行個.sw文件搜索文件名中包含的具體的詞匯或短語時,經(jīng)常也會碰到.w文件,但在通用查詢中,很少會返回一個Fash文件或者一個全部由Fash構(gòu)建的網(wǎng)站作為一個高度相關(guān)的搜索結(jié)果,這是因為缺少“可讀性”的內(nèi)容。這并不是說,使用∏lash創(chuàng)建的網(wǎng)站本來就缺乏相關(guān)性,或者我們無法成功地優(yōu)化一個使用Fash的網(wǎng)站,而是從我們的經(jīng)驗來看,IM格式的文件是較好的選擇。
可爬行的鏈接架構(gòu)
正如我們在第2章中講到的,搜索引擎會使用網(wǎng)頁中的鏈接來幫助它們發(fā)現(xiàn)其他的網(wǎng)頁或網(wǎng)站。出于這個原因,我們強烈建議你拿出時間來創(chuàng)建一個能被爬蟲順利爬行的內(nèi)鏈架構(gòu)。許多網(wǎng)站會犯一些致命性的錯誤,它們會隱藏或模糊其導(dǎo)航結(jié)構(gòu),限制了爬蟲的讀取能力,從而導(dǎo)致網(wǎng)頁無法出現(xiàn)在搜索引擎的索引中,圖6-解釋了這個問題是如何出現(xiàn)的。
谷歌爬蟲已經(jīng)到達(dá)了頁面A,并看到了頁面B和的鏈接,但盡管頁面C和D可能是網(wǎng)站中比較重要的頁面,爬蟲卻無法訪問這些頁面(盡管知道了這些頁面的存在),這主要是因為缺少到達(dá)這些頁面的、直接可爬行的鏈接點。在谷歌看來,這類頁面便等同于不存在。如果吧蟲無法在第一時間到達(dá)頁面,那么再好的內(nèi)容、再好的關(guān)鍵詞選擇、再好的營銷策略都是無濟于事的。
下面是一些頁面可能無法被讀取的常見原因,使用提交格式的鏈接搜索爬蟲幾乎不會去嘗試“提交”格式,因此僅通過某種格式才能訪問的內(nèi)容或鏈接對搜索引擎是不可見的,甚至一些簡單的格式也會起到反作用,如用戶注冊、搜索框或某些下拉列表。
使用難以解析的 Javascript的鏈接如果在鏈接中使用 Javascript,那么你可能會發(fā)現(xiàn)搜索引擎既不爬行,也不在意這些嵌入鏈接。2014年6月,谷歌宣布能夠爬行 Javascript和CSS。谷歌目前不僅能夠解析一些 Javascript,而且能夠訪問些 Javascript鏈接。基于這一改變,谷歌能夠爬行你的 Javascrip和CSS文件。要預(yù)覽谷歌如何解析你的網(wǎng)站,你可以點擊Search Console-> Crawl->Fetch as google輸入你想要預(yù)覽的網(wǎng)址,選擇“ Fetchand Render”。
Java或其他插件中的鏈接
通常來講,搜索引擎不會查看嵌入在ava和插件中的鏈接。
Flash中的插件
從理論上來講,搜索引擎能夠發(fā)現(xiàn)Flash內(nèi)的鏈接,但是并不會過分依賴這個發(fā)現(xiàn)功能。Powerpoint和PDF文件中的鏈接搜索引擎有時會顯示在 Powerpoint文件或PDFA文件中看到的鏈接,這些鏈接被看作是與嵌入在HTM文件中的鏈接相似的。
指向 robots標(biāo)簽、re=” nofollow”或robots. tx限制頁面的鏈接.
robots. tx文件提供了一種能夠阻止網(wǎng)絡(luò)爬蟲爬行網(wǎng)站頁面的方法,在鏈接中使用norodom屬性或者在包含鏈接的頁面中添加 content-” nofollow”屬性的元 robotsnofollow tag,指示搜索引擎不要通過鏈接越過鏈接權(quán)限內(nèi)容推送和搜索爬蟲控制”部分詳細(xì)討論這個概念)。由于一些霸道的SEO從業(yè)者過度操控,鏈接中 nofollow屬性的有效性已大打折扣,更多這方面的內(nèi)容請參見谷歌Matt cutts博客“網(wǎng)頁排名實踐”。
鏈接所在的頁面含有成干上萬個鏈接之前,谷歌曾建議每個頁面最多包含100個鏈接,若超出這個數(shù)值,它便會停止從該頁面爬行其他的鏈接,但是隨著時間的推移,這個建議也漸漸過時了,我們更多時候會將其看作一個通過頁面排名的策略性指導(dǎo)意見,如果一個頁面內(nèi)包含200個鏈接,那么任何一個鏈接都不會獲得較高的網(wǎng)頁排名。通過限制鏈接的數(shù)量來設(shè)法控制網(wǎng)頁排名,這通常是個不錯的主意。有些工具能夠統(tǒng)計每個頁面活躍的鏈接數(shù)量,如 Screaming frog.
在框架或內(nèi)嵌框架中的鏈接
從嚴(yán)格意義上來講,在框架和內(nèi)嵌框架中的鏈接都能夠被爬行,但框架和內(nèi)嵌框架在組織機制和追蹤方面給搜索引擎帶來了結(jié)構(gòu)性的問題。除非你是一位資深用戶,非常清楚搜索引擎在技術(shù)層面是如何索引和追蹤框架內(nèi)的鏈接的,否則最好不要將鏈接放在框架內(nèi),以免岀現(xiàn)不能被爬行的問題。我們將在6.2節(jié)“創(chuàng)建最佳的信息架構(gòu)”中詳細(xì)討論框架和內(nèi)嵌框架。
XML站點地圖
谷歌、 Yahoo l!和Bing(原來是MSN搜索,然后是實時搜索)都支持一個叫XML站點地圖的協(xié)議,谷歌在2005年首先宣布了這一協(xié)議,之后是 Yahoo!,然后在2006年,MSN搜索也宣布支持這協(xié)議。使用站點地圖協(xié)議,你可以向搜索引擎提交一個列表,列出所有你希望能夠被搜索引擎爬行和索引的網(wǎng)址。
將網(wǎng)址添加到站點地圖文件中并不能保證該網(wǎng)址就一定能被爬行或索引,但它能夠吸引搜索引擎發(fā)現(xiàn)和索引一些本來沒有被注意到的頁面。
該程序是對搜索引擎常規(guī)基于鏈接的爬行的一種補充,而不是替代。站點地圖的優(yōu)點主要如下:
對于一些搜索引擎通過其常規(guī)吧行所獲取的頁面,搜索引擎會使用你提供的元數(shù)據(jù)來改善爬行你的網(wǎng)站的方式;如內(nèi)容最后一次修改的時間(最后修改日期頁面被修改的頻率(修改頻率等元數(shù)據(jù)。
對于它們不知道的一些頁面,搜索引擎會使用你提供的附加網(wǎng)址來增加爬行的覆蓋范圍。
對于一些可能有多個副本的網(wǎng)址,搜索引擎會使用XML站點地圖數(shù)據(jù)來選擇一個比較標(biāo)準(zhǔn)的版本。
XML站點地圖的認(rèn)證和注冊可能會提供一些正面的可信任權(quán)威信號。
站點地圖的爬行內(nèi)置優(yōu)點可能還有其他積極的作用,如提高排名或內(nèi)部鏈接的廣泛度。
在( google search console中注冊站點地圖,能夠幫助你更好地了解自己的網(wǎng)站是否遇到了索引、爬行或內(nèi)容重復(fù)的問題。谷歌反垃圾小隊的前隊長 Matt cutts是這樣解釋XM站點地圖的:
假設(shè)網(wǎng)站有A、B、C三個頁面,我們通過常規(guī)的鏈接爬行找到了頁面A和B,之后你創(chuàng)建一個站點地圖,列出了頁面B和C,那么現(xiàn)在我們就有機會(但不一定)吧行頁面C,我們也不會因為你沒有將頁面A列在站點地圖內(nèi)而放棄它,而且我們也不會因為你在站點地圖中列出了一個我們不知道的頁面,就能保證我們爬行該頁面,但如果之前我們出于某些原因沒有看到頁面C的鏈接,或者我們雖然知道頁面C而頁面網(wǎng)址因包含參數(shù)過多或因其他一些原因而被拒絕了,那么有了站點地圖之后,我們就有可能會爬行頁面.
站點地圖使用的XML格式非常簡單,你可以在htp:www.Sitemaps.org/了解這一格式。對于網(wǎng)站來講,XML站點地圖是一個非常有用且在某些情況下可以說是非常重要的工具,尤其是,如果你有理由相信網(wǎng)站沒有被充分索引,那么XMI站點地圖就能夠幫助你使更多的頁面被索引。隨著網(wǎng)站規(guī)模的不斷擴大XMI站點地圖文件的價值也日漸凸顯出來,因為站點地圖能夠吸引更多的流量流向新增的網(wǎng)址。
創(chuàng)建一個XM站點地圖
創(chuàng)建XML站點地圖的第一步是創(chuàng)建一個正確格式下的XML站點地圖,因為創(chuàng)建一個XM站點地圖需要一定的技術(shù)知識,因此你最好從一開始就讓自己的開發(fā)團隊參與到XML站點地圖.
你可以使用以下工具創(chuàng)建XML站點地圖.
XML站點地圖生成器這是一個簡單的腳本,你可以安裝該腳本以自動生成并提交站點地圖。站點地圖生成器能夠根據(jù)網(wǎng)址列表、用戶訪問日志,或一個具有與URL對應(yīng)的靜態(tài)文件的目錄路徑創(chuàng)建這些站點地圖,下面是幾個XML站點地圖生成器的例子Source Forge net s谷歌sitemap genXml-sitemaps.comSitemapGen-eratorSitemaps PalGsite crawler簡單的文本你可以向谷歌提供一個簡單的文本文件,文件每行僅一個網(wǎng)址。不過,谷歌建議,如果網(wǎng)站有文本站點地圖文件那么你最好使用站點地圖協(xié)議,借助站點地圖生成器從該文本文件中生成一個站點地圖。網(wǎng)站聚合內(nèi)容摘要谷歌接受網(wǎng)站聚合內(nèi)容摘要(RSS2.0和Atom1.0摘要。需要注意的是,摘要可能僅提供與最近網(wǎng)址相關(guān)的信息。
確定在站點地圖文件中包含哪些內(nèi)容
在創(chuàng)建站點地圖文件的過程中,你需要注意一些情況,看看網(wǎng)站的哪些位置有多個指向同一條內(nèi)容的網(wǎng)址:包括“唯一的”偏好的(標(biāo)準(zhǔn)的)網(wǎng)址版本,因為搜索引擎可能會認(rèn)為在站點地圖文件中指定的網(wǎng)址更適合某個內(nèi)容的網(wǎng)址,所以你可以使用站點地圖文件提示搜索引擎哪個網(wǎng)址是更適合某個特定頁面的。
另外需要注意不要在站點地圖中添加什么樣的內(nèi)容。例如,不要添加多個指向同一內(nèi)容的網(wǎng)址,不要添加一些僅是頁碼標(biāo)記的頁面(或同一內(nèi)容的交替排列次序),更不要將網(wǎng)站中價值不大的頁面添加到站點地圖中。最重要的是,確保站點地圖文件中的所有網(wǎng)址均不含追蹤參數(shù)。
移動設(shè)備站點地圖。對于目標(biāo)是移動設(shè)備中的內(nèi)容,我們可以使用移動設(shè)備站點地圖,移動設(shè)備信息被保存在一個獨立的站點地圖文件中,該文件中不包含任何與非移動網(wǎng)址相關(guān)的信息。谷歌支持非移動標(biāo)記、 XHTML移動配置文件WML(WAP12)及 CHTMI。視頻站點地圖。在站點地圖中添加與視頻相關(guān)的信息,會提升視頻被搜索引孳發(fā)現(xiàn)的機會。谷歌支持以下的視頻格式:mpg、mpeg、mp4、m4v、mov、wmv、asf、avi、ra、ram、rm、flv、及.swf等.
圖片站點地圖。將圖像添加到站點地圖文件中能夠增加圖片的可見性。你除了可以在站點地圖文件中添加頁面網(wǎng)址,還可以列出出現(xiàn)在這些頁面中的圖片。每個頁面最多能列出1000張圖片,將專門的圖片標(biāo)簽與網(wǎng)址相關(guān)聯(lián)。在站點地圖中列出圖片,這并不會增加這些圖片被索引的機會,但如果你列出其中一些圖片,而未列出其他的一些圖片,那么那些未被列出的圖片會被認(rèn)為不重要.
上傳站點地圖文件
站點地圖文件完成之后,將其上傳到你的網(wǎng)站,并放置在你希望搜索引擎爬行的目錄的最頂端(通常來講,是根目錄),如www.yoursite:com/sitemap.xml。你可以在提交的站點地圖中添加多個子域,然后在( google Search( Console驗證站點地圖對每個子域的作用,盡管通常來講,如果每個子域在( google search( insole都有自己相對應(yīng)的站點地圖和配置文件,那么我們可能更容易了解索引的實際情況。
管理和更新ⅪM站點地圖
ⅹML站點地圖被接受、網(wǎng)站被爬行之后,監(jiān)測運行結(jié)果,若有問題,隨時更新站點地圖。在谷歌中,你可以返回到Google Search Console賬戶,查看與XML站點地圖相關(guān)的統(tǒng)計數(shù)據(jù)和運行診斷報告,只須點擊你想檢測的網(wǎng)站即可,另外,你還能從谷歌中找到一些與常見問題相關(guān)的FAQ,如爬行慢、索引較少Bing中的XML站點地圖。另外,你可能還應(yīng)該在增加大星或一組關(guān)鍵頁面之后,更新你的站點地圖文件。
如果僅僅是更新現(xiàn)有網(wǎng)址中的內(nèi)容么便沒有必要更新XML站點地圖,而且如果是刪除頁面,也沒有必要去更新站點地圖,因為搜索引擎只是不能爬行這些頁面而己,但要在提要中出現(xiàn)大量零散的頁面之前,更新站點地圖。另外,在你添加新內(nèi)容并刪除一些無效頁面之后,一定要記得更新你的站點地圖文件。谷歌和Bing會定期重新加載站點地圖,因此除非站點地圖位置發(fā)生改變,否則你無須重新向谷歌或Bng提交站點地圖。
使用 Site map-網(wǎng)站 robots.txt文件中的指令,使谷歌和Bing能自動發(fā)現(xiàn)你的XML站點地圖的位置。如果你要定期地在網(wǎng)站中添加或刪除些新的頁面,那么你可能希望借助一個工具或希望網(wǎng)站開發(fā)者有這個能力,能夠使XML站點地圖定期重新生成所有最近口的網(wǎng)址,許多網(wǎng)站借助自動運行腳本每天重新生成XM站點地圖。谷歌和其他大型搜索引擎通過爬行鏈接發(fā)現(xiàn)和索引網(wǎng)站。谷歌XML站點地圖是一種在谷歌中填充網(wǎng)址的方式,添加你希望被爬行的網(wǎng)址,以便進行更深入的爬行和索引;這就導(dǎo)致了長尾搜索能力的提高,通過創(chuàng)建和更新這個XML文件,確保谷歌能夠識別你的整個網(wǎng)站,進而讓更多的人發(fā)現(xiàn)你的網(wǎng)站。另外,XML站點地圖還能幫助所有的搜索引擎弄清楚,哪個網(wǎng)址是比較標(biāo)準(zhǔn)的(如果有多個指向同一內(nèi)容的網(wǎng)址)。