?SEO基礎教學四:關于搜索引擎良好設計和開發的基本點
本章將討論如何從搜索引擎的角度來看待文章。
2017-10-26
第四章:關于搜索引擎良好設計和開發的基本點
搜索引擎在如何抓取網絡和解釋內容方面是有限的。對于搜索引擎來說,網頁并不總是像你我所看到的那樣。在本節中,我們將重點討論構建(或修改)web頁面的具體技術,以便同時為搜索引擎和人類訪問者構建。與你的程序員、信息架構師和設計師分享這部分指南,這樣所有參與網站建設的各方都可以同步共享。
比如我建了一個巨大的的Flash網站,可是在谷歌的任何地方都沒有出現,為什么呢?
可轉位的內容
為了在搜索引擎列表中更為顯著,你最重要的內容應該以HTML文本格式展現。盡管爬行技術已有所進步,圖像、Flash文件、Java applet和其他非文本內容還是經常會被搜索引擎爬蟲忽略或貶值。確保你向訪問者展示的單詞和短語在搜索引擎中可見的最簡單的方法是將它們放在頁面的HTML文本中。然而,對于那些要求格式或視覺效果更好的人來說,可以使用更為高級的方法:
1、為圖像提供alt文本。為這些圖像賦值gif、jpg或png格式的“alt屬性”,以使搜索引擎對可見的內容進行文本描述。
2、用導航和可爬行鏈接來補充搜索框。
3、用文本來補充頁面上的Flash或Java插件。
4、如果所使用的單詞和短語是由引擎索引的,應提供視頻和音頻內容的文字記錄。
用搜索引擎的方式看待你的網站
許多網站在“可索引內容”的方面有嚴重的問題,因此進行復查是有價值的。通過使用像Google's cache、SEO-browser.com和the MozBar這樣的工具,你可以看到內容的哪些元素對于引擎來說是可見的、可索引的。
使用谷歌緩存的功能,我們可以知道,在搜索引擎中,JugglingPandas.com的主頁不包含所有我們能看到的如此豐富的信息。這就使得搜索引擎很難說明關聯度的高低。
那樂趣又在哪兒呢?
哦哦……通過谷歌緩存,我們可以了解到頁面是一個貧瘠的荒地,甚至都沒有文字告訴我們這個頁面包含了用來與猴子搏斗的斧頭。這個站點完全是在Flash中構建的,但同時,遺憾的是,這意味著搜索引擎不能索引到任何文本內容,甚至不能索引到單個游戲的鏈接。如果沒有任何HTML文本,這個頁面將很難在搜索結果中排上名次。
我們不僅要檢查文本的內容,還要使用搜索引擎優化工具來復查您正在構建的頁面是否對引擎可見。正如我們在下文看到的,這適用于你的圖像,也適用于你的鏈接。
Crawlable(行抓?。╂溄咏Y構
就像搜索引擎需要看到內容才能在其龐大的、基于關鍵字的索引中列出頁面一樣,他們也需要看到鏈接,以便首先找到內容。一個可爬行的鏈接結構——即,讓爬行者瀏覽網站的路徑——對于他們在網站上找到所有頁面是至關重要的。成千上萬的網站犯了一個關鍵的錯誤,即,構造導航的方式是搜索引擎無法訪問的,這使得搜索引擎無法在索引中列出頁面。下面,我們來說明一下這個問題會如何發生:
在上面的描述中,谷歌的爬蟲已經到達了頁面A,并看到了頁面B和E的鏈接。然而,盡管C和D可能是站點上的重要頁面,但是爬蟲無法獲取它們(甚至不知道它們的存在)。這是因為沒有直接的、可爬行的鏈接點C和D。就像谷歌所看到的那樣,它們是不存在的!如果爬蟲不能在第一時間到達你的頁面,那么再好的內容,再好的關鍵字目標,以及再聰明的營銷將不會發揮它們的作用和影響。
構成一個鏈接的成分
鏈接標簽可以包含圖像、文本或其他對象,所有這些都在頁面上提供一個可點擊的區域,用戶可以通過這個區域連接到另一個頁面。這些鏈接是互聯網最初的導航元素——被稱為超鏈接。在上面的插圖中,“< a”標記是鏈接的開頭。鏈接提及的位置告訴瀏覽器(以及搜索引擎)鏈接點。本例引用了URL http://www.jonwye.com。接下來,訪問者鏈接的可見部分,也被稱為SEO中的錨文本,描述了鏈接指向的頁面。鏈接的頁面是關于Jon Wye制作的定制腰帶,因此錨文本是“Jon Wye定制設計的腰帶”。以“< / a >”標記作為鏈接的結尾,限制了標記之間的鏈接文本,并防止了鏈接包含頁面上的其他元素。
這是鏈接最基本的格式。對于搜索引擎來說,這是非常容易理解的。爬蟲們知道他們應該把這個鏈接添加到引擎的網絡鏈接圖中,用它來計算獨立的變量(比如谷歌的PageRank),并用它來索引引用頁面的內容。
現在讓我們來分析一下頁面無法被獲取的幾種常見原因
1、Submission-required(必需提交表單)形式
如果你要求用戶在訪問某些內容之前完成在線表單,那么搜索引擎將永遠不會看到那些受保護的頁面。這種表單包括有密碼保護的登錄或全面的調查。在這兩種情況下,搜索爬蟲通常不會嘗試提交表單,因此任何通過表單訪問的內容或鏈接都是不可見的。
2、不可解析的 JavaScript中的鏈接
如果你使用JavaScript鏈接,你可能會發現搜索引擎要么不爬行,要么對嵌入的鏈接不太重視。在任何你想要爬蟲爬行的頁面上,標準的HTML鏈接都應取代(或伴隨)JavaScript。
3、指向被元機器人標記或Robots . txt屏蔽的頁面的鏈接
元機器人標記和Robots . txt文件都可被站點所有者用來限制爬蟲訪問頁面。要注意的是,許多網站管理員無意中使用這些指令來阻止流氓機器人的訪問,結果卻發現搜索引擎停止了爬行。
4、frames或iframes
從技術上講,frames和iframes之間的鏈接都是可爬行的,但在組織和跟蹤方面,它們都可能導致引擎上一些結構性的問題。除非你是一個高級用戶,對搜索引擎索引和跟蹤鏈接的技術有很好的理解,否則最好還是遠離它們。
5、機器人不使用搜索表單
盡管這與表格上的上述警告直接相關,但這是一個很常見的問題,值得提一下。一些網站管理者相信如果他們在他們的網站上放置一個搜索框,那么引擎就能找到所有訪問者搜索的東西。然而,爬蟲沒有執行搜索去尋找內容,導致數百萬頁無法訪問,而且直到有一個爬行頁面鏈接到它們之前,它們都只能是匿名的。
6、Flash、Java和其他插件的鏈接
在雜耍熊貓網站(我們上面的例子)中嵌入的鏈接是這一現象的完美例證。雖然在頁面上列出了數十只熊貓,但沒有爬蟲可以通過網站的鏈接結構到達它們,導致引擎看不到它們,也無法從用戶的搜索查詢中找到它們。
7、通向已有成百上千條鏈接的頁面的鏈接
搜索引擎只會在給定的頁面上爬行這么多鏈接,這個限制對于減少垃圾郵件和保存排名是必要的,這種頁面上的數百個鏈接有可能無法全部被爬行或索引。
如果您避免了這些缺陷,您將擁有干凈的、可使用的HTML鏈接,這將使爬行器能夠輕松訪問您的內容頁。
rel 等于“nofollow”
Rel = " nofollow "可以以以下語法使用:
鏈接可以有很多屬性。除了rel = " nofollow "這一重要的屬性以外,引擎忽略了幾乎所有的屬性。在上面的例子中,將rel = " nofollow "屬性添加到鏈接標簽,這告訴搜索引擎,網站所有者不希望這個鏈接被解釋為對目標頁面的支持。
從字面上看,nofollow指示搜索引擎不遵循(盡管有些還是會遵循)鏈接。nofollow標記是一種用來幫助停止自動博客評論、訪客手冊和鏈接注入式垃圾郵件的方法。但是隨著時間的推移,它已經變成了一種告訴引擎去貶損一般通過的鏈接值的方式。每個引擎對于nofollow標記鏈接的解釋有著些許的不同,但是很明顯nofollow標記的鏈接不比普通鏈接更受重視。
nofollow鏈接是壞的嗎?
雖然nofollow鏈接沒有像其他鏈接一樣傳遞這么多的價值,但nofollow鏈接是多樣化鏈接的自然組成部分。一個擁有大量入站鏈接的網站將會積累許多不受關注的鏈接,但這并不是一件壞事。事實上,Moz的排名因素顯示,排名靠前的網站與排名較低的網站相比,其入站鏈接的比例往往更高。
谷歌
谷歌指出,在大多數情況下,它們不遵循nofollow鏈接,這些鏈接也不會傳輸PageRank或錨文本值。本質上說,使用nofollow導致谷歌將目標鏈接從web的總體圖中刪除。nofollow鏈接不攜帶任何權重,并被解釋為HTML文本(就好像鏈接并不存在)。盡管如此,許多網站管理員相信,即使是像維基百科這樣的高權威網站,也可以將其解讀為可信任的標志。
BING和YAHOO !
用以雅虎搜索結果的“必應”也聲明,盡管他們的爬蟲可能仍使用nofollow鏈接作為發現新頁面的一種方式,他們本身并不包括鏈接圖中的nofollow鏈接。因此,盡管他們可能會遵循這些鏈接,但他們在排名計算中并沒有使用它們。
關鍵字的使用和目標
關鍵詞是搜索過程的基礎。他們是語言和搜索的基石。事實上,整個信息檢索(包括如谷歌這樣基于web的搜索引擎)都是基于關鍵字的。當引擎在網頁上爬行和索引頁面內容時,他們會在關鍵字索引中跟蹤這些頁面,而不是在一個數據庫中存儲250億個web頁面。數以百萬計的小型數據庫——每一個都以一個特定的關鍵詞或短語為中心——使得引擎在一秒鐘內檢索他們所需要的數據。
很明顯的是,如果你想讓你的頁面有機會在搜索對象為“dog”的時候排上名,那么最好確保“dog”這個詞是你文檔的可爬行的內容的一部分。
關鍵字控制
關鍵詞主導我們如何傳達我們的搜索意圖以及與引擎的交互。當我們輸入單詞搜索時,引擎會根據輸入的單詞來匹配頁面。單詞的順序(“熊貓雜耍”或“雜耍熊貓”)、拼寫、標點符號和大小寫都提供了額外的信息,這些信息是被引擎用來幫助檢索正確的頁面并排列它們。
搜索引擎度量如何在頁面上使用關鍵字來幫助確定特定文檔與查詢的相關性。優化頁面排名的最好方法之一是確保你想要排名的關鍵詞在標題、文本和元數據中都很突出。
一般來說,當你把關鍵詞變得更具體時,你會減小搜索結果的競爭,提高你獲得更高排名的機會。左邊的地圖圖形比較了廣義的“books”與“Tale of Two Cities”這一具體標題的相關性。請注意,盡管當搜索廣義的“books”時有很多的結果,但對于具體(競爭較少)的一個對象,結果要少得多。
濫用關鍵字
自從開始有網絡搜索以來,人們就濫用關鍵詞來操縱引擎。這包括將關鍵字“填充”到文本、url、元標簽和鏈接。不幸的是,這種策略幾乎總是弊大于利。
在早期,搜索引擎依賴于關鍵字的使用作為主要的相關性信號,而不管關鍵字在實際上是如何被使用的。如今,盡管搜索引擎仍然不能像人類那樣閱讀和理解文本,但機器學習的使用使他們更接近這個理想的目標。
最好的做法是自然地、有策略地使用你的關鍵詞。如果你的頁面上的關鍵詞是“埃菲爾鐵塔”,那么自然會包括埃菲爾鐵塔本身的內容,塔的歷史,甚至含有值得推薦的巴黎的酒店。另一方面,如果你只是把“埃菲爾鐵塔”(Eiffel Tower)的字樣撒在一頁寫滿了不相關內容的紙上,比如滿頁都關于狗的繁殖,那么你為“埃菲爾鐵塔”(Eiffel Tower)排名的努力將是一場漫長而艱苦的戰斗。
使用關鍵字的要點不是對所有關鍵字進行高度評價,而是對人們在需要你的網站所提供的關鍵字時進行高度評價。
頁面優化
關鍵字的使用和定位仍然是搜索引擎排名算法的一部分,我們可以應用一些有效的關鍵技術來幫助創建優化的頁面。在Moz,我們進行了大量的測試,并看到大量的搜索結果和基于關鍵字使用策略的變化。當你制作站點的時候,這是我們推薦的過程:使用關鍵字短語——
1、在標題標簽中至少有一次。盡量保持關鍵字短語接近標題標簽的開頭。本節后面會有更多關于標題標簽的細節。
2、曾在頁面頂端附近突出。
3、包括變化,至少在頁面上拷貝二三次。如果有大量的文本內容,能再多幾次。您可能會發現使用關鍵字或變體有更多的價值,但在我們的經驗中,添加一個術語或短語的更多實例往往對排名很少甚至沒有影響。
4、在頁面上圖像的alt屬性中至少有一次。這不僅有助于網絡搜索,也有助于圖像搜索,它偶爾會帶來有價值的流量。
5、曾在URL中出現。稍后將在本節中討論URL和關鍵字的附加規則。
6、在meta描述標記中至少有一次。請注意,meta描述標記并沒有被引擎用來排名,而是有助于吸引閱讀搜索結果頁面的搜索者的點擊,這是因為元描述成為了搜索引擎所使用的文本片段。
此外,一般不應該在鏈接錨文本中使用關鍵字指向站點上的其他頁面,這就被稱為關鍵字的蠶食。
關鍵字密度的神話
正如埃爾德爾·加西亞博士在《沒有意義的關鍵字密度》中所展示的那樣,關鍵詞密度并不是現代排名算法的一部分。
如果兩個文檔,D1和D2,由1000個術語組成(l = 1000),重復20次(tf = 20),那么一個關鍵字密度分析器將告訴你這兩個文檔的關鍵字密度(KD)KD = 20 / 1000 = 0.020(或2%)。當tf = 10和l = 500時,得到相同的值。顯然,關鍵字密度分析器不確定哪個文檔更加相關。密度分析或關鍵字密度比并未告訴我們:
1、文檔中關鍵字之間的相對距離(鄰近)
2、在文檔中,術語出現的地方(分布)
3、術語間的共引頻率(共發生)
4、文檔的主題、題目和子主題(主題問題)
結論:
關鍵詞密度與內容、質量、語義和相關性分離。
標題標簽
標題頁中的元素就是對于頁面內容準確、簡明的描述。它就用戶體驗和搜索引擎的優化來說都很重要。
由于標題標簽是搜索引擎優化的重要組成部分,因此,以下為標題標簽創建的最佳實踐將會帶來非常好的低掛搜索引擎優化結果。下面的建議涵蓋了為搜索引擎優化標題標簽和可用性的關鍵步驟。
1、注意長度
搜索引擎僅顯示搜索結果中最初的65 - 75個字符(在此之后,引擎顯示“……”來表示標題標簽被切斷)。這也是大多數社交媒體網站所允許的一般限制,因此堅持這一限制通常是明智的。然而,如果你的目標是多個關鍵字(或者一個特別長的關鍵字短語),并且在標題標簽中包含它們是很重要的,那么可以用更長的。
2、把重要的關鍵字放在前面
你的關鍵字在標題標簽越開頭的地方,他們就越有可能排名,用戶越有可能在搜索結果中點擊它們。
3、涵括品牌
在Moz,我們喜歡用一個品牌的名字來結束每一個標題標簽,因為這些有助于提高品牌知名度,并為那些喜歡和熟悉一個品牌的人創造更高的點擊率。有時候,比如在你的首頁上,把品牌放在標題標簽的開頭是有意義的。由于標題標簽開頭的單詞承載了更多的重要性,所以要注意你想要表達的內容。
4、考慮可讀性和情感效果
標題標簽應該是描述性的和可讀的。標題標簽是一個新的訪客與你的品牌的第一次互動,應該傳達最積極的印象。創建一個引人注目的標題標簽將有助于抓住搜索結果頁面,并吸引更多的訪問者到你的站點。這說明SEO不僅是優化和戰略關鍵字的使用,而且是整個用戶體驗。
Meta標簽
Meta標簽最初是作為一個網站內容信息的代理。下面列出了幾個基本元標記,以及它們的用法說明。
一、元機器人
元機器人標簽可以用來控制搜索引擎爬蟲活動(對于所有的主要引擎)在一個頁面上。有幾種方法可以使用元機器人來控制搜索引擎如何處理頁面:
1、index/ noindex告訴引擎是否應該抓取該頁面,并保存在引擎的索引中,用于檢索。如果您選擇使用“noindex”,那么該頁面將被排除在索引之外。默認情況下,搜索引擎假定它們可以索引所有頁面,因此使用“索引”值通常是沒有必要的。
2、follow / nofollow告訴引擎是否應該抓取頁面上的鏈接。如果您選擇使用“nofollow”,引擎在發現、排名或二者皆有的目的下忽略頁面上的鏈接。默認情況下,所有頁面都假定有“follow”屬性。示例:<
3、noarchive用于限制搜索引擎保存頁面的緩存副本。默認情況下,引擎將保持它們已索引的所有頁面的可見副本,通過搜索結果中的高速緩存鏈接訪問搜索器。
4、nosnippet告知引擎,它們應該避免在搜索結果的頁面標題和URL旁邊顯示描述性的文本塊。
5、noodp/noydir是專門的標簽,告訴引擎不要從“開放目錄項目”(DMOZ)或“Yahoo ! 目錄”的搜索結果中獲取描述性的片段。
6、X-Robots-Tag HTTP頭指令也實現了同樣的目標。這種技術在非html文件(如圖像)內的內容特別有效。
二、元描述
元描述標簽作為一頁內容的簡短描述而存在。搜索引擎不使用這個標簽中的關鍵字或短語進行排名,但是meta描述是結果列表下顯示的文本片段的主要來源。
meta描述標簽提供了廣告拷貝的功能,從結果中吸引讀者到你的網站。這是搜索市場營銷中非常重要的一部分。使用重要的關鍵字制作可讀的、引人注目的描述(注意谷歌如何在描述中搜索關鍵字)可以在你的頁面上畫出更高的點擊率。
元描述可以是任何長度的,但是搜索引擎通常會縮減長度超過160個字符的代碼片段,因此限制在這個范圍內是明智的。
在沒有元描述的情況下,搜索引擎將從頁面的其他元素中創建搜索片段。對于針對多個關鍵字和主題的頁面來說,這是一個非常有效的策略。
三、不作為重要的元標簽
Meta關鍵詞:Meta關鍵詞標簽曾經是有價值的,但對搜索引擎優化不再有價值。關于更多其歷史和元關鍵字被廢棄的原因,請在SearchEngineLand中閱讀meta關鍵詞標記101。
Meta 更新, Meta 再訪問, Meta 內容類型,以及其他的:盡管這些標簽可以用于搜索引擎的優化,但它們對這個過程不那么重要,因此我們將把它留給Google's Search Console Help(谷歌的搜索控制臺),以更詳細的討論。
URL結構
從搜索的角度來看,URL,即網絡文檔的地址,是非常有價值的。它們在多個重要的地方出現。
由于搜索引擎在結果中顯示URL,它們可以影響點擊量和可見性。URL也被用于排名文檔。恰當的、描述性的關鍵字也有利于那些名字包括查詢詞的頁面。
URL在web瀏覽器的地址欄中出現,而這通常對搜索引擎沒有什么影響,糟糕的URL結構和設計可能會導致負面用戶體驗。
上面的URL用作鏈接錨文本,指向該博客文章中引用的頁面。
URL建設指南
1、使用同理心
用用戶的想法來審視你的網址。如果您能夠輕松準確地預測你希望在頁面上找到的內容,那么你的URL就具有適當的描述性。你不需要在URL中詳細說明每一個細節,但是一個大致的想法是一個很好的起點。
2、較短的更好
雖然描述性URL是重要的,但盡量減少長度和拖尾的斜杠會使您的URL更容易復制和粘貼(到電子郵件、博客文章、文本消息等),并且在搜索結果中完全可見。
3、關鍵字的使用很重要(但過度使用是危險的)
如果你的頁面是針對某個特定的術語或短語,確保將其包含在URL中。然而,不要為了搜索引擎優化而嘗試在多個關鍵字中輸入關鍵詞;過度使用會導致使用較少的URL和訪問垃圾郵件過濾器。
4、靜態
最好的URL是人類可讀的,沒有大量的參數、數字和符號。使用諸如Apache的mod_rewrite和Microsoft的ISAPI_rewrite等技術,你可以輕松地將動態URL,如https://moz.com/blog?id = 123轉換為一個更具可讀性的靜態版本:https://moz.com/blog/google-fresh-factor。即使是URL中的單個動態參數也會降低整體排名和索引。
5、用連字符分隔單詞
并不是所有的web應用程序都能準確地解釋像下劃線(_)、加號(+)或空格(% 20)這樣的分隔符,因此使用連字符(-)來分隔URL中的單詞,就像上面的“google - fresh - factor”URL示例一樣。
內容的規范版本和重復版本
重復內容是任何網站都面臨的最棘手和麻煩的問題之一。在過去的幾年里,搜索引擎已經通過降低排名來打擊那些內容很薄或者內容重復的網頁。
當兩個或多個版本的網頁出現在不同的URL上時,規范化就會發生。這在現代內容管理系統中非常常見。例如,你可以提供一個普通版本的頁面和一個打印優化的版本,重復的內容甚至可以出現在多個網站上,對于搜索引擎來說,這帶來了一個大問題:應該向搜索者展示這些內容的哪些版本?在SEO圈子里,這個問題通常被稱為重復的內容,這里有更詳細的描述。
發動機對單一材料的重復版本很挑剔。為了提供最好的搜索體驗,他們很少會顯示多個、重復的內容片段,而是選擇哪個版本最可能是原始版本。最終的結果是,所有的重復內容都可以低于它應有的級別。
規范化是將內容以一種獨特的方式組織起來的實踐,每一篇文章都有一個,而且只有一個URL。如果你在一個網站(或很多網站)上留下了多個版本的內容,可能會有一個像右邊這樣的場景:哪個鉆石是正確的?
相反,如果網站所有者將這三頁和301重新將其定向,搜索引擎將在該站點的列表中只顯示一個強大的頁面。
當具有優秀的排名潛力的多個頁面合并成一個單獨的頁面時,它們不僅停止相互競爭,而且還會產生更強的相關性和流行信號。這將對你在搜索引擎中排名的能力產生積極影響。
典型的救援方法
搜索引擎一個不同的選擇,被稱為規范URL標記,是減少單個站點重復內容的實例,并將其規范化為單個URL的另一種方法。這也可以在不同的網站上使用,從一個域的一個URL到另一個域上的不同URL,使用包含重復內容的頁面內的規范標記,標準標記的目標指向你想要為之排序的主URL。
內部運轉
這告訴搜索引擎,問題頁面應該被視為URL https://moz.com/blog的副本,而引擎應用的所有鏈接和內容度量應該返回到該URL。
從SEO的角度來看,規范的URL標記屬性類似于301重定向。本質上,你告訴引擎多頁應該被認為是一個頁面,但實際上沒有將訪問者重定向到新的URL,這為你的開發員工帶來了許多額外的好處。
對于更多不同類型的重復內容,皮特博士的這篇文章值得特別提及。
豐富的片段
你有沒有在搜索結果中看到過5星評級?搜索引擎從嵌入在網頁上的豐富的片段中獲得了這些信息是很有可能的。Rich snippet是一種結構化數據,它允許網站管理員以提供搜索引擎信息的方式標記內容。
雖然使用豐富的代碼片段和結構化數據并不是搜索引擎友好設計的必要元素,但它越來越多的采用意味著在某些情況下,使用它的網站管理員可能會有優勢。
結構化數據意味著在內容中添加標記,這樣搜索引擎就能很容易地識別出內容的類型。Schema.org提供了一些可以從結構化標記中獲益的數據示例,包括人員、產品、評論、業務、菜譜和事件。
搜索引擎通常包括搜索結果中的結構化數據,比如用戶評論(stars)和作者簡介(圖片)。這里有幾個很好的資源,可以在網上學習更多關于rich Snippet的信息,包括Schema.org的信息,谷歌的rich Snippet測試工具,以及使用MozBar。
在現實中豐富的片段
讓我們舉個例子,你主持一個關于你的博客的SEO會議。在常規的HTML,你的代碼可能會看起來像這樣:
現在,通過構造數據,我們可以告訴搜索引擎更多關于數據類型的信息。最終的結果可能是這樣的:
維護站點的榮譽
刮刮器是如何竊取你的排名的
不幸的是,網絡上充斥著肆無忌憚的網站,他們的業務和流量模型依賴于從其他網站上提取內容,并在他們自己的領域重新使用它(有時會有一些奇怪的修改方式)。這種抓取內容和重新發布的做法被稱為“抓取”,而在搜索引擎的排名中,抓取者的表現非常好,通常會超過原始站點。
當你以任何類型的提要格式發布內容時,如RSS或XML,確保“ping”主要的博客和跟蹤服務(谷歌,Technorati,Yahoo !等)。你可以從他們的網站上找到像谷歌和Technorati這樣的服務,或者使用像Pingomatic這樣的服務來實現流程的自動化。如果你的發布軟件是自定義的,那么對于開發人員來說,在發布時包含自動“ping”是非常明智的。
接下來,你可以使用刮刮器的惰性來對付它們。大多數網站上的刮刮器會在不編輯的情況下重新發布內容。因此,通過返回到你的站點的鏈接,以及你所編寫的特定的帖子,你可以確保搜索引擎可以看到鏈接返回你的大部分副本(表明你的源可能是發起者)。要做到這一點,你需要使用絕對,而不是內部鏈接結構中的相對鏈接。因此,與其使用:
你應該用:
這樣的話,當一個刮刀拾取并復制內容時,鏈接仍然指向你的站點。
還有更先進的防止刮擦的方法,但沒有一個是完全萬無一失的。你的網站越受歡迎,可見度越高,你就越經常發現你的內容被剪貼并重新發布。很多時候,你可以忽略這個問題:但如果它變得非常嚴重,你會發現刮刮器奪走了你的排名和流量,你可考慮使用一個叫做DMCA的法律程序。Moz公司首席執行官莎拉·伯德在這個主題——《四種執行版權的方法:當你的在線內容被竊取時該做些什么》——上提供了一些質量建議。