很多網站,尤其是商業網站,往往使用同一個模板,不同網頁的主體內容高度相似或相同,僅一些 Title 等標簽進行了改變。比如一些招投標網站,為了讓更多的地區得到投標內容,他們制作了大量頁面,標題采用地區 + 內容的方式,而頁面的主體內容都是完全相同的。對于百度搜索引擎來說,都屬于站內大量重復內容。
二、利用與站點無關的熱詞引流:
有些網站,尤其是新聞源站點緊盯百度的時效性熱詞,與自己網站文章的標題進行整合,其實就是我們常說的標題黨,如"李娜退役隱情 體育明星豪宅全揭秘",用戶點擊后自然看不到關于李娜退役隱情的內容。此種行為一經發現,網站會被取消新聞源資格,即使內容真的是原創,也會因此行為遭受牽連。
三、制作低質靜態搜索結果頁或 TAG 標簽頁:
很多網站都采用了將站內搜索結果頁轉為靜態頁面的方式,整合站點資源,以期形成相關性得分高的頁面。但實際來看,很多站點通過站內搜索或者 tag 生成的頁面相關性并不好,或者說產生了許多對百度搜索結果造成負面影響的頁面。如果整個目錄都存在這樣的現象,那么被懲罰的可能性就非常大了。如下方截圖,用戶搜 列車時刻表,這樣的頁面對他來說毫無價值。該頁面所在的目錄或站點做了很多類似內容的頁面,且已經對作用造成惡劣影響時,極容易受到搜索引擎的懲罰。
四、不負責任的采集:
首先需要澄清的是,百度說的拒絕采集,指的是大量復制互聯網上已有內容,對采集的內容不加整理即全部推至線上的 偷懶 行為。對于將采集來的內容進行再加工高效整合后,產出內容豐富的高質量網頁,百度沒有拒絕理由。所以,我們說,百度不喜歡不負責任的偷懶采集行為。
五、偽原創:
上面我們說百度不喜歡不負責任的采集,于是有些人開始動起了偽裝原創的腦筋。采集內容后對部分關鍵詞進行批量修改,企圖讓百度認為這些都是獨特內容,然而內容已經是面目全非,甚至無法讀通——這也是百度不喜歡的,風險很大。還是剛才說的觀點,百度不排斥站點采集內容,關鍵是如何應用采集的內容和數據,如何整合成用戶和搜索引擎都需要的內容才是站長應該考慮的內容。