1、簡介
搜索引擎的排名主要取決于以下因素:
內容相關度(百度搜索大概占比<40%)
用戶行為(用戶點擊數、跳出、瀏覽時長等等,占比未知 )
網站技術參數(是否有gzip、nofollow、alt 以及各類標簽是否正確使用等等,占比應該較?。?
域名積累(包括域名年齡、外鏈、歷史流量等,占比應較大)
2、優化思路
本質上排名的優化是一種競爭。和該關鍵詞搜索結果中的其他網站競爭。
競爭的點無非就是 前面提到的這4大點。而其中相對來說比較好把控的也只有內容相關度以及網站技術參數了。
其他的需要長時間的優化和積累才能達到。
3、如何優化
如何優化內容相關度呢?
這就需要知道搜索引擎是如何評判內容與搜索詞的相關度了。
查了些資料,得知目前主流的相關度算法主要有 TF-IDF 、BM25 等。
TF-IDF 介紹
TF-IDF(term frequency–inverse document frequency)是一種用于信息檢索與數據挖掘的常用加權技術。TF意思是詞頻(Term Frequency),IDF意思是逆文本頻率指數(Inverse Document Frequency)。
而BM25 則是針對TF-IDF 的收斂性改進,增加了k,b參數,使得詞頻的影響達到一定量級后趨于收斂。
簡單解釋一下,關鍵詞的優化其實就是 增減和搜索詞有關的詞語在整個內容中的數量!
只是要弄清楚應該增減什么詞,增減的范圍又是多少!
參考搜索詞目前的排名,并且分析排名靠前網站的詞語布局
比如提高“深圳租房”這個搜索詞你的網站排名,那么從關鍵詞優化的角度,第一步是要了解這個搜索詞目前的排名是怎樣的,排名靠前的網站,對于關鍵詞又是怎么布局的。
當然去人工的一個個分析,工作量實在太大了,所以我自己做了一個分析工具,抓取目標搜索詞的結果,然后分析各自的關鍵詞布局。
橫向對比,詳細地分析出具體可操作的方案
后面發現以上還不夠,這樣對比起來還是工作量大,所以又開發了預測功能,直接將搜索詞和你自己的html源碼輸入進來,然后預測,系統給出直觀的優化操作方案。
后續還規劃了一個預測功能,就是將海量去分析各種搜索詞,將結果保存下來, 然后用機器學習算法去分類,能夠進一步得知這些特征的重要性排序,然后從高到低根據重要程度去優化。但是本人太懶了,這步目前還沒有時間去弄,估計過年期間再寫一寫吧。
因為搜索引擎的具體算法,對我們來說就是個黑盒子,不知道里面會根據具體哪些特征去評分,所以我的思路就是將目前我們能手工提取到的特征,比如說 詞的密度,內容的篇幅,相關詞的密度等等,當然還有標簽:排名值,放進機器學習算法里跑一跑,這樣當曲線擬合,召回率到一定程度的時候,就可以大概預測出你的網站當前的內容能排多少名了。
具體算法還有待研究,目前覺得應該以可解釋性為主,比如隨機森林,決策樹一類的,這樣能夠知道特征之間的重要程度,如果純粹只是要輸出個排名預測結果,用深度學習神經網絡一類的算法也成。