Baiduspider抓了多少頁面并不是最重要的,重要的是有多少頁面被建索引庫,即我們常說的“建庫”。眾所周知,搜索引擎的索引庫是分層級的,優(yōu)質(zhì)的網(wǎng)頁會被分配到重要索引庫,普通網(wǎng)頁會待在普通庫,再差一些的網(wǎng)頁會被分配到低級庫去當(dāng)補充材料。目前60%的檢索需求只調(diào)用重要索引庫即可滿足,這也就解釋了為什么有些網(wǎng)站的收錄量超高流量卻一直不理想。 那么,哪些網(wǎng)頁可以進(jìn)入優(yōu)質(zhì)索引庫呢。其實總的原則就是一個:對用戶的價值。包括卻不僅于: 1、有時效性且有價值的頁面:在這里,時效性和價值是并列關(guān)系,缺一不可。有些站點為了產(chǎn)生時效性內(nèi)容頁面做了大量采集工作,產(chǎn)生了一堆無價值面頁,也是百度不愿看到的. 2、內(nèi)容優(yōu)質(zhì)的頁面:頁面的內(nèi)容不一定完全是原創(chuàng)的,即可以很好地把各方內(nèi)容整合在一起,或者增加一些新鮮的內(nèi)容,比如觀點和評論,給用戶更豐富全面的內(nèi)容。 3、高價值原創(chuàng)內(nèi)容頁面:百度把原創(chuàng)定義為花費一定成本、大量經(jīng)驗積累提取后形成的文章。千萬不要再問我們偽原創(chuàng)是不是原創(chuàng)。 4、重要個人頁面:這里僅舉一個例子,科比在新浪微博開戶了,即使他不經(jīng)常更新,但對于百度來說,它仍然是一個極重要的頁面。 哪些網(wǎng)頁無法被收錄? 上述優(yōu)質(zhì)網(wǎng)頁進(jìn)了索引庫,那其實互聯(lián)網(wǎng)上大部分網(wǎng)站根本沒有被百度收錄。并非是百度沒有發(fā)現(xiàn)他們,而是在建庫前的篩選環(huán)節(jié)被過濾掉了。那怎樣的網(wǎng)頁在最初環(huán)節(jié)就被過濾掉了呢: 1、重復(fù)內(nèi)容的網(wǎng)頁:互聯(lián)網(wǎng)上已有的內(nèi)容,百度必然沒有必要再收錄。 2、主體內(nèi)容空短的網(wǎng)頁 1)有些內(nèi)容使用了百度spider無法解析的技術(shù),如JS、AJAX等,雖然用戶訪問能看到豐富的內(nèi)容,依然會被搜索引擎拋棄 2)加載速度過慢的網(wǎng)頁,也有可能被當(dāng)作空短頁面處理,注意廣告加載時間算在網(wǎng)頁整體加載時間內(nèi)。 3)很多主體不突出的網(wǎng)頁即使被抓取回來也會在這個環(huán)節(jié)被拋棄。 這里在提醒各位一個細(xì)節(jié),大家在新站建好的時候,最好是填充原創(chuàng)內(nèi)容,不要網(wǎng)站一上線就抄襲,百度會把你的內(nèi)容放到他們收錄的數(shù)據(jù)庫對比的,如果對比重復(fù)度過高,那可能還是比較難收錄的。
|