国产精品久久亚洲一区二区,高树三姊妹笔趣阁,色鬼AV在线

摘要：剛才提到百度搜索引擎會(huì)設(shè)計(jì)復(fù)雜的抓取策略，其實(shí)搜索引擎與資源提供者之間存在相互依賴的關(guān)系，其中搜索引擎需要站長為其提供資源，否則搜索引擎就無法滿足用戶檢索需求；而站長需要通過搜索引擎將自己的內(nèi)容推...

剛才提到百度搜索引擎會(huì)設(shè)計(jì)復(fù)雜的抓取策略，其實(shí)搜索引擎與資源提供者之間存在相互依賴的關(guān)系，其中搜索引擎需要站長為其提供資源，否則搜索引擎就無法滿足用戶檢索需求；而站長需要通過搜索引擎將自己的內(nèi)容推廣出去獲取更多的受眾。spider抓取系統(tǒng)直接涉及互聯(lián)網(wǎng)資源提供者的利益，為了使搜素引擎與站長能夠達(dá)到雙贏，在抓取過程中雙方必須遵守一定的規(guī)范，以便于雙方的數(shù)據(jù)處理及對接。這種過程中遵守的規(guī)范也就是日常中我們所說的一些網(wǎng)絡(luò)協(xié)議。

以下簡單列舉：

http協(xié)議：超文本傳輸協(xié)議，是互聯(lián)網(wǎng)上應(yīng)用最為廣泛的一種網(wǎng)絡(luò)協(xié)議，客戶端和服務(wù)器端請求和應(yīng)答的標(biāo)準(zhǔn)。客戶端一般情況是指終端用戶，服務(wù)器端即指網(wǎng) 站。終端用戶通過瀏覽器、蜘蛛等向服務(wù)器指定端口發(fā)送http請求。發(fā)送http請求會(huì)返回對應(yīng)的httpheader信息，可以看到包括是否成功、服務(wù) 器類型、網(wǎng)頁最近更新時(shí)間等內(nèi)容。

https協(xié)議：實(shí)際是加密版http，一種更加安全的數(shù)據(jù)傳輸協(xié)議。

UA屬性：UA即user-agent，是http協(xié)議中的一個(gè)屬性，代表了終端的身份，向服務(wù)器端表明我是誰來干嘛，進(jìn)而服務(wù)器端可以根據(jù)不同的身份來做出不同的反饋結(jié)果。

robots協(xié)議：robots.txt是搜索引擎訪問一個(gè)網(wǎng)站時(shí)要訪問的第一個(gè)文件，用以來確定哪些是被允許抓取的哪些是被禁止抓取的。 robots.txt必須放在網(wǎng)站根目錄下，且文件名要小寫。詳細(xì)的robots.txt寫法可參考 http://www.robotstxt.org 。百度嚴(yán)格按照robots協(xié)議執(zhí)行，另外，同樣支持網(wǎng)頁內(nèi)容中添加的名為robots的meta標(biāo) 簽，index、follow、nofollow等指令。

轉(zhuǎn)載請保留原文地址: http://dchs1688.cn/show-548.html

A片曰本,亚洲天堂精品,欧美色图无码,亚洲欧美激情在线,销魂美女免费视频 ,艾草仙姑

Baiduspider抓取過程中涉及的網(wǎng)絡(luò)協(xié)議

時(shí)間：2016/4/13 21:57:08 點(diǎn)擊：307

相關(guān)文章

本類熱門

本類推薦

本類固頂