首頁 都市

重寫科技格局

第四十章 搜索引擎算法

重寫科技格局 江湖說夢(mèng)人 2810 2019-10-25 17:25:56

  臨近下午一點(diǎn),孟謙到了滬上浦東,這還是他重生后第一次來滬上,這個(gè)前世他也經(jīng)常來的地方。

  滬上作為華夏的金融中心,是一張給世界看的名片。

  不過曾經(jīng)的孟謙第一次來滬上是在07年的時(shí)候,2000年的滬上他還真沒見過。

  此時(shí)的浦東,已經(jīng)開始聳立起高樓大廈,同時(shí)又存在大片的廠房和棚戶區(qū),車子一路開過去,可以看到很多地方正在拆遷改造。

  “張總準(zhǔn)備把分公司放在浦東么?”到了目的地后,孟謙憑借記憶對(duì)比,如果沒看錯(cuò)的話這里應(yīng)該是張江高科技園區(qū)。

  浦東四大重點(diǎn)開發(fā)區(qū)域中,世人相對(duì)熟知的應(yīng)該就是金融中心陸家嘴和科技中心張江了。

  2000年的張江,領(lǐng)軍產(chǎn)業(yè)是電路、軟件以及生物醫(yī)藥。

  張樹新點(diǎn)頭表示肯定,“現(xiàn)在南方最有發(fā)展?jié)摿Φ牡胤?,毫無疑問就是深圳和滬上浦東,而張江高科技園區(qū),則是科技的孵化寶地啊?!?p>  這個(gè)時(shí)候大家說到南方城市的發(fā)展?jié)摿?,尤其是科技發(fā)展,還沒人會(huì)想到杭城。

  來到張樹新租的地方,有五名男子正等在那邊,其中有兩人一看就是外籍男子。

  張樹新一一做了介紹,這兩名外籍男子一名來自IBM,一名來自谷歌,聽意思要么是已經(jīng)挖過來了,要么就是打算挖過來的,兩人之前都是搜索引擎項(xiàng)目組的。

  另外三名華夏人,一人是瀛海威自家的技術(shù)總監(jiān),另外兩人都是從硅谷回來的,一個(gè)畢業(yè)于斯坦福大學(xué),曾任職于英特爾,一人畢業(yè)于哈佛,曾任職于甲骨文,都是人才。

  簡(jiǎn)單的打了個(gè)招呼,大家就到會(huì)議室坐著,接下去是孟謙的表演時(shí)間,他今天,要展示他的搜索引擎核心技術(shù)。

  搜索引擎這個(gè)東西,需要用到網(wǎng)絡(luò)爬蟲技術(shù)、檢索排序技術(shù)、網(wǎng)頁處理技術(shù)、大數(shù)據(jù)處理技術(shù)、自然語言處理技術(shù)等,當(dāng)然,2000年這個(gè)時(shí)候,還用不上自然語言處理技術(shù),大數(shù)據(jù)處理也更后世的概念不太一樣。

  但說的簡(jiǎn)單一點(diǎn),其實(shí)核心就是一個(gè)東西,算法。

  因?yàn)槊恳粋€(gè)技術(shù)都離不開算法。

  “我不太清楚在座各位在搜索引擎方面的建樹和理解,我只能先按照我的節(jié)奏說下去,如果誰有問題可以隨時(shí)打斷我?!泵现t走到黑板前直入正題。

  “在我展示我的核心技術(shù)之前,我們先來看看當(dāng)下的三大主流算法,白度的超鏈分析,谷歌的PageRank算法以及IBM的HITS算法。

  幾乎所有人都覺得白度的超鏈分析是三個(gè)算法中最落后的,但有些事情我們還是要多角度的看一看,白度的超鏈分析在某種程度上可以算得上是奠定了搜索引擎的發(fā)展基礎(chǔ)。

  有一些聲音說谷歌其實(shí)是剽竊了白度的超鏈算法,畢竟李彥宏這個(gè)專利確實(shí)在谷歌之前,我們現(xiàn)在不去猜測(cè)真假,但這種說法體現(xiàn)了一個(gè)很重要的信號(hào),其實(shí)不管是哪一家的算法,算法基礎(chǔ)其實(shí)都是一樣的。

  抓取網(wǎng)頁信息,然后用某種機(jī)制對(duì)這些網(wǎng)頁進(jìn)行排序,當(dāng)用戶輸入關(guān)鍵詞進(jìn)行搜索時(shí),根據(jù)關(guān)鍵詞匹配出按照機(jī)制進(jìn)行排列的網(wǎng)頁。

  那么白度輸在哪呢?關(guān)鍵就在于白度現(xiàn)在過于簡(jiǎn)單的基于在某次搜索的所有結(jié)果中被其他網(wǎng)頁用超鏈接指向的越多的網(wǎng)頁就價(jià)值越高這種基礎(chǔ)排序方式。

  相比之下,谷歌的pagerank就多了兩件很重要的事情,第一件事情是,把A頁面到B頁面的鏈接解釋為A給B的投票行為,谷歌在這里會(huì)同時(shí)考評(píng)A和B的等級(jí)從而形成新的等級(jí)。

  也就是每一個(gè)頁面都有PR值,同時(shí)你的PR值會(huì)成為其他頁面PR值的參考。

  然后不斷的重復(fù)計(jì)算每個(gè)頁面的PR。假設(shè)給每個(gè)頁面一個(gè)隨機(jī)PR值,那么經(jīng)過不斷的重復(fù)計(jì)算,這些頁面的PR值會(huì)趨向于穩(wěn)定,也就是收斂的狀態(tài)。

  至于HITS,其理論基礎(chǔ)依然沒變,它最大的特點(diǎn)或者說改變就在它意識(shí)到pagerank算法平均的分布權(quán)值不符合鏈接的實(shí)際情況。

  所以HITS算法中引入了另外一種網(wǎng)頁,稱為Hub網(wǎng)頁,Hub網(wǎng)頁是提供指向權(quán)威網(wǎng)頁鏈接集合的WEB網(wǎng)頁。

  所以使用HITS的搜索結(jié)果會(huì)比其他兩者都更權(quán)威,但這個(gè)算法會(huì)大大增加計(jì)算負(fù)擔(dān),對(duì)吧?”

  孟謙看了一眼IBM出來的哥們,對(duì)方愣了一下有點(diǎn)好像不確定的點(diǎn)了點(diǎn)頭。

  所以現(xiàn)在簡(jiǎn)單總結(jié)一下,搜索引擎的算法基礎(chǔ)就是超鏈分析,算法的優(yōu)劣勢(shì)就在于如何讓搜索結(jié)果更具有參考價(jià)值,讓用戶獲得更有效的信息。

  當(dāng)然如果能直接理解用戶的需求然后幫他搜索他最想要的內(nèi)容,這是最理想的搜索引擎狀態(tài),但誰都知道這是不可能的。

  因此搜索引擎的好壞決定的就是同樣的關(guān)鍵詞下,你是否能讓相對(duì)更多的人獲得他們想要的內(nèi)容。

  10個(gè)用戶用谷歌,5個(gè)人找到了自己想要的東西,如果用我們的搜索引擎,6個(gè)人找到了自己想要的東西,在這里領(lǐng)域目前的技術(shù)環(huán)境下,我們就是更優(yōu)秀的。

  那么在這個(gè)理解基礎(chǔ)上,我接下來要給大家介紹的,就是我的搜索引擎算法,動(dòng)態(tài)規(guī)則超鏈分析算法。

  動(dòng)態(tài)規(guī)則超鏈分析算法有以下幾個(gè)變化。

  第一,剛才我們提到了,好的搜索引擎是要看在同一關(guān)鍵詞下誰的反饋結(jié)果更能滿足用戶需求,那么當(dāng)用戶在搜索某個(gè)東西的時(shí)候,從大概率來說,他想要看到的結(jié)果應(yīng)該是與這個(gè)東西具有更垂直型相關(guān)的內(nèi)容。

  舉個(gè)例子,客戶在搜索汽車的時(shí)候,不管他是想買車,還是想了解汽車知識(shí),汽車類的專業(yè)網(wǎng)頁對(duì)他的幫助應(yīng)該都是更大的。

  所以在我的算法中,對(duì)于指向某一個(gè)網(wǎng)站的鏈接,我首先會(huì)做垂直率評(píng)分,比如有現(xiàn)在有10個(gè)網(wǎng)站鏈接到了A,這10個(gè)網(wǎng)站都是汽車類網(wǎng)站和這10個(gè)網(wǎng)站都不是汽車類網(wǎng)站的結(jié)果,想必是肯定不一樣的。

  這里還有一個(gè)小小的心理問題,那就是同行之間很少會(huì)做超鏈接,所以擁有更多垂直類網(wǎng)站鏈接的網(wǎng)站,它的專業(yè)性肯定比被亂七八糟網(wǎng)站鏈接的網(wǎng)站要更大概率靠譜。

  第二,建立關(guān)鍵詞庫熱度排序機(jī)制,現(xiàn)在的幾家搜索引擎企業(yè)都對(duì)網(wǎng)頁做了排序,而我對(duì)關(guān)鍵詞也做了排序,而且給關(guān)鍵詞做排序非常簡(jiǎn)單,那就是看用戶的搜索量。

  就比如今天搜索汽車的用戶最多,那么汽車的評(píng)分可能就是10分,這個(gè)時(shí)候,算法會(huì)分配更多的資源到汽車相關(guān)的信息上去,去抓取更多的優(yōu)質(zhì)網(wǎng)頁。

  這里有四個(gè)好處,提升信息反饋速度、增加熱點(diǎn)反饋的時(shí)效性、節(jié)約計(jì)算機(jī)資源以及圍繞最終目的,讓更多使用我們搜索引擎的用戶得到有用信息。

  第三,用戶反饋機(jī)制,也就是跟蹤用戶的點(diǎn)擊情況和瀏覽情況。

  還是用汽車舉例,有100個(gè)用戶搜索汽車后,80個(gè)點(diǎn)擊了A網(wǎng)頁,A網(wǎng)頁的評(píng)級(jí)就會(huì)上升,如果有更多的用戶在A網(wǎng)頁的停留時(shí)間較長(zhǎng),A網(wǎng)頁的評(píng)級(jí)也會(huì)上升,如果有更多的用戶在A網(wǎng)頁上直接進(jìn)行鏈接等操作,A網(wǎng)頁的評(píng)級(jí)也會(huì)上升。

  也就是說,在整個(gè)網(wǎng)頁評(píng)級(jí)系統(tǒng)中,加入用戶反饋分。

  第四,規(guī)律算法,在用戶的所有行為中尋找大概率行為,并將這些大概率反饋到人工,比如說60%搜索了汽車的用戶下一個(gè)搜索詞都是保險(xiǎn)。

  這樣的一些規(guī)律我們是無法預(yù)測(cè)的,但我們可以利用算法進(jìn)行大數(shù)據(jù)挖掘,回饋的這些結(jié)果可以供人工分析部對(duì)一定的網(wǎng)頁進(jìn)行評(píng)分,這個(gè)就是人工分。

  結(jié)合以上四點(diǎn),在我的算法下,任何一個(gè)網(wǎng)頁同樣會(huì)有一個(gè)分?jǐn)?shù),我稱其為精度分。

  影響精度分的因子包括自己評(píng)分,鏈接的垂直網(wǎng)站評(píng)分,用戶反饋分,人工制定分以及外鏈影響等?!?p>  之后,孟謙淺嘗輒止的展示了各個(gè)分支的算法邏輯和算法推演公式。

  然而就在孟謙在說最后一個(gè)規(guī)律算法的過程中,來自IBM的杰爾夫突然起身驚呼,“OH MY GAD!Artificial Intelligence?!”

  孟謙轉(zhuǎn)過頭看了一眼對(duì)方,皺了皺眉。

  杰爾夫頓了頓,以為孟謙是沒聽懂,用奇怪的發(fā)音道,“我去!??!”

  ...

  而隨著杰爾夫的打斷,原本都沉浸在孟謙分享中的其他四名技術(shù)人員,眼神也都出現(xiàn)了明顯的變化...

江湖說夢(mèng)人

起點(diǎn)居然無法上傳復(fù)雜的公式........

按 “鍵盤左鍵←” 返回上一章  按 “鍵盤右鍵→” 進(jìn)入下一章  按 “空格鍵” 向下滾動(dòng)
目錄
目錄
設(shè)置
設(shè)置
書架
加入書架
書頁
返回書頁
指南