中文字幕在线观看,亚洲а∨天堂久久精品9966,亚洲成a人片在线观看你懂的,亚洲av成人片无码网站,亚洲国产精品无码久久久五月天

Magi 火了:搜索引擎界的一股清流

2019-11-18    來源:InfoQ公眾號

容器云強(qiáng)勢上線!快速搭建集群,上萬Linux鏡像隨意使用

聲明:本文來自于微信公眾號 InfoQ(ID:infoqchina),作者:Tina,授權(quán)站長之家轉(zhuǎn)載發(fā)布。

“Peak Labs”公司近日發(fā)布了其人工智能系統(tǒng) Magi 的公眾版“ magi.com ”。通過這一搜索引擎,用戶輸入關(guān)鍵詞,即可獲取 Magi 從互聯(lián)網(wǎng)文本中自主學(xué)習(xí)到的結(jié)構(gòu)化知識和網(wǎng)頁搜索結(jié)果,每個(gè)結(jié)構(gòu)化結(jié)果后面都會附上來源鏈接和其可信度評分。

這跟我們使用的傳統(tǒng)搜索引擎不同,傳統(tǒng)搜索引擎返回的是一系列的鏈接,要解讀問題,還需要自己去點(diǎn)擊網(wǎng)頁挖掘有用信息。

這一引擎發(fā)布后,引來大批網(wǎng)友圍觀,將它的服務(wù)器玩掛了。Magi 作者發(fā)微博做了回應(yīng):“突然很多人關(guān)注到了我們,真的很感謝大家,其實(shí)搜索引擎真的不是我們的主業(yè),我們自己沒做任何推廣,更沒來得及準(zhǔn)備應(yīng)對這恐怖的流量……Magi 單次搜索的計(jì)算量比一般的網(wǎng)頁搜索要重很多,請大家手下留情,同時(shí)再次表示抱歉!”

magi.com 的結(jié)果中,答案在搜索框的正下方,鏈接則在頁面右邊,跟主流搜索引擎的用戶界面相反。如在 magi.com 里搜索“編程語言”,出來的首先是各種主流編程語言的合集:C#、Python、Java、JavaScript…同時(shí)給予“編程語言”這個(gè)詞以“描述”和“屬性”解釋。紅黃綠的顏色代表 Magi 給出的可信評分級別。

在答案的右側(cè)提供了一些鏈接,用鼠標(biāo)劃過它們即可看到,答案是從哪個(gè)具體的來源學(xué)習(xí)到的:

Magi 的關(guān)注點(diǎn)在用戶搜索行為的本質(zhì),相對傳統(tǒng)搜索引擎來說做了一點(diǎn)小改進(jìn) :“幫你思考”。當(dāng)輸入想了解事物或信息,傳統(tǒng)搜索引擎給出的是按照結(jié)果的權(quán)重 (Page Rank) 展現(xiàn)的鏈接信息,需要自己去歸納和判斷可信度。Magi 多做了一步,不僅收錄互聯(lián)網(wǎng)上的海量文本,還會去嘗試?yán)斫獠W(xué)習(xí)這些文本中蘊(yùn)含的知識和數(shù)據(jù)。

季逸超表示,Magi 類似于民用版的 IBM Watson 或非學(xué)術(shù)版的 Wolfram Alpha。Wolfram Alpha 是一個(gè)讀得懂你提問的搜索引擎,它的目標(biāo)是“計(jì)算一切” 。按照發(fā)明者 Stephen Wolfram 的說法,它是一個(gè)計(jì)算知識引擎,而不是像百度或者谷歌那樣的搜索引擎。簡單地說來,它其實(shí)是一個(gè)繪圖計(jì)算器、參考書圖書館、以及搜尋引擎的綜合體,非常超前。

除了直接給出計(jì)算結(jié)果,Wolfram Alpha 還能夠處理基于自然語言的事實(shí)問答問題,例如:

  • 如果輸入“China GDP”,出現(xiàn)的將不是一大堆網(wǎng)頁,而是直觀的數(shù)據(jù)和圖表。包括:中國 GDP 最新情況,從 1970 年至今的中國 GDP 增長情況(圖表形式)、中國通貨膨脹率、失業(yè)人口率。

  • 如果輸入“How many people in China”,你可以看到當(dāng)前中國的總?cè)丝跀?shù)、人口密度、平均每年人口增長率、預(yù)期壽命和平均年齡等數(shù)據(jù)。

Magi 的背后

Magi 來自中國團(tuán)隊(duì) Peak Labs,創(chuàng)始人季逸超在開發(fā)者圈子內(nèi)也小有名氣。2011 年,還在北大附中讀書期間,他就獨(dú)自完成了猛犸瀏覽器 iOS 的開發(fā)。2012 年,季逸超創(chuàng)辦了自己的公司,繼續(xù)推動瀏覽器和輸入法項(xiàng)目。目前,Peak Labs 主要精力都放在 Magi 項(xiàng)目上,專注于背后的技術(shù),以及相關(guān)商業(yè)產(chǎn)品的開發(fā)。

“我們真正做商業(yè)化的,是 Magi 背后的技術(shù)——基于遷移學(xué)習(xí)的開放信息提取!盡agi 采取的遷移學(xué)習(xí) NLU 算法,具有的優(yōu)勢在于只需使用通用數(shù)據(jù)訓(xùn)練 AI 引擎,就能使 AI 引擎很好的適用專業(yè)垂直領(lǐng)域。Magi 首先使用互聯(lián)網(wǎng)知識和自有的數(shù)據(jù)進(jìn)行預(yù)訓(xùn)練,而專業(yè)垂直領(lǐng)域的任務(wù)僅需極少量人工數(shù)據(jù)標(biāo)注,就能達(dá)到大規(guī)模數(shù)據(jù)的訓(xùn)練效果。

季逸超在知乎上給出了詳細(xì)而全面的技術(shù)解讀

 一、利用率和通用性

Magi 不再依賴于預(yù)設(shè)的規(guī)則和領(lǐng)域,“不帶著問題” 地去學(xué)習(xí)和理解互聯(lián)網(wǎng)上的文本信息,同時(shí)盡可能找出全部信息 (exhaustive) 而非挑選唯一最佳 (most promising)。Magi 通過一系列預(yù)訓(xùn)練任務(wù)淡化了具體實(shí)體或領(lǐng)域相關(guān)的概念,轉(zhuǎn)而學(xué)習(xí) “人們可能會關(guān)注內(nèi)容中的哪些信息?”。為 Magi 設(shè)計(jì)了專門的特征表達(dá)、網(wǎng)絡(luò)模型、訓(xùn)練任務(wù)、系統(tǒng)平臺(下面都會講到),并投入大量精力逐漸構(gòu)建了 proprietary 的專用訓(xùn)練 / 預(yù)訓(xùn)練數(shù)據(jù)。Magi 通過終身學(xué)習(xí)持續(xù)聚合和糾錯(cuò),為人類用戶和其他人工智能提供可解析、可檢索、可溯源的知識體系。

 二、覆蓋率和時(shí)效性

配合自家 web 搜索引擎以評估來源質(zhì)量,信息源和領(lǐng)域不設(shè)白名單,綜合 Clarity(清晰度)、Credibility(可信度)、Catholicity(普適性)三個(gè) Magi 權(quán)衡知識工程的規(guī)模化和準(zhǔn)確性難題的量化標(biāo)準(zhǔn)來進(jìn)行來源質(zhì)量評估。且注重時(shí)效性,時(shí)效性體現(xiàn)在上文提到的對既有知識的時(shí)間線追蹤,做到不再周期性觸發(fā) batch 更新,整個(gè)系統(tǒng)持續(xù)在線上學(xué)習(xí)、聚合、更新、糾錯(cuò)。

 三、可塑性和國際化

沒有前置 NER 和 dependency parsing 等環(huán)節(jié),減少母文本信息的損失。為 Magi 的提取模型設(shè)計(jì)了專用的 Attention 網(wǎng)絡(luò)結(jié)構(gòu)以及數(shù)個(gè)配套的預(yù)訓(xùn)練任務(wù)。技術(shù)棧完全 language-independent,可以實(shí)現(xiàn)低資源和跨語言 transfer。

它做對了什么?

Magi 官網(wǎng)和季逸超自己也坦承還存在一些不足,比如消歧義、工程性,以及規(guī);蜏(zhǔn)確度等。對于搜索慢的問題,季逸超在微博中說,這是由于單次搜索的計(jì)算量比一般的網(wǎng)頁搜索要重很多。Magi 搜索結(jié)果目前還不夠好,但這也不妨礙它成為一個(gè)未來的搜索引擎方向,給用戶提供一個(gè)可信任的和理解學(xué)習(xí)之后的知識。特別是發(fā)展在這個(gè) AI 時(shí)代,搜索引擎的結(jié)果更應(yīng)該貼近用戶的需求。

現(xiàn)在的主流搜索引擎依靠機(jī)器抓取,建立在超鏈分析基礎(chǔ)上的網(wǎng)頁搜索,采用搜索爬蟲和排序算法的組合,以關(guān)鍵詞為核心自動檢索,實(shí)現(xiàn)海量信息的自動獲取與重要性排序。作為獲取信息的入口,它直接關(guān)系到我們獲取的信息的質(zhì)量,也成就了早期的互聯(lián)網(wǎng)公司。

但現(xiàn)在搜索引擎的過度商業(yè)化操作已經(jīng)引起了用戶的反感。Magi 的優(yōu)勢在于去除了商業(yè)化的元素,篩除了廣告,使搜索到的信息更純粹,更有價(jià)值,節(jié)省用戶的時(shí)間。

季逸超在他的微博里說道:“現(xiàn)在的 Magi 飽含一個(gè)工程師樸素的初心,既不想拿廣告惡心你,也對你的隱私毫無興趣!

Magi 引擎的“火”,說明了搜索引擎在向更好的方向發(fā)展。

標(biāo)簽: Magi 搜索引擎 中文搜索引擎 

版權(quán)申明:本站文章部分自網(wǎng)絡(luò),如有侵權(quán),請聯(lián)系:west999com@outlook.com
特別注意:本站所有轉(zhuǎn)載文章言論不代表本站觀點(diǎn)!
本站所提供的圖片等素材,版權(quán)歸原作者所有,如需使用,請與原作者聯(lián)系。

上一篇:用戶復(fù)購達(dá)3年,我估計(jì)能拿下20億大市場:花田小憩的私域流量打法

下一篇:飲鴆止渴的高福利運(yùn)營:為什么玩家一邊拿福利,一邊罵我?