中文字幕在线观看,亚洲а∨天堂久久精品9966,亚洲成a人片在线观看你懂的,亚洲av成人片无码网站,亚洲国产精品无码久久久五月天

還覺得智能是靠人工堆出來的?AI下半場,這家公司要為數(shù)據(jù)正身

2019-07-23    來源:raincent

容器云強勢上線!快速搭建集群,上萬Linux鏡像隨意使用

記者:寧云州

數(shù)據(jù)、算法、算力是人工智能的基本三要素。在資本的催化下,算力和算法都得到了“大躍進”式的發(fā)展,但作為三要素之一的數(shù)據(jù)卻一直站在聚光燈之外。隨著AI的商業(yè)化的不斷落地,打造以數(shù)據(jù)為核心的行業(yè)壁壘已成為各大人工智能企業(yè)面前最重要、但卻最容易被忽視的環(huán)節(jié)。

26歲的單身母親Brenda住在非洲最大的貧民窟基貝拉,這也是全球最貧困的社區(qū)之一。每天早上Brenda都會乘坐公共汽車前往內羅畢東部,和她的1000多名同事一起,開始一天八小時的工作。

她的主要工作內容簡單而機械:上傳圖片,然后用鼠標機械地標記一張圖片上的所有物體——人、車輛、交通標識、道路標記,甚至天空。在這里工作八小時可以得到9美元的報酬,對于當?shù)厝藖碚f,這已是一筆可觀的收入。

 

 

能簡單控制鼠標的Brenda和她分布全球上百萬的同事們,在通過幾個小時的培訓后成為了全球人工智能產(chǎn)業(yè)鏈上最重要的環(huán)節(jié)之一。

在人工智能發(fā)展的早期,人工智能廠商通過廉價勞動力來滿足自身的數(shù)據(jù)標注需求。而Brenda和她的同事們就是這樣的勞力,是人工智能背后的“人工”。

隨著人工智能的發(fā)展迭代,這樣“粗放”的標注方式正在逐漸被淘汰。

從吃糠咽菜到山珍海味,人工智能變身挑剔老饕

作為人工智能發(fā)展最基本的三要素,數(shù)據(jù)、算法和算力三元素之間一直處于相互制約,又相互促進升級的關系。互聯(lián)網(wǎng)的誕生,讓數(shù)據(jù)處于井噴式的爆發(fā),助推了算力的提升,推動了算法的進步。而近年來生成對抗網(wǎng)絡(GANs)等技術及眾多數(shù)據(jù)采集設備的應用,用于訓練的數(shù)據(jù)可被多次復用,并與更多維數(shù)據(jù)融合進行算法訓練正在成為趨勢。使得數(shù)據(jù)需求從原來單純追求“量”轉變成追求“質量”。

隨著人工智能商業(yè)化進程的加速,輔助駕駛、客服機器人等應用已開始普及。人工智能從理論落地正逐漸走入平常百姓家。人們對于AI的能力要求,以及在實際使用中產(chǎn)品穩(wěn)定性,安全性的要求,也在逐漸提升。

安全性、穩(wěn)定性的提升,實際是在倒逼對標注數(shù)據(jù)精確度提升的,這也就對數(shù)據(jù)精度有了更高的要求。曾經(jīng)95%的數(shù)據(jù)精度就能“喂飽”的人工智能,開始需要更高精度的數(shù)據(jù)“喂養(yǎng)”,追求超高精度訓練數(shù)據(jù)已然成為了AI落地的必要因素。

如果說以前的算法使用的通用數(shù)據(jù)集是粗糧的話,那現(xiàn)在算法需要的就是定制化的營養(yǎng)餐。企業(yè)若想進一步提升模型的落地能力,必然要逐漸脫離原來的通用數(shù)據(jù)集和互聯(lián)網(wǎng)數(shù)據(jù),積極投身于定制化數(shù)據(jù)采集當中,打造數(shù)據(jù)優(yōu)勢壁壘。

數(shù)據(jù)采集進入深水區(qū):定制化數(shù)據(jù)采集成為數(shù)據(jù)獲取層面的必要一環(huán)

眾包采集和定制化采集是數(shù)據(jù)采集行業(yè)的兩種常見模式。

眾包模式的優(yōu)勢主要體現(xiàn)在樣本的豐富性和多樣性上,但對于行至今日的AI數(shù)據(jù)服務業(yè)務,通過眾包模式解決所有數(shù)據(jù)采集需求并不現(xiàn)實。

首先,數(shù)據(jù)的安全性問題很難解決:平臺用戶提供的圖片可能是未經(jīng)合法授權的,作為平臺方很難判斷用戶提供數(shù)據(jù)的來源。

此外,涉及到定制化需求的采集任務中,尤其是較為復雜的任務中,從眾包用戶采集到的數(shù)據(jù)往往差強人意,反倒增加了更多的審核成本。

更不用說有些采集需要在特定的場景內進行,具有一定的危險性(如輔助駕駛中對駕駛員行為進行采集),類似這樣的采集任務通過眾包非但達不到效果,還增加了采集用戶的風險。

 

 

圖:智能駕駛21區(qū)域定點識別采集

作為AI數(shù)據(jù)服務行業(yè)內唯一的獨角獸企業(yè),Testin云測對這個問題感同身受。一開始,只是有一些AI企業(yè)找到Testin云測,希望通過Testin云測的眾測平臺做數(shù)據(jù)采集。但隨著AI企業(yè)數(shù)據(jù)需求的不斷進化,Testin云測開始通過自建數(shù)據(jù)場景實驗室和數(shù)據(jù)標注基地,打造專業(yè)的定制化采集和高質量的標注隊伍,來幫助AI企業(yè)獲取更多優(yōu)質的特定場景數(shù)據(jù)。

場景實驗室:深挖真實數(shù)據(jù)需求,搭配穩(wěn)定被采樣本

“場景實驗室是Testin云測布局高度定制化、多模態(tài)的AI數(shù)據(jù)服務的重要組成部分,借此能使得Testin云測的交付能力與客戶需求平行,甚至領先客戶的需求一點點”,Testin云測VP賈宇航說道。

領先需求“一點點”,需要的不僅是強大技術能力和搭建能力,更要有對應用場景深入的了解。

“在一個項目中,客戶希望在不同光照條件和光照角度下采集玻璃后面的人臉數(shù)據(jù)”,賈宇航為我們舉例道:“不同于以往常見的安防攝像頭采集,這個項目中單是光源條件就分成了室內和室強光、逆光、倒光等一共24種光照條件,不僅如此,玻璃反光度、模特臉部遮擋比例值等都有嚴格的要求。”

對于這樣的定制化采集需求,場景搭建雖然非常繁瑣,但還談不上困難。然而,AI數(shù)據(jù)服務的提供商絕不應該僅僅是幫助客戶搭建場景,而是要幫助客戶找到最需要的數(shù)據(jù)結果。在這個項目中,玻璃的反光程度不僅與玻璃的材質厚度有關,也跟光源大小、光源與玻璃之間的角度和距離等一系列變量有關。Testin云測最終搭建了一個將近3000平米的場景以完成數(shù)據(jù)采集。

 

 

“只有深入理解了場景、深入理解了客戶需求,才有可能提供給客戶真實需要的數(shù)據(jù)。缺乏把握客戶真實需求的能力將會給我們帶來巨大的風險”,賈宇航總結道。

而面對越來越定制化的AI數(shù)據(jù)需求,僅僅擁有場景搭建能力也是不夠的,沒有穩(wěn)定的樣本儲備,再高超的場景搭建能力也是空談。

賈宇航為我們舉了很“簡單”的人臉表情采集的例子:“采集人臉表情是一件既簡單又困難的事情。簡單在于人群樣本并不難找,而困難則在于對著攝像頭切換不同表情并不是一件簡單的事情,能夠準確作出各種表情的人少之又少。例如‘痛苦’的表情,人類很難在沒有外界刺激的情況下憑空表現(xiàn)出來。對于這樣的需求,我們就需要更加專業(yè),配合度更高的人群樣本。場景實驗室的第二個顯著優(yōu)勢就是能夠搭配穩(wěn)定的備采人群樣本。我們剛才提到的‘表情采集’項目最終是由在浙江橫店的演員群體完成的。”

雖然被采人群在性別、年齡、人種等方面的豐富度很重要,但面對越來越精細的落地場景,人群樣本的配合度更需要相應提高,如果考慮到長尾場景,甚至需要一些專業(yè)人士來參與采集,比如演員、殘障人士等等。

不論是從最開始的“識別人的臉”到“苛刻條件下識別是誰的臉”,還是從以前的“識別表情”到“識別真實的表情”。我們總能感受到人工智能在朝著越來越細分的領域發(fā)展。

數(shù)據(jù)標注精度要求從95%上升到99%+

為了算法落地,AI企業(yè)不僅需要定制化的數(shù)據(jù)采集來獲得長尾場景的數(shù)據(jù);同時對于標注數(shù)據(jù)的精度也需要進一步提升。正如AI工程師的座右銘“garbage in, garbage out”所描述的那樣,對于模型精度要求的提高正在倒逼輸入數(shù)據(jù)的質量進一步提高。

賈宇航為我們解釋,“為了完成數(shù)據(jù)質量的跨越,我們選擇自建數(shù)據(jù)標注基地以及系統(tǒng)化流程。”

與場景實驗室的布局類似,Testin云測在全國范圍內也建立了數(shù)據(jù)標注基地。在這里,Testin云測的技術和項目管理能力能夠迅速轉換,成為具體數(shù)據(jù)標注業(yè)務中的生產(chǎn)力。

賈宇航接著說道:“為了應對專業(yè)度日益提高的標注任務,自建的數(shù)據(jù)基地能夠大幅提高數(shù)據(jù)標注的效率,在我們的標注平臺上,標注人員使用統(tǒng)一的工具在標準化的作業(yè)流程中對數(shù)據(jù)進行標注,在一些復雜任務上,甚至可以做到多人協(xié)同標注。而在無形的層面上,技術還能夠幫助我們迅速、深入地理解客戶需求,降低溝通成本。”

這種技術能力還滲透到了Testin云測的流程化管理中。通過標準化測試,標注云平臺將已經(jīng)標注完成的數(shù)據(jù)隨機安插在標注員的標注作業(yè)中,實時把握標注人員對需求的掌握情況,從而減少了質檢環(huán)節(jié)的壓力,再加上云平臺本身的輔助質檢功能,能夠更有效地保證數(shù)據(jù)的高質量輸出。

 

 

“在路況信息數(shù)據(jù)的標注作業(yè)中,每一個圖片數(shù)據(jù)包含著幾十個屬性分類,基于平臺的協(xié)同標注,標注團隊可以劃分為幾個標注小組,針對固定的幾個屬性進行標注,這樣不但提升了標注員的效率,同時配合平臺的標準化測試和輔助質檢功能,還可以有效地對標后數(shù)據(jù)進行錯標和漏標的篩查,從而確保高質高效的數(shù)據(jù)交付。”賈宇航表示。

未來:更加安全和個性化

人工智能正在逐漸從一些抽象的概念變成我們生活當中實際的應用,但階段性地來看,AI數(shù)據(jù)數(shù)量和質量的瓶頸還將持續(xù)制約行業(yè)的發(fā)展。

對于AI行業(yè)當下的發(fā)展,賈宇航也沒有掩飾自己的擔憂:“行業(yè)內客觀存在一些要求版權歸屬甲方,但乙方依然售賣多份給不同客戶的情況。而我們首先做的就是嚴格把控數(shù)據(jù)的私密性,讓擁有數(shù)據(jù)成為企業(yè)的核心壁壘,不會存在倒買倒賣等行為。同時,我們內部有數(shù)據(jù)隔離、質量保障等一系列保護數(shù)據(jù)安全的方法,可以在確保企業(yè)數(shù)據(jù)安全的情況下,持續(xù)為數(shù)據(jù)采集和標注構建和優(yōu)化自己的方案。”

盡管如此,賈宇航對于AI數(shù)據(jù)的未來依然充滿信心:“我們認為無論是過去的移動互聯(lián)網(wǎng)應用還是現(xiàn)在的AI應用都只是應用的一種,而我們想要做的事情就是幫助客戶讓其應用更有價值。從認識要用更加專業(yè)化的AI數(shù)據(jù)服務來解決越來越定制化的需求開始,我們已經(jīng)在AI真正全面落地的征途上邁出了第一步。”

標簽: 人工智能 大數(shù)據(jù)

版權申明:本站文章部分自網(wǎng)絡,如有侵權,請聯(lián)系:west999com@outlook.com
特別注意:本站所有轉載文章言論不代表本站觀點!
本站所提供的圖片等素材,版權歸原作者所有,如需使用,請與原作者聯(lián)系。

上一篇:日均處理萬億數(shù)據(jù)!Flink 在快手的應用實踐與技術演進之路

下一篇:2019年大數(shù)據(jù)產(chǎn)業(yè)規(guī)模有望達6216億元