2018年初,「甲子光年」曾發(fā)布《“數據折疊”:今天,那些人工智能背后“標數據的人”正在回家》。勞動密集型是人們對數據標注行業(yè)的固有印象,基層數據標注員被視為數據時代的“隱形人”,他們的工作日常就是坐在擁擠的小房間里,不停地按動鼠標,框取對象,依靠微薄的月薪在繁華的大城市里找到自己立足的一席之地。
而不久前的一個周三,「甲子光年」在位于房山的云測數據標注基地看到了另一種行業(yè)作業(yè)形式。
云測數據的其中一個標注基地是坐落于房山區(qū)北京金融安全創(chuàng)意產業(yè)園的一幢四層半高的小樓,一半是開放式辦公區(qū)域,另一半是按項目組設置的封閉房間,除了房間四角安裝的監(jiān)視器之外,跟普通的創(chuàng)業(yè)孵化園區(qū)并沒有太大區(qū)別。
第三層主要處理對安全性較高的數據標注業(yè)務,設了門禁,需要通過指紋識別才能進入。
標注員李楠(化名)告訴「甲子光年」,兩個月前,她剛從數據標注員升級為質檢員。
她在大董村跟同學合租了一個20平的開間,起初是四人合租,漲薪之后變成兩人。她每天上午步行十分鐘到基地上班,偶爾也需要加班。閑暇時間,她會練練手卷鋼琴緩解工作壓力。
云測數據房山數據標注基地的磚紅色大樓,每日吞吐著數百名數據標注人員。這里不僅是他們的工作地點,也是他們周末的燒烤聚會地。
從業(yè)者生活和工作方式改變的背后是數據標注行業(yè)拐點的到來:蠻荒時代正在過去。
智研發(fā)布的數據標注行業(yè)報告指出,2018年我國數據標注與審核行業(yè)規(guī)模達到52.55億元,其中34%左右的業(yè)務量流向專業(yè)做數據采標的第三方公司。
「甲子光年」觀察到,供給側的馬太效應開始顯現,體量較大的公司呈現出兩種業(yè)態(tài):一是眾包平臺、二是定制化服務。
在眾包賽道上,已誕生了Scale AI、Appen為代表的明星獨角獸。而定制化服務模式對企業(yè)管理和標注員的要求較高,代表玩家包括云測數據、百度。
本篇,「甲子光年」以提供定制化標注服務的云測數據為例,看數據標注自營模式的發(fā)展與挑戰(zhàn),以及數據標注的未來圖景。
成立于2011年的Testin云測公司,以應用測試服務起家;2017年正式啟動了數據標注業(yè)務。截至目前,云測數據已擁有近千名全職數據服務人員,服務領域包括自動駕駛、智能家居、智慧城市、智能金融和新零售等領域,客戶數量已達數百級,標注業(yè)務客單價已達百萬級。
「甲子光年」采訪了云測數據總經理賈宇航、云測數據交付負責人朱文輝、Testin云測CMO張鵬飛、IDG資本???、品覽創(chuàng)始人兼CEO李一帆、某Robo-taxi公司深度學習技術負責人Ted(化名)及多位數據標注從業(yè)者,并實地走訪了云測數據標注基地,發(fā)現數據標注行業(yè)的以下趨勢正逐漸顯現:
第三方數據服務的外包公司正在數據標注行業(yè)中獲得更多市場;效率、安全等因素綜合而成的性價比成為當下競爭核心;在定制化服務的模式中,工具提效和管理優(yōu)化成為構筑效率壁壘的關鍵。
1.拐點將至
Garbage in, garbage out.
數據、算力、算法是推動人工智能技術進步的“三駕馬車”,其中數據是人工智能行業(yè)的發(fā)展基石,數據對人工智能很重要,“沒有好的數據,人工智能沒有未來”早已是行業(yè)共識。
新變化在于,隨著人工智能技術落地場景,不同場景提出了更高質量、更多元的數據需求。
對視覺數據標注需求非常大的自動駕駛領域,很好地展現了數據標注服務的業(yè)態(tài)變化。
在2016年,人工智能隨AlaphGo強勢崛起并引發(fā)一系列創(chuàng)業(yè)、創(chuàng)新活動后,數據標注迎來第一次真正意義上的爆發(fā),但由于當時各公司的人工智能業(yè)務多處于“跑Demo"、“做研發(fā)”的落地前環(huán)節(jié)——在質上,用標準數據集就可滿足;在量上,規(guī)模也不可與現在相比。
所以當時的數據標注行業(yè)門檻較低,小作坊遍地開花,被視為“人工智能背后的富士康工廠”,標注人員也魚龍混雜?!讣鬃庸饽辍笷A副總裁李世民介紹,在粗放期,數據標注的工作頁面和網頁版PS十分相似,重復性的簡單拉框就能實現項目需求,一張圖的價格不過幾分錢,外包商全靠數量獲取微薄利潤。
而以Waymo、小馬智行、文遠知行等為代表的做L4級自動駕駛系統(tǒng)的公司或其他對數據有較高要求的公司,則多在內部建立標注團隊,解決前期的標注問題。
然而,從近兩年的市場數據來看,第三方數據標注與審核公司開始變多;原本十分分散的數據標注行業(yè)走向專業(yè)化的拐點正在發(fā)生。
智研統(tǒng)計數據顯示,2018年我國數據標注與審核行業(yè)規(guī)模達到52.55億元,約34%的業(yè)務量流向專業(yè)做數據采標的第三方公司。
其中,專業(yè)第三方數據標注與審核公司的業(yè)務增速始終維持在全行業(yè)的最高水準,超越行業(yè)平均值、人工智能企業(yè)內部標注和人工智能外包公司相應業(yè)務增速;即便在增長相對放緩的2017-2018年也高達88.11%。
這背后有三大驅動力。
一是成本問題——這是專業(yè)第三方公司相比于自營的優(yōu)勢:隨著數據量越來越大,如果雇傭大量人力進行數據標注,大多數人工智能公司都無法攻克人員管理的挑戰(zhàn)和承擔隨著數據量增長的巨額薪資。
二是質量問題——這是更成規(guī)模的專業(yè)第三方公司相比于外包小作坊的優(yōu)勢,自營數據團隊的第三方模式在這一點上尤為明顯;因為散兵游勇和小型工作室,較難在崗前培訓、質量控制和數據安全上做足夠的投入。
三是客戶結構改變帶來的新機會——即除了人工智能公司或有相關業(yè)務的科技公司外,各行各業(yè)的企業(yè)都開始更多投入數字化和人工智能,其中部分企業(yè),一方面有對外采購技術服務的習慣和流程,一方面又缺乏非常先進、成熟的內部人工智能技術,比如無法像很多人工智能公司那樣,快速開發(fā)自己的標注提效工具,這類公司會更加倚重專業(yè)的第三方服務,這擴大了整體市場規(guī)模。
對數據標注需求大且復雜的自動駕駛公司也逐漸從最初的主要依靠自有團隊標注轉向部分采購第三方服務。
某Robo-Taxi公司深度學習技術負責人Ted(化名)告訴「甲子光年」,現在,公司內部的數據團隊除了數據檢查,還會負責比較特殊的數據類型標注,但需要大量數據的方向,會找外包公司。
“對于Robo-taxi這種比較specific(專業(yè))的產業(yè)來說,最終目標是實現100%的無人駕駛,這意味著我們的模型不能出錯。”Ted解釋:“但再高精度的機器算法,再全面的傳感器設置,也只能保證95%的準確率,要想更上一層樓,必須依賴更精準的標注數據用于算法提升。”
需求側的變化,傳導到供給側,引起了一輪洗牌。
一方面,馬太效應日顯。
誕生于硅谷的Scale AI,在短短三年內,成長為市值破十億美元的明星獨角獸,而今年的銷售額已增長至近億美元,4個月前,還宣布完成了1億美元的C輪融資。國內巨頭的增速同樣亮眼,例如Testin云測旗下數據標注品牌“云測數據”,業(yè)務規(guī)模量每年都在以倍數的規(guī)模增長。而據艾瑞咨詢最新報告顯示,2018年中國人工智能基礎數據服務年復合增長率為23.5%,數據標注賽道主要玩家的增速遠高于行業(yè)平均水平。
另一方面,更多類型的玩家都想來分一杯羹:
國際巨頭亞馬遜、Appen早早入場,已在數據標注市場占據一席之地。國內BAT等老牌互聯(lián)網巨頭也將數據標注納入自己公司的業(yè)務范圍,成立項目組(部),對內降本,對外創(chuàng)收,如阿里數據和京東眾智。
近來,行業(yè)頭部企業(yè)進一步涌現,如2015年成立的Scale AI,3年躋身獨角獸;以測試起家的Testin云測在2017年積極布局數據標注領域。
仔細分析這些主要玩家,其實模式主要有兩種:一是眾包平臺,二是自營團隊。
前者以“需求公司——標注公司作為數據標注平臺——第三方標注團隊協(xié)作”為主要結構,起到串聯(lián)有數據標注需求的客戶以及零散的大眾志愿者的作用。
后者則省卻了中間眾包商環(huán)節(jié),形成“需求公司——數據標注公司”的垂直結構。
“目前,大多數公司采用眾包模式,國際上大名鼎鼎的如Scale AI、Amazon Mechanical Turk以及澳洲Appen走的都是這條道路。”李世民說。
而云測數據,則選擇了玩家更少、專業(yè)性更高的一條路——定制化數據服務。
云測數據的選擇來自對市場和自身的思考、判斷。
“兩種模式其實是共存的,客戶可以根據自身需求進行取舍。”云測數據交付部門負責人朱文輝評價道,但就當前標注規(guī)則愈加復雜、交付周期縮短且對安全性要求提高的市場趨勢來說,定制化模式更有前景。
云測數據總經理賈宇航告訴「甲子光年」,隨著人工智能對數據采標的復雜度和精細度要求變高,眾包在現有技術條件下,很難實現品控。
“以人臉識別為例,以前的需求是拉框、標注五官,現在需要標注幾百個點,精確到3-5像素以內。”賈宇航補充說:“我們希望通過精準高質、獨立安全的數據幫助客戶快速構建核心壁壘。”
此外,云測數據從測試業(yè)務中繼承了to B的企業(yè)基因,一方面積累了品牌口碑和客戶資源,另一方面也貫徹了嚴格把控質量的管理風格,這也是云測數據入局數據標注的優(yōu)勢所在。
Testin云測投資方,IDG資本??饪偨Y道,效率和貼合度是當前數據標注供應商競爭的核心:“定制化可以用最高效的方式提供人工智能落地前最后一公里的數據服務。”
他認為,隨著人工智能產品進入落地多元行業(yè)和場景,作為人工智能算法的“養(yǎng)料”,數據也向著場景化發(fā)展??梢哉f在算法、算力沒有重大突破的前提下,場景化的數據就是核心優(yōu)勢。因此貼合度較高的定制化服務能力就顯得尤為重要。
2.雙面“做重”
從實踐效果看,云測數據的選擇在市場和客戶之中獲得了很多良性反饋。
“我們的業(yè)務規(guī)模量每年都在以倍數的規(guī)模增長。”賈宇航告訴「甲子光年」,云測數據標注服務了安防、駕駛、金融、家居等領域的上百家企業(yè)。
“自動駕駛產業(yè)是比較適合定制化服務的。”Ted表示將跟云測數據建立長期的合作關系。
Ted接觸過很多數據標注供應商,包括硅谷的Scale AI,國內的云測數據、BasicFinder和百度數據等,他采取“試標注”這種遍地撒網的方法——將相同的標注樣本給到不同的標注公司,根據標注結果擇優(yōu)合作——挑選最具“性價比”合作伙伴。
作為客戶,Ted認為,首先,打價格戰(zhàn)的時代已經過去了,同一價格區(qū)間內,質優(yōu)者勝。
“質量代表著速度。”李世民解釋說,人工智能工程師的時薪很高,企業(yè)雇傭他們處理數據的成本也很高,一旦數據失準,在上游的數據標注和下游的人工智能工程師兩端,會產生雙重的成本浪費。
例如,在一個機器學習的完整工作鏈條中,數據清洗和標注在總任務中所占的時間比例超過50%。如果無法保證數據的準確性,便會出現無效訓練和無限返工的惡性循環(huán),對寸時寸金的人工智能公司行業(yè)而言,這無疑會造成巨大的負面影響。
“畢竟是勞動密集型工種,定制化的人員培訓很重要。在全景標注和3D點云這類難點項目上體現得尤為明顯。”Ted補充說,全景圖中標的物多且雜亂,稍不注意就會有錯漏,整張圖都要打回重標;3D點云中,距離較遠的物體點數較少,很難識別,更別提辨別朝向了。
一張全景分割或3D點云的標注單價高達20-30元(價格以項目需求為準,不作為行業(yè)參考價),但Ted看來,“即便價格高一點,我也愿意跟云測數據這樣互動性強、準確度高、保密性好的數據標注公司合作。”
其實,對于整個人工智能行業(yè)來說,高質數據的價值都在日益凸顯。
曾負責過企業(yè)軟件采購的朱文輝,對成本和質量的取舍之道很有心得:“手頭也有過幾百上千萬的預算,特別明白客戶的心態(tài)——寧愿多付錢也要質量過關的產品。”
其次,在選擇供應商時,互聯(lián)網巨頭不如獨立第三方數據標注公司吃香。
“大廠的業(yè)務水準雖然非常advanced(先進),但考慮到母公司可能也有自動駕駛的團隊或業(yè)務,難免會擔心自家數據被拿去訓練別人的模型;再加上要價不菲,所以合作并不多。”
Ted繼續(xù)補充,如果跟第三方數據標注公司合作,就不用擔憂這種問題。他們要價合理,而且既不會把數據外泄,也不會自用。
最后,固定數據標注團隊的優(yōu)勢還在于,長期服務某類項目能實現自我迭代。
專注于人工智能視覺領域的物品識別的品覽數據科技也是云測數據的客戶之一,其創(chuàng)始人兼CEO李一帆認為,對于一些需要搭建測試環(huán)境、要求專業(yè)知識儲備或涉及復雜場景的數據標注任務來說,標注人員培訓成本較高,如果長期有這樣高價值的標注需求,定制化的性價比反而更高。
把數據效率放在第一位的自營團隊,很擅長應對這類需要專人快速響應的標注需求。
朱文輝告訴「甲子光年」,近年來,客戶面臨的競爭壓力變大,花錢更為謹慎。雖然整個市場對數據標注的需求在上升,但場景差異變大,相應地人力成本也在上升。“量小、批次多、難度大是整個數據標注市場的大趨勢。”朱文輝補充道。
另外,自營團隊一般會根據項目組織人員,在兩三批數據的交付之后,標注員會變得更加熟練,效率也會自然跟著提高。
但任何一種模式都是雙刃劍,定制化也有挑戰(zhàn)和短板,即人工成本和管理成本高,且應對需求的彈性不足。
對標Scale AI的Graviti創(chuàng)始人崔運凱評價說:“定制化模式對抗業(yè)務潮汐的能力較差。”
需求的彈性會導致自營團隊模式出現人員冗余或人員短缺的問題,任務分發(fā)上不如眾包公司靈活;人力成本也高,尤其隨著數據標注團隊的線性擴張,管理團隊層級會增多,人數會指數級增長。
3. 效率壁壘
經緯的創(chuàng)始合伙人張穎曾對創(chuàng)業(yè)公司提出短中期內最有意義的七條建議,第一條便是:所有輕公司以后都會做重,也必須做重,只有做重才能有效抗拒巨頭殺入,也唯有如此才能做大。
其實不管是重的定制化服務,還是輕的眾包平臺,表面的輕重之外,真正核心的是滿足市場當下需求與公司自身效率之間的平衡。
從需求的角度來說,目前市場的兩個特點,能一定程度上自然規(guī)避定制化的弊端。
首先,整個市場仍在放量增長,尤其是傳統(tǒng)行業(yè),會成為數據標注的新增長引擎。
2017年賈宇航從Testin云測北美事業(yè)部回到北京總部,并與很多美國的人工智能從業(yè)者都保持著密切聯(lián)系,他認為中國市場具有獨特性,傳統(tǒng)行業(yè)智能化升級對數據標注市場的拓展?jié)摿Σ豢尚∮U。
在五年的旅美生涯中,賈宇航觀察到,中國人的模式創(chuàng)新意識更強,更容易出現分散式的產業(yè)革新,“美國全靠Google和Amazon這樣的巨頭帶動,相比之下,中國人工智能落地的動力多了一級,這將是一個高新科技產業(yè)和傳統(tǒng)產業(yè)相向而行的過程,其中的市場空間是無窮的。”
隨著人工智能在金融、醫(yī)療、安防等多個領域實現技術落地,人工智能公司對數據的使用逐漸有“大”的趨勢,整個行業(yè)正在逐漸向多模態(tài)、多場景、高精度的方向發(fā)展。
基于這一洞察,企業(yè)服務型公司Testin云測擴展了數據標注業(yè)務品牌云測數據,通過自建數據場景實驗室和數據標注基地,為智能駕駛、智能家居、智慧城市、智慧金融、新零售等領域提供定制化的數據采集、數據標注服務。今年早些時候,Testin云測CTO陳冠誠曾在采訪中表示,云測數據在AI數據采集標注行業(yè)將繼續(xù)扮演“同行者”的角色,除了滿足客戶的需求之外,還希望提供更高效率的服務:“我們一直在用工程化迭代的技術不斷改進采集標注的流程效率、加快人工標注速度。”
其次,當前市場還處于藍海,所以潮汐現象和浪費不明顯。
提及業(yè)務潮汐的風險,賈宇航答道:“我認為這個問題目前不對我們造成任何困擾,市場供需極不平衡,打個比方,我們和客戶之間比較類似高精尖企業(yè)和人才之間的供給關系,需求遠大于供應量。”
很多數據標注從業(yè)者也有類似的評價,有人將數據標注市場形容成“一片商業(yè)藍海”,也有人說“同行之間甚至都算不上競爭對手”。
說法大同小異,結論卻很一致:目前人工智能行業(yè)對精確優(yōu)質、安全獨立的數據標注服務需求極大。
Testin云測CMO張鵬飛也強調,“從整體看來,AI數據行業(yè)關于安全、隱私等方面并沒有統(tǒng)一的標準和強調重視。但從我們長遠角度出發(fā),一直在隱私和安全防護角度下大力氣服務行業(yè)、樹立數據質量標桿,只有以這種負責的態(tài)度來服務客戶,我們的行業(yè)才能‘良幣驅除劣幣’,真正讓人工智能成為新一輪技術革命,改變整個社會和人類進程”。
整個行業(yè)在可預見的很長時間內都會處于供不應求的賣方市場。
此外,對于Testin云測這一類企業(yè)服務賽道上的明星玩家來說,此時入場擴張數據標注業(yè)務更是近水樓臺先得月——他們以往的測試等業(yè)務已積累了一批現成的渠道商。
連續(xù)創(chuàng)業(yè)者李一帆起初是Testin云測測試業(yè)務的客戶,2018年成立品覽后有了數據標注的新需求,他選擇了跟“老伙計”Testin云測繼續(xù)合作。
“其實我也向其他數據標注公司詢過價,最終選擇云測數據是出于兩方面的考慮。”李一帆解釋道:“一是因為更換合作機構的切換成本和溝通成本太高;二是相對于其他數據標注機構,對云測數據的專業(yè)度和服務質量比較了解,更看好云測數據的質量和安全性把控,和對人工智能行業(yè)的前瞻思考,也更有信心。”
云測數據的人工智能數據團隊運營至今已制定了一套包含任務分配、需求分析、需求確認、數據清洗、試標確認、進度控制、質量保障等流程的完整作業(yè)體系。
??庠u價道,Testin云測一開始更多的是提供基于質量工程化的服務,隨著人工智能時代的到來,對人工智能企業(yè)提供數據服務,實際上也是在加速移動互聯(lián)網、產業(yè)互聯(lián)網、人工智能產業(yè)的生命周期。
朱文輝告訴「甲子光年」,就整個數據標注市場而言,合作與競爭都是下一個階段的議題,同行還在自覺共建行業(yè)生態(tài)和品牌聲譽,“把蛋糕做大”才是當前的發(fā)展重心。
此外,自營團隊做定制化數據服務,是不是一定效率低下?
可以用制造業(yè)來類比,半手工的作坊和機器大工業(yè)生產,雖然同屬“制造”,但效率天差地別。差距由兩個關鍵因素導致,一是自動化水平,也就是工具提效;二是生流程管理——云測數據在這兩方面都已有較多探索。
在工具提效方面,云測數據自研了一套可以支持圖片、語音、文本等多品類的標注工具,并開發(fā)了三維標注工具,尤其是在3D點云的標注系統(tǒng)中優(yōu)化了渲染引擎,保證整個過程的流暢和快捷,當屬業(yè)內領先。
“我們注意到在3D點云連續(xù)幀標注時,前后幀的切換非常耗時,云測數據的web GL工程師通過自研渲染工具把緩沖時長縮減至十分流暢。”賈宇航在北京總部向「甲子光年」展示了優(yōu)化之后的標注工具。
據朱文輝介紹,云測組建了一支專門的研發(fā)團隊,“研發(fā)團隊里有產品經理、前后端工程師”等,他們會針對不同領域循環(huán)式地改進標注工具,并根據客戶需求,實時反饋、實時更新、實時研發(fā)。“平均每季度或更快有一次較大的迭代。”朱文輝回憶道:“迭代之后有些領域的效率提高了三倍不止。”云測數據從啟動伊始,就十分重視技術提效,陳冠誠曾在采訪中提及:“(云測)數據采集標注的客戶遍布各行各業(yè),對于文本數據、語音數據、視頻數據甚至是激光雷達的3D點云數據,我們都可以用工程化迭代來做高效的標注和流程管理,提高效率,幫助客戶成功。”在流程管理方面,云測數據也建立起一套包含崗前培訓、早部署晚復盤、分項目人工質檢的管理系統(tǒng)。朱文輝告訴「甲子光年」,目前云測數據在華東、華北、華南共設有三個標注基地,還有幾個基地在部署中,現在共有千人規(guī)模左右的數據服務人員。“新人都會經過兩個月的崗前培訓”,朱文輝說,隨著行業(yè)要求的提高,人員也在更新?lián)Q代,我們的激勵機制和晉升機制比較完善,還提供園區(qū)食堂的餐補,年輕人的離職率并不高。”
除了積極招兵買馬,云測數據還有相當一部分的項目經理是從傳統(tǒng)制造業(yè)轉型而來,“這些人很懂環(huán)環(huán)相扣的流程管理,對包括風險、成本等流程節(jié)點的控制很在行。”朱文輝補充道。
??夥Q:“云測數據的數據服務優(yōu)勢,除了數據質量、規(guī)?;酝?其效率優(yōu)勢也很突出,因為企業(yè)產品都有對應的發(fā)布周期,對效率的要求也會越來越高。”
朱文輝認為,誰能優(yōu)先突破認知效率、管理效率和標準化,誰就很有可能在一眾數據標注公司中拔得頭籌。
4.進化:新物種的可能性
從整個數據標注賽道來看,這個此前”隱于聚光燈之外”的行業(yè),正在走向大眾的視野,展現更多可能性。
一是可預測的,數據量的爆發(fā)增長。
當前,人工智能正全面加速產業(yè)落地。德勤預測,2025年世界人工智能市場將超過6萬億美元,2017-2025年人工智能復合增長率將達30%。
賈宇航認為5G到來之后,整個人工智能行業(yè)數據量將會向橫、縱拓展。
橫向拓展,是人工智能從科技公司走入各行各業(yè)公司。
比如賈宇航告訴「甲子光年」,云測數據大部分的客戶來自智慧城市和駕駛等與人工智能結合緊密的領域,但一個明顯的新發(fā)展是,來自金融、家居等傳統(tǒng)行業(yè)的客戶正逐漸增加,而在兩年前,這類客戶的占比幾乎為0。各行各業(yè)的數字化、智能化,很可能成長為新的增長點。
縱向的拓展則是,隨通信、芯片等基礎設施的發(fā)展,物聯(lián)網潮流下,硬件、傳感器數量持續(xù)增長,相應的數據量持續(xù)增長,各行業(yè)、各場景都將經歷更深程度的數字化。
“從深度學習、機器學習的發(fā)展趨勢和應用方向可以明顯看到,不管是鉆得更深或是在應用層面鋪得更廣,我們都會需要更多數據。我覺得這個趨勢至少還能保持十幾年。”Ted相信,未來數據標注的重要性也許還會跨上一個新臺階。在現有以監(jiān)督學習為主的技術環(huán)境下,數據量爆發(fā)意味著標注需求的爆發(fā)。
二是,標注業(yè)務本身的智能化、人工智能化。
賈宇航告訴「甲子光年」,隨著算法的突破,圖像生成技術會極大地提升數據采集和數據標注行業(yè)門檻。針對企業(yè)的數據需求,將更加定制化,同時也凸顯數據需求定制中的策略性。現在的技術可以通過數據增強技術額外合成的數據來模擬移位(Translation)、視角(Viewpoint)、大小(Size)、照明(Illumination)等等條件,生成更多可用于訓練數據。具體到AI數據服務中,在數據采集和標注環(huán)節(jié),AI企業(yè)對數據服務商有更加嚴格的要求,如環(huán)境,光線,被采樣本等采集環(huán)境的搭建。AI企業(yè)擁有這些純凈數據,可以更加有效的拓展更多數據,達到數據增強的目的。
例如,“通過定制化的數據采集方法,客戶可以規(guī)定特定的光線角度和綠墻背景,得到一組可塑性較強的原始數據,再通過變換背景、合成光線、調轉光源角度等等方法,得到成百上千倍的衍生數據。”賈宇航也強調,這樣的元數據對相關條件的控制往往異常嚴格,因此對第三方數據標注承包商的要求也更高。
“屆時勞動密集型的產業(yè)特征將被改變,方法論和策略性將更優(yōu),采集和標注的時間成本也將大大縮小,數據標注公司有可能都將進化為高精尖的定制化團隊。”賈宇航補充道。
也有不少從業(yè)者認為預標注技術和半自動化校驗可能將推動數據標注行業(yè)進一步進化。
“在特定場景中,預標注工具把小數據變成模型再去預標,縮小人工調節(jié)的空間。”李一帆判斷,預標注技術的逐漸成熟或許會在未來大幅降低標注成本。
Ted也提到,Scale AI聚集了一幫人嘗試用算法來輔助標注,如果成功,只需幾個點,就可以生成整個面的自動標注,這將會極大地提高標注效率。
但就目前的市場現狀來看,預標注技術在很多細節(jié)上并不精準,Ted認為,距離預標注技術的應用落地,還需要很長一段時間。
在數據質檢流程上,也有用自動化技術和人工智能技術提效的空間。
“如果可以用半自動化的方式實現驗收或是自動對比,可以節(jié)省掉相當一部分管理層的人力成本。”Ted提出了另一個可能會讓數據標注行業(yè)更有效率的方式,并不是要用機器取代人工標注,而是用機器輔助人工標注。
賈宇航也有相似的觀點,他表示,云測會投入更多人力進行驗收工具的研發(fā),提升質檢效率,提高標注質量。
隨著人工智能技術與場景的結合逐漸深化,科技創(chuàng)業(yè)者們進入了一片沒有航海圖的水域,對于伴生的數據標注行業(yè)來說,未來的航程同樣值得期待。
這真像劉禹錫的那句:“沉舟側畔千帆過,病樹前頭萬木春”。
免責聲明:本網站內容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網站出現的信息,均僅供參考。本網站將盡力確保所提供信息的準確性及可靠性,但不保證有關資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責。本網站對有關資料所引致的錯誤、不確或遺漏,概不負任何法律責任。任何單位或個人認為本網站中的網頁或鏈接內容可能涉嫌侵犯其知識產權或存在不實內容時,應及時向本網站提出書面權利通知或不實情況說明,并提供身份證明、權屬證明及詳細侵權或不實情況證明。本網站在收到上述法律文件后,將會依法盡快聯(lián)系相關文章源頭核實,溝通刪除相關內容或斷開相關鏈接。