展望2019——數(shù)據(jù)科學(xué)、機器學(xué)習(xí)&人工智能領(lǐng)域的五大預(yù)測
作者:William Vorhies
CDA數(shù)據(jù)分析研究院原創(chuàng)作品, 轉(zhuǎn)載需授權(quán)
2018年剛剛結(jié)束,在2019年到來之際,讓我們一起展望在今年數(shù)據(jù)科學(xué)、機器學(xué)習(xí)和人工智能領(lǐng)域會有怎樣的發(fā)展趨勢。
首先讓我們快速回顧一下,去年我們曾做出了哪些預(yù)測。
2018年預(yù)測回顧
預(yù)測1
模型生產(chǎn)和數(shù)據(jù)準(zhǔn)備都將越來越自動化。
大型的數(shù)據(jù)科學(xué)操作將集中在一個平臺上。這兩種趨勢都是為了提高效率,從而讓更少的數(shù)據(jù)科學(xué)家完成更多工作。
結(jié)果
預(yù)測正確。 無代碼數(shù)據(jù)科學(xué)和端對端集成平臺都處于上升發(fā)展階段。
預(yù)測2
數(shù)據(jù)科學(xué)將繼續(xù)專業(yè)化,意味著全棧型數(shù)據(jù)科學(xué)家將消失。
結(jié)果
是的。如今比起數(shù)據(jù)科學(xué)家,數(shù)據(jù)工程師更受關(guān)注。數(shù)據(jù)工程師是那些讓數(shù)據(jù)科學(xué)模型在現(xiàn)實中發(fā)揮作用的人。
預(yù)測3
非數(shù)據(jù)科學(xué)家將比數(shù)據(jù)科學(xué)家執(zhí)行更多復(fù)雜的分析。
結(jié)果
這是真的。Data Viz和Visual Analytics等技術(shù)作為橋梁,讓非數(shù)據(jù)科學(xué)家能夠從復(fù)雜的數(shù)據(jù)科學(xué)工具中獲取更多價值。
預(yù)測4
深度學(xué)習(xí)很復(fù)雜。很少有數(shù)據(jù)科學(xué)家掌握剛領(lǐng)域的技能,這將阻礙人工智能的應(yīng)用,直到深度學(xué)習(xí)平臺得到更為簡化和產(chǎn)品化。
結(jié)果
微軟和谷歌都在2018年推出了自動化深度學(xué)習(xí)平臺。這些平臺從轉(zhuǎn)移學(xué)習(xí)開始,但正朝著完整自動化深度學(xué)習(xí)發(fā)展。同時也還有一些集成自動深度學(xué)習(xí)平臺。OneClick.AI有完整的自動化機器學(xué)習(xí)和自動化深度學(xué)習(xí)平臺。
預(yù)測5
盡管有大肆宣傳和炒作,但人工智能和深度學(xué)習(xí)在各大市場中滲透的速度和廣度都比你想象更慢更窄。
結(jié)果
除了聊天機器人的出現(xiàn),人工智能在商業(yè)中的實際應(yīng)用非常有限。他們來了,但還沒有。在我知道最全面的研究表明,在大型公司中,只有五分之一到三分之一的公司在大規(guī)模實施人工智能。在較小的公司中,這個比例要小得多。而且我們不確定哪些是否是“真正的”人工智能。
預(yù)測6
政府將開始認真看待人工智能對社會和隱私的影響,無論是有意的還是無意的。
結(jié)果
只要看到這方面的新聞就會發(fā)現(xiàn),政府在針對這方面出臺相關(guān)的監(jiān)管機制。對人工智能設(shè)計的隱私等方面進行規(guī)定。
我們隊2018年的預(yù)測基本正確,當(dāng)中有些預(yù)測趨勢也可以用于新的一年,下面繼續(xù)看到對2019年數(shù)據(jù)科學(xué)、機器學(xué)習(xí)和人工智能領(lǐng)域的預(yù)測。
2019年預(yù)測
預(yù)測1:
數(shù)據(jù)變得比算法更重要
我們已經(jīng)有一年多美元在深度學(xué)習(xí)和機器學(xué)習(xí)方面取得任何重大突破了。當(dāng)中也有一些漸進式的改進,比如使用時間卷積網(wǎng)(TCN)而不是RNN來減少NLP的延遲,但沒有很大的新創(chuàng)新。性能最佳的算法很有名,或者可通過自動機器學(xué)習(xí)輕松發(fā)現(xiàn)。
目前,隨著公司開始實現(xiàn)數(shù)字化轉(zhuǎn)型,擁有更多更好的數(shù)據(jù)是成功的關(guān)鍵。實際上,這為同時想多個方向提供數(shù)據(jù)相關(guān)解決方案的提供了競爭機會。
一個方面,獲得準(zhǔn)確標(biāo)記的圖像或文本的訓(xùn)練數(shù)據(jù)仍然非常昂貴且耗時。Figure Eight這樣專注于標(biāo)記數(shù)據(jù)的公司正在推廣智能的成本效益策略,比如Active Learning,讓你在標(biāo)記數(shù)據(jù)和模型準(zhǔn)確性之間取得最佳權(quán)衡。這涉及多次迭代,添加人工標(biāo)記或機器標(biāo)記的數(shù)據(jù),然后重新訓(xùn)練以找到最佳方案。
第二個方面是訪問第三方數(shù)據(jù)。像DymstData這樣的服務(wù)公司已經(jīng)進入該領(lǐng)域,作為數(shù)百種附加數(shù)據(jù)的結(jié)算方。他們還承擔(dān)著確保敏感PII受到保護等服務(wù),這些信息在金融和醫(yī)療服務(wù)中尤為重要。
第三個方面是自動跟蹤并記錄模型中使用數(shù)據(jù)的來源。特別是當(dāng)不同來源的流數(shù)據(jù)被集成,且隨時間變化時,知道其來源以和
使用方式對準(zhǔn)確性和合規(guī)性都是至關(guān)重要的。Tibco和其他分析平臺正在整合此功能。
圍繞數(shù)據(jù)的服務(wù)產(chǎn)品在今年將大幅擴展。
預(yù)測2:
隨著人工智能和機器學(xué)習(xí)從分析平臺轉(zhuǎn)移到行業(yè)或流程特定應(yīng)用,一切將變得更容易。
縱觀人工智能和機器學(xué)習(xí)創(chuàng)業(yè)公司,可以看到競爭正在轉(zhuǎn)向行業(yè)或流程特定的應(yīng)用。這些應(yīng)用程序或小型平臺主要解決市場營銷、B2B銷售、醫(yī)療保健、金融技術(shù)等行業(yè)特定問題。
這些新應(yīng)用程序?qū)W⒂谇度肴斯ぶ悄芎蜋C器學(xué)習(xí),從而企業(yè)在進行更新和改進時,只需依賴這些開發(fā)人員,而無需大型內(nèi)部數(shù)據(jù)科學(xué)家團隊。
有人將這稱之為人工智能和機器學(xué)習(xí)商品化,但更準(zhǔn)確地說,你可以將其視為人工智能和機器學(xué)習(xí)的專業(yè)化。
如果你熟悉90年代后期從流程再造(Reengineering)到企業(yè)資源計劃(ERP)的過渡,其實這是一回事。最初,流程再造呼吁公司使用復(fù)雜的定制IT解決方案來改進流程,因為當(dāng)時還不存在標(biāo)準(zhǔn)化解決方案。這為Oracle、PeopleSoft、SAP等采用集成ERP的企業(yè)帶來了機遇。我們的行業(yè)目前正在經(jīng)歷同樣的變化。
這些新的企業(yè)都致力于在各自特定領(lǐng)域提供廣泛的解決方案,但不可避免地最終得到不太大的ERP規(guī)模平臺。
還要注意中小型公司中人工智能和機器學(xué)習(xí)的采用率,這些公司不再需要大型數(shù)據(jù)科學(xué)團隊,而可以完全依賴定制的開發(fā)模型。
預(yù)測3:
數(shù)據(jù)工程師和數(shù)據(jù)分析師的崛起
這并不是說數(shù)據(jù)科學(xué)家以及不受歡迎了,遠非如此。當(dāng)你缺乏某種技能時,市場會以不同的方式填補這種短缺。
一種方法是通過上文討論的行業(yè)和流程特定智能應(yīng)用,這些應(yīng)用程序不需要大量的內(nèi)部數(shù)據(jù)科學(xué)家。
第二種方法是自動機器學(xué)習(xí)平臺在迅速涌現(xiàn)。這意味著效率的提高,更少的數(shù)據(jù)科學(xué)家能夠完成更多的工作。
模型的數(shù)量沒有減少,而是增加了,這將工作負荷轉(zhuǎn)移到具備兩方面技能的數(shù)據(jù)工程師上。
第一是能夠創(chuàng)建數(shù)據(jù)科學(xué)所需的基礎(chǔ)架構(gòu),如數(shù)據(jù)湖和Spark實例。
第二是采用模型,確保模型在操作系統(tǒng)中實現(xiàn),并跟蹤模型的準(zhǔn)確性和更新。
一些數(shù)據(jù)工程師還負責(zé)數(shù)據(jù)操作,確保數(shù)據(jù)流干凈和預(yù)處理環(huán)節(jié)。
分析平臺的另一個發(fā)展是視覺分析和數(shù)據(jù)可視化工具的發(fā)展。如今,這些工具大多與數(shù)據(jù)科學(xué)工具集完全集成,讓數(shù)據(jù)分析師和高層能從中提取更多價值,甚至指導(dǎo)分析工作。他們不會取代數(shù)據(jù)科學(xué)家,但強化了高級分析中的團隊作用。
預(yù)測4:
神經(jīng)形態(tài)芯片:人工智能與物聯(lián)網(wǎng)走向前沿
兩種不同的技術(shù)同時達到半成熟階段,從而解決長期存在的延遲問題。
例如,當(dāng)你想用移動設(shè)備自動將文本或圖像外來詞翻譯成其他語言時,你的設(shè)備將信號發(fā)送到云端進行翻譯,然后傳回設(shè)備。
谷歌等即時翻譯服務(wù)已經(jīng)從RNN轉(zhuǎn)為專門的CNN結(jié)構(gòu),稱為時間卷積網(wǎng),因為RNN 不能很好地適應(yīng)大規(guī)模并行處理,而CNN可以。這樣能夠減少延遲,但仍然保證信號的完整傳輸。
解決這個問題的兩種技術(shù)之一是5G網(wǎng)絡(luò)。5G速度更快,但其真正的好處是能夠承載的流量密度。這能夠讓一切信息都能在互聯(lián)網(wǎng)上傳輸,具體的傳輸量還有待觀察。
第二種解決方案是引入新的且更好的神經(jīng)形態(tài)芯片(又稱脈沖神經(jīng)網(wǎng)絡(luò))。我們希望這些全新的神經(jīng)網(wǎng)絡(luò)能夠?qū)崿F(xiàn)通用人工智能,雖然這還有很長的路要走。
如今,主要的芯片制造商和幾家初創(chuàng)公司都在發(fā)布現(xiàn)在正在發(fā)布脈沖神經(jīng)芯片,專門針對芯片上的CNN和RNN型號進行了優(yōu)化。其中一些還針對極低功耗進行了優(yōu)化。
這些特性結(jié)合在一起非常適合將深度學(xué)習(xí)轉(zhuǎn)移到網(wǎng)絡(luò)邊緣的芯片上。從今年開始,隨著這些新功能的出現(xiàn),物聯(lián)網(wǎng)和其他流媒體數(shù)據(jù)應(yīng)用程序?qū)⒊霈F(xiàn)爆炸式增長。
預(yù)測5:
不同的人工智能框架將學(xué)會相互交流
現(xiàn)在,文本、語音、圖像和視頻模型已成為主流,我們遇到了意想不到的障礙。在一個框架(Caffe2、PyTorch、Apache MXNet、Microsoft Cognitive Toolkit和TensorFlow)上構(gòu)建的模型無法輕松移植到不同的框架。
幸運的是,這個痛點推動了創(chuàng)新。AWS、Facebook和Microsoft合作構(gòu)建了開放式神經(jīng)網(wǎng)絡(luò)交換(ONNX),使模型可以在不同的框架上實現(xiàn)互操作。
隨著開發(fā)人員、應(yīng)用程序和設(shè)備之間共享的模型數(shù)量越來越多,ONNX將成為今年的關(guān)鍵技術(shù)。
以上就是2019年數(shù)據(jù)科學(xué)、機器學(xué)習(xí)和人工智能領(lǐng)域的相關(guān)預(yù)測。讓我們拭目以待,期待這些領(lǐng)域在今年的發(fā)展和創(chuàng)新。
https://www.cda.cn/?seo