百度推廣
網站標志
產品搜索
濟南百度公司--百度浣軍:加大AI安全性研究 開放普惠AI
作者:管理員    發布于:2018-08-30 18:37:16    文字:【】【】【
摘要:濟南百度公司--百度浣軍:加大AI安全性研究 開放普惠AI
由中國證券投資基金業協會金融科技專業委員會主辦,易方達基金、華夏基金、通聯數據、阿里云、新智元等協辦,新浪財經作為媒體支持的“2018全球智能投資峰會”于8月30日(周四)08:30-18:00在北京金融街(6.910, -0.13, -1.85%)威斯汀大酒舉辦。本次峰會的主題為“聚·變”。

  本屆峰會以大數據、人工智能等前沿技術在金融行業的應用為主線,涵蓋金融科技、智能投資等熱點話題。峰會召開的同時將現場揭曉委員會主辦的全球金融數據探索與發現大賽(FinancialData Discovery Competition,以下簡稱FDDC大賽)獲獎者,并邀請全球人工智能專家、FDDC大賽導師和獲獎者進行互動交流。

  百度北京大數據實驗室主任浣軍發表了題為《AutoDL:開放普惠AI,助力中小企業》的演講。


  浣軍表示,AI的安全性非常重要,深度學習之所以被廣泛應用,是因為其高效。但是,隨著技術的發展,AI逐步走出數據世界,走入了物理世界,其安全性涉及到人身、財產安全問題,所以要加大AI的安全性研究。

  當前,機器深度學習主要集中在大型企業,也只有大型企業才能承擔起相關的巨額研發費用,那么如何讓數量更多的中小企業也發力機器深度學習呢?浣軍提出了AutoDL,即開放、普惠的AI理念,通過自動建模、模型遷移等多種方法,讓更多的企業能運用人工智能的力量。

  以下為百度北京大數據實驗室主任浣軍主題演講實錄:

  主持人:接下來讓我們有請百度北京大數據實驗室主任浣軍教授為我們帶來主題演講,浣軍教授回國前擔任美國堪薩斯大學電子工程和計算機系Spahr講席終身職正教授,長期從事大數據、AI、數據挖掘和機器學習的理論、算法和應用的研究。有請!

  浣軍:各位嘉賓、各位老師、各位專家教授下午好,非常高興也非常榮幸有這么一個機會能跟大家介紹一下我們最近的工作,是關于開放普惠AI這么一個概念和它對應的這些技術的發展。我叫浣軍,在百度大數據實驗室工作。

  今天上午大家嘉賓演講中間都提到了AI的冬天這么一個概念,這是在下面幾分鐘之內很難把AI的整個發展歷史比較詳細地介紹,所以就簡要地介紹一下。那么看得出來,從歷史上AI的發展至少經歷過兩次冬天,所謂冬天就是大家對它的興趣急遽下降。大家現在也在討論AI的下一步發展會不會有新的冬天到來,我想從歷史上看會有。那么也有另外一種可能,我今天在這里提出來,有沒有可能AI這樣成功,它非常成功融入到了我們的日常生活中間,包括出行、醫療、金融,所以大家對AI的熱度不會那么高,同時也不會經歷現在所有的熱情上面。我們在將來拭目以待。

  這個PPT是說我們這次的AI跟以前AI的不同,我想第一個它有幾個特性,第一它是由大數據驅動的。這里面顯示的就是在2013年人類總共收集到4.4個zitebaite(音)數字化數據。我們十年前2003年,從有史以來到2003年止,人類文明一共搜集到到的是五個aikesibaite(音)就是千分之,2013年幾個小時之內人類搜集到的數據,等于有史以來到2003年總共收集的數據的總和。這上面寫的是2020年這個數字會翻十倍,到2020年,人類大概幾十分鐘搜集到的數據就等于有史以來一直到2003年搜集的數據的總和,那么這個我想給大家比較直觀的關于大數據的發展的速度。

  同時是這些數據的清理、整合和標記,不光是原始數據,包括衍生數據,這應該說是一個很重要的特性。

  第二個特性,這次的AI是算力急劇增長。橫軸是時間,縱軸是處理器上集成的chuaizisite(音)的數目,這明顯是指數上漲。AI的算力是比每18個月漲十倍要更快。用一個比較直觀的例子,就是iPhoneX的處理器相當于1996年的世界上最大的最強的超算的算力,也就是說二十年后在手機上面大家擁有的,就跟當年一個占據了一個日本的大房子的算力是一樣的。

  這是AI算法的快速迭代,橫軸時間,縱軸是ImageNet,ImageNet上面的錯誤率,這上面有三種顏色,特別標好了三種顏色,綠色用傳統的計算機視覺辦法來做識別的時候,錯誤率一般是20%。這個淺綠色是從2012年開始,用的是深度學習的算法。黑色的這個是人類的事業的準確率,2015年、2016年,何凱明(音)設計的ruisinaite(音),錯誤率已經比人類的更要低了,從機器在識別圖像比人類更強。

  這里是一幅圖,它信息非常豐富,它顯示計算機各個領域對經濟的影響。那么橫軸上每一個是特定的技術,比如說數據庫技術,比如說微處理器,比如說AI,每個技術對應四條棒、四條線。紅色的線是學術界什么時候開始研究,第二條線是藍色的線,是工業界什么時候開始對這個概念有影響。細的綠色的線這個市值什么時候達到十億美元,整個maketesaisi(音)怎么達到十億美元。粗線是怎么讓這個市值達到一百億美元。那么AI應該說是下一個點。

  我們現在也有說AI是新的電力,當我們說到新電力的時候,實際上說的就是工業革命,大數據AI成為新的技術和商業的創新的動力。那么我們可以看到,尤其在我們國家,工業化、信息化、自動化到智能化,這四化是在疊加,這是一場波瀾壯闊的第四次工業革命,整個在世界范圍內,對基礎建設、商業發展、技術推進包括人的精神面貌都會有巨大的改變。

  這個顯示的是發達國家在前十年和前二十年的勞動生產率提高。所以首先它里面橫軸是每一個國家,美國在最左邊,意大利在最右邊,那個藍色的線是前二十年的勞動生產率提高的值,平均大概是2.5%左右。橘色的線是前十年的勞動生產率的提高的值,大概1%。那么這個圖就是有幾個,第一個,勞動生產率仍然在提高,在西方發達國家,所以一階倒數仍然為正(音)。但是勞動生產率提高的速度在下降,前二十年平均是2%以上,近十年是1%左右。那就是二階倒為負(音)。什么意思呢?西方發達國家的增長的速度在放慢,都在尋找下一個增長點。AI、大數據、深度學習會不會成為一個增長點,我想現在看起來非常有可能。

  那么這里是美國勞動局的一些統計,就是一些預測,那么什么樣的工作最有可能被取代?這里面左邊是說比如說時薪20美元以下的工作,比如說餐館的服務員,一些辦公室文員時薪20美元以下被取代的概率80%以上。右邊是說不同的受教育程度,如果這個職業只需要高中文憑,他被取代的概率44%。那么這些就是AI有可能對我們的社會的影響。

  下面稍微介紹AI的一些具體應用,比如谷歌在去年跟多倫多一個小鎮簽了一個協議,建設simakesaite(音),在這個小鎮上面,把自動駕駛、5G、健康等等所有這些概念,通過那個小鎮在物理上面集成起來落地。咱們國家就是雄安,這是Chatbot,這個程序能夠跟人聊天,緩解抑郁癥。

  這是大概一兩年前的一個工作,有一門計算機課,那門課是AI的課,選的人很多。那幾年有一個TA從來沒有出現過,大家發郵件他都會回。學期結束,發現TA的名字叫沃森小姐,沃森是誰呢?他實際上是IBM的一個產品。

  這跟咱們金融關系比較大,就是有一些統計,在保險業、在銀行業、在資金管理上面,現在有多少是有算法來進行自動的做決策。

  前面講的是一些AI的廣泛的應用,如果是第四次工業革命,我們想想前幾次工業革命對整個社會的形態的影響。那么這里想說的就是再晴朗的天空,它也總有幾朵烏云。這個人叫ailigelumisi(音),他犯了罪,犯罪以后被抓被審,這個事情就這樣了,社會總有這種現象。威斯康辛州很有意思,這個州購買了一個私人公司的公共服務,那個私人公司做的是對這些犯罪的人打分,來判斷他重新犯罪的概率,從1到10分。這個法官參考分數,量刑的時候是參考這個分數的。后來法官接受采訪,這個事情被披露出來,ailigelumisi(音)的律師就告這個事情,他說第一這是個AI算法,這是個私人公司,它的數據沒有公開,是兩個教授一起開的公司。第一數據沒有公開,第二如何訓練這個數據的算法沒有公開,最后只有一個模型,這個模型都沒有公開,最后得到的就是一個分,從1分到10分,10分就是這個人很有可能再犯罪,1分就是這個人不太可能再犯罪。法官利用這個分數來判刑。這個律師說第一我不知道你如何做的決定,我沒法重復你的決定,我都沒法質證。所以這個官司一直打到美國的最高法院,最高法院有權決定是聽還是不聽,它最后決定沒有聽,這是紐約時報去年夏天報的。我相信以后這種案子會越來越多,我下面會講到有歐洲通過GDPR。

  我想給大家介紹一下,一個是我們做的工作關于AI的安全性,一個就是開放、普惠AI這么一個概念。AI的安全性我就稍微介紹一下,這是美國AI的研發戰略方向,其中把安全性列為很重要的一點。為什么AI的安全性很重要?因為如果我們在建模的時候,我們可以看到我們做AI是從數據驅動的,先搜集數據。搜集數據以后建模型,建完模型以后做模型的yiwailieweishen(音)。現在深度學習為什么在現在這些領域能夠廣泛應用呢?因為深度學習的準確率確實非常高。但是我們在享受這個高準確率的同時,也忽略了很多因素,這些因素比如說為什么會做這個決定,這個決定什么時候會錯,錯了我們又能學到什么東西?那么這個為什么重要的就是因為我們現在看得到的是AI總出信息世界走向物理世界。我們在做搜索的時候或者做推薦的時候,我們錯誤地推薦了一個小視頻給大家,大家一看這個東西跟你興趣愛好沒有關系,我覺得肯定是罵一句某公司,也不會有更進一步的行為。但是如果我們在自動駕駛的時候,因為自動駕駛的時候需要不停對路況進行判斷,比如判斷圖片的準確率是99.9%,錯了千分之一,那么有可能出現的結果是人身安全、財產損失。所以當AI走出信息社會,走入物理社會以后,它的安全性會非常重要。剛才張院長提到了透明科技的事情,其中還包括其他的,還包括它的不容易被干擾。

  在歐美發達國家,因為它是多種族的國家,它還包括公平、公正這么一個概念。我們國家雖然是單一種族,但實際上公平、公正這個概念也越來越被大家所接受。

  所以下一階段的AI必須考慮它的安全性。

  做金融的應該對歐洲通過的法律比較關注,兩年前通過了一個法案,給了兩年的通窗期,今年已經落地了已經成為法律。我想以前在北京說說布魯塞爾通過了什么法律,可能大家感受不是很深。那么現在通過中興這件事情以后,對長壁(音)這個概念都有一定的了解。那么這個里面它有很多新的概念,比如說可解釋的權利它定義了一項可解釋的權利,還定義了一項誰擁有數據,還有定義了一項被遺忘的權利,細節我們就不說了。

  那么整個AI要能夠做到安全,那么可解釋,做到不容易被攻擊,這里面有很多工作要做。大體上就是要么是你對終端模型有進行解釋,要么你歸因,你看到在原始數據上面,對哪些因素對你的模型影響最大,或者你對整個中間建模的過程都要有所了解,這個東西細節我們就不介紹了。而且這個概念就是從技術上要想把這個概念做,面臨很多挑戰,它需要對社會、對政策、對立法有一些了解。那么大家感興趣的話,我們有一些綜述,也有文章。

  下面重點介紹一下我們最近的工作叫做開放、普惠AI,這個主要的目的是什么呢?如果我們還是上面的ImageNet,ImageNet隨著時間來講錯誤率越來越低。背后的成功是什么呢?我們看網絡的復雜度,從最早的aimisilaite(音)大概是八層,到現在ImageNet是幾百層,最近有一篇文章是如何訓練一萬層的深度學習網絡。那么這個里面有幾個點,一個點是所有這些成功的背后,深度學習算法成功的背后,是一個新的網絡結構,這個需要人來設計,這些網絡結構越來越復雜,而且它的設計過程也越來越復雜,它對設計師的要求非常高,能夠設計全新網絡的,這應該是被各大公司所爭相禮聘的。

  如果從一個初創企業來說,大家也知道一個初創企業,比如說你要想養一個十個人的算法工程師,第一你很難找到世界頂級的算法工程師來幫你設計網絡;第二就算一般的算法工程師現在都非常貴;你需要一個非常大的集群,現在GPU集群也是越來越貴,包括最近艾瑞德(音)新出的具有強大算力的GPU大概幾千美元一塊,我們常用的一個八卡的機器人(16.300, -0.35, -2.10%)民幣一百萬美元。那么你需要強大的算法團隊,你需要一個強大的工程團隊,你需要有硬件、軟件支持。

  那么整個這個過程,我們使得這些先進的算法,都是掌握在大企業的手里面,大企業的研發中心里面。那么如何才能讓我們的中小企業,如何才能讓我們的初創企業,都能夠擁有自主設計神經學習網絡的能力呢?這個就是我們提出這個概念叫做開放、普惠AI,就是讓所有人都能夠跨過AI的鴻溝,都不需要特定的硬件、軟件支持,不需要養一個非常強大的工程師團隊,也能拿到自動化的、定制化的模型。

  百度阿頭DM(音)就是我們為這個設計的一項。那么這個思想就是用深度學習來設計深度學習,使得能夠讓深度學習的網絡設計自動化、定制化、低成本化。

  那么具體來說,用的技術叫做深度增強學習,大概的意思有兩個組成成分,一個叫做教師模型,一個叫做學生模型。教師模型是來設計一個深度學習網絡,把這個網絡拿過去進行學習,得到它的準確度,然后把這個值反饋給teacher耐特沃(音),通過增強學習的辦法來改進設計。teacher耐特沃(音)如何做這個過程呢?是通過RNN(音)的辦法來編碼一個深度學習,然后通過這個拿到反饋,進一步改進。

  效果怎么樣呢?現在阿頭DM(音)在西發(音)做出來的效果超過96%,比人類專家手工設計的包括但斯耐特(音)、谷歌尹賽普深(音)這些都是在ImageNet上得獎的,效果更好。也就是說現在用深度學習的算法來深入到深度學習的網絡,能夠媲美人工專家。

  從另外一個角度上還有非常重要的角度是適配,這些網絡現在都是在云上面進行訓練或者是提供服務。那么現在我們很多的網絡需要到端上,手機是一個具體的端,自動駕駛是另外一個端,還有很多包括新零售在內的它有特定的硬件,這都是端。通過這個可以把現有的網絡適配到端上面,通過多目標的優化的問題。

  還有一個很重要的就是我們比如已經為A公司建立的一個模式,那么當A公司里面有不同的應用的時候,從一個應用換到另一個應用的時候,你是不是還需要從頭建立模型呢?其實在深度學習這個領域,很多時候你不需要,你可以通過模型遷移的辦法,把移動模型遷移到另一個模型。那么遷移的過程中間,你也可以特殊設計你的網絡,或者你修改現有網絡,達到遷移的目的。

  那么這里是我們自己做的一個百度有一個公益項目,是完全免費的,大家都可以試。你有數據你可以上傳,上傳以后自動建模型,再把這個模型提供給大家。AutoDL會下達這個能力。

//s3.pfp.sina.net/ea/ad/0/11/2c96618c07d11843c2f8cf7e384c0f3f.jpg
  這是九個實際案例,這九個案例有跟健康有關的,有跟家具裝修風格有關的,有跟公益項目鳥類有關。這是東北虎、東北豹的設計。咱們做人臉識別是識別單獨的個人,東北虎、東北豹是識別單獨的虎的個體。這里AutoDL對比,應該說在每一個時間上面都有提高,絕對值5%到10%。

  整個這個領域叫做自動建模,如何利用現在的集群計算,如何利用深度學習來做自動建模。自動建模整個過程包括數據的清洗、整合、特征的抽取、選取、模型的建立,大家如果感興趣的話,我們也有對應的產品,現在幫助大家自動建模,自動做超參數的選取。有一個是把所有可能的參數都搜一遍,這實際上有更強大的工具來幫助你做這件事情。

  我們應該是處在一個巨大的變革的早期的范圍之內,第四次工業革命,從工業化、信息化、自動化到智能化,四化疊加。那么在這個階段,大數據、深度學習結合起來新的AI,應該說正在蓬勃地發展。我們設計的AutoDL這個理念就是開放、普惠AI,如何讓這些大公司的研發中心所擁有的這些能力都能開放出來,讓我們的中小企業、讓我們的初創企業、讓我們的個人、讓我們的研究機構,都能夠用這些能力,更好地發展AI。
51客服