百度大腦首期開放日秀肌肉：24種新AI能力，賦能N大行業(yè)

智匯百川 2019-03-24

展開全文

智東西3月20日消息，百度大腦的開放日活動在今日下午于中關村創(chuàng)業(yè)大街百度大腦創(chuàng)新體驗中心召開。

這是百度大腦的首場開放日活動，也是百度大腦開放技術能力以及最新行業(yè)應用的一次集中展示。

活動當天，百度AI技術生態(tài)部總經(jīng)理喻友平，重點介紹了百度大腦開源深度學習平臺PaddlePaddle的技術和產(chǎn)品更新，以及百度大腦在市政、物流、教育等行業(yè)的落地案例，與開發(fā)者們進行深度交流。

同時，喻友平還介紹了百度大腦全新開放的24種AI能力。此前在網(wǎng)絡上大火的智能貓窩設計者百度大腦工程師晚兮也在現(xiàn)場為大家講述了智能貓窩設計者們的初心。

一、PaddlePaddle迎來重大更新

開放日一開始，喻友平就重點宣布百度PaddlePaddle的核心框架Paddle Fluid 在近日迎來v1.3版本發(fā)布，在基礎框架、預測引擎、模型建設、分布式訓練各個方向上完成多項升級。

首先，Paddle Fluid v1.3新增發(fā)布視頻分類模型庫，值得關注的是這是業(yè)界首個視頻分類模型庫。

據(jù)喻友平表示，這個新增視頻模型庫，可以提供5個視頻分類經(jīng)典模型以及適合視頻分類任務的通用骨架代碼，用戶可一鍵式高效配置模型完成訓練和評測。

其次，PaddlePaddle新增支持NLP語義表示BERT模型，支持多機多卡訓練，支持混合精度訓練，訓練速度對比主流實現(xiàn)提升50%+，并且提供完整部署示例。

另外，在最新更新中PaddlePaddle的分布式訓練性能大幅提升。百度大腦發(fā)布了大規(guī)模稀疏參數(shù)服務器Benchmark，通過 CPU多機異步訓練發(fā)布可以顯著提升點擊率預估任務IO吞吐的built-in reader，多機多卡訓練性能多方面提升。

最后，喻友平還推出業(yè)界領先的深度強化學習框架PARL1.0。據(jù)他介紹，PARL曾在NeurIPS 2018 奪冠。具有高靈活性和可擴展性，支持可定制的并行擴展，覆蓋DQN、DDPG、PPO、A3C等主流強化學習算法。通過8塊GPU可拉動近20000個CPU節(jié)點運算，將近5個小時迭代一輪的PPO算法加速到不到1分鐘。

二、開放24種新AI能力，百度大腦技能全面解鎖

據(jù)百度表示，當前百度PaddlePaddle已對外開放超過50種經(jīng)過工業(yè)場景驗證的官方模型，在深度學習基礎之上，百度大腦通用AI能力開放涵蓋語音、視覺、自然語言處理、知識圖譜等全面AI技術。

語音方面，根據(jù)喻友平介紹，目前百度大腦語音開放能力包括語音喚醒、語音識別、語音合成等通用能力，還包括即將推出的語音識別自訓練平臺、軟硬一體的語音開發(fā)套件以及各種場景方案。

此外，PaddlePaddle首次開放了搭載國際領先的注意力模型的語音能力——語音識別極速版。

在1月的百度輸入法探索版發(fā)布會上，首次發(fā)布了領先國際的語音技術：在線語音領域全球首創(chuàng)的流式多級截斷注意力模型SMLT「Streaming trancated multi-layer attention」。

這是首次在大規(guī)模語音識別工業(yè)界采用注意力（attention）模型，在百度輸入法產(chǎn)品發(fā)布后，驚艷的語音輸入體驗得到了業(yè)界的一致好評?；谝陨铣晒掷m(xù)進行更多創(chuàng)新，提升識別率的同時又大幅優(yōu)化解碼速度。百度大腦語音方向首次將這一系列技術創(chuàng)新整合為語音能力對外開放：“語音識別極速版”，擁有更快的響應速度，相對識別準確度提升15%，為開發(fā)者帶來更極致的識別體驗。

此項語音能力在API調用方式下，實時率小于0.1，意味著5s的音頻不到500ms即可完成識別過程，極大減少了識別音頻所需的耗時，提升了語音交互的響應體驗。在近距離安靜環(huán)境下，識別準確率可達到98%，同時支持略帶口音、童聲、耳語的識別，使語音識別應用更加廣泛。

同時，多平臺的SDK也即將推出，使APP、服務器端更可實時識別，應用這一領先技術。目前，每個開發(fā)者賬戶將贈送5W次免費調用量，針對新能力的使用者，也即將推出一系列贈送及優(yōu)惠活動。

另外，近場語音識別升級了預置語義解析。預置場景由35個升級為51個，包括天氣、航班、電話、電影播放、頁面屏幕控制、電視劇、美食、手機設置、通用錄、提醒、短信、故事等，語義解析效果全面優(yōu)化，80%優(yōu)于原有解析結果。

不僅如此，還有一些新品即將上線。如：語音識別自訓練平臺，支持自動評估選出最好的基線模型，僅上傳業(yè)務場景文本語料即可訓練語言模型，零代碼自助訓練專屬的語音識別模型，極大地方便語音開發(fā)者提升所在業(yè)務場景的識別準確率，滿足業(yè)務上的語音識別需求。另外，遠場語音開發(fā)套件也即將上架售賣，可快速進行遠場識別開發(fā)評估，此套件應用于機器人、兒童故事機、家電、車載設備等硬件。同時還將開放離線合成，以及推出更多音庫。

視覺方面，百度大腦重點更新了OCR、車輛分析、人臉人體以及圖像識別四方面的能力升級。

首先，在極大便捷工作的OCR方面，卡證、票據(jù)、汽車三大場景方面均有重大更新

卡證OCR 新增了4個新能力：戶口本OCR、出生醫(yī)學證明OCR、港澳通行證OCR、臺灣通行證OCR，總數(shù)達到9種；

百度大腦首期開放日秀肌肉：24種新AI能力，賦能N大行業(yè)

票據(jù)OCR 新增了4個新能力：行程單OCR、保單識別OCR、通用機打發(fā)票O(jiān)CR，定額發(fā)票O(jiān)CR，總數(shù)達到9種；

汽車場景的OCR則更新了3個新能力：車輛VIN OCR、機動車銷售發(fā)票O(jiān)CR、車輛合格證OCR，總數(shù)達到6種。這些OCR新能力在關鍵字段的準確率均在90%以上，并有多項是業(yè)界首次平臺化開放。

百度大腦首期開放日秀肌肉：24種新AI能力，賦能N大行業(yè)

同時，對已有的OCR能力，百度大腦也進行了功能升級：表格識別：支持合并單元格、無表格線等復雜樣式；iOCR 自定義模版文字識別：支持列寬不固定、有合并單元格的表格樣式的定制識別；駕駛證識別：支持駕駛證副頁的識別。

至此，OCR產(chǎn)品全系列共34款，實現(xiàn)卡證、票據(jù)、文檔、汽車全場景覆蓋。

在車輛分析方面，百度大腦推出全新系列服務：包括車輛檢測、車流統(tǒng)計、車輛屬性分析和外觀損傷識別。

其中，車輛檢測，通過識別圖像中的所有機動車輛（包含小汽車、卡車、巴士、摩托車、三輪車），返回每輛車的類型和坐標位置，并對每類車輛分別計數(shù)，可應用于違章停車監(jiān)測和智能停車場。

百度大腦首期開放日秀肌肉：24種新AI能力，賦能N大行業(yè)

車流統(tǒng)計，則是根據(jù)視頻抓拍圖片序列，進行車輛檢測和追蹤，識別各類車輛（包括小汽車、卡車、巴士、摩托車、三輪車）在指定區(qū)域內的駛入/駛出情況，實現(xiàn)動態(tài)車流統(tǒng)計，可應用于實時監(jiān)控交通道路、卡口的車流量，自動統(tǒng)計不同時段各類車輛的進出數(shù)量，分析路口、路段的交通狀況，為交通調度、路況優(yōu)化提供精準參考依據(jù)。而車輛屬性分析和外觀損傷識別兩項服務，也即將開放。

百度大腦首期開放日秀肌肉：24種新AI能力，賦能N大行業(yè)

在人臉人體識別方面，百度大腦新發(fā)布了情緒識別，可以準確識別7類情緒：生氣、害怕、厭惡、高興、悲傷、驚訝、無情緒。

此項技術可應用于幼兒園安全監(jiān)控等場景，通過監(jiān)控孩子的心理狀態(tài)，判斷教師和幼兒是否有異常狀況，從而保障幼兒安全、及時預警并參與輔導等。同時人臉融合以及手部關鍵點將在3月推出。

此外人臉人體方面，百度大腦還有2項功能全新升級，包括：人臉檢測快速檢測人臉并返回人臉框位置、定位五官與輪廓關鍵點數(shù)量，從72個增加至150個；新增2種手勢，共24種常見手勢，整體識別率在90%以上，使得手勢識別更豐富、更準確；而即將上線的更高進精度的人像分割，可應用于人像美圖、影視后期等場景。

百度大腦首期開放日秀肌肉：24種新AI能力，賦能N大行業(yè)

而在圖像識別方面，百度大腦新增紅酒識別和地標識別這2個新能力。通過紅酒識別，用戶只需要對著紅酒標簽拍照，系統(tǒng)就能自動識別紅酒的品牌和名稱，目前可識別數(shù)十萬種國內外紅酒，識別準確率98%以上，從法國波爾多到中國張裕，商品信息都能得到準確關聯(lián)，可以輕松為用戶提供參考和商品推薦。而地標識別則能夠精準識別約5萬中外著名地標、景點，準確率高達94%以上。用戶只需要拍攝包含國內外著名景點、地標的照片，系統(tǒng)就能自動生成足跡、圖文博客等有意思的交互內容，提升用戶旅游體驗。

同時，開放日現(xiàn)場，喻友平還宣布，百度大腦即將上線邀測錢幣識別功能。該功能可以精準識別中外錢幣，支持數(shù)百類幣種、數(shù)千種面額，識別準確率98%以上，不僅能夠提升金融機構貨幣兌換的效率，也能讓“外幣騙局”無處藏身。

從紅酒到地標再到錢幣，目前百度大腦的圖像識別種類已經(jīng)多達11種。

百度大腦首期開放日秀肌肉：24種新AI能力，賦能N大行業(yè)

同時，百度大腦語言及知識技術也進一步開放。這一方面，百度大腦此次開放日的更新亮點是：語言處理應用技術、知識理解以及智能寫作平臺三大方面。

在語言處理應用技術方面，百度大腦新增文本糾錯、新聞摘要、智能寫詩、智能春聯(lián)和對話情緒識別等能力，在知識理解方面，百度大腦推出了作文檢索和知識問答兩個新能力。

同時，智能寫作平臺將在4月全面上線，平臺同時提供自動寫作和輔助寫作的能力。一方面，平臺支持天氣預報、股市大盤、比賽報道、智能寫詩寫春聯(lián)等自動寫作的能力，能夠直接進行自動寫稿，從而解放創(chuàng)作者的雙手。另一方面，平臺提供熱點發(fā)現(xiàn)、熱點分析、自動摘要、自動糾錯等輔助寫作的能力，能夠幫助創(chuàng)作者提供素材、激發(fā)靈感、質量檢測，提升創(chuàng)作者的寫作效率和產(chǎn)出質量，降低寫作成本。

在AI技術加持下，百度大腦也在重點發(fā)力智能硬件和設備。

在百度大腦首場開放日，除了有以上多項核心的技術更新、能力升級、新品推出外，百度大腦在AI市場正式上架4款硬件產(chǎn)品。

百度大腦首期開放日秀肌肉：24種新AI能力，賦能N大行業(yè)