直通屏山|福建|時評|大學城|臺海|娛樂|體育|國內|國際|專題|網事|福州|廈門|莆田|泉州|漳州|龍巖|寧德|南平|三明
      您所在的位置:東南網 > 專題> 黨群> 清新福建任你游> 清新福建 > 正文

      今日頭條升級靈犬反低俗助手

      2019-08-02 10:47:24??來源:  責任編輯:陳楠   我來說兩句

      7月30日,今日頭條宣布正式推出新版靈犬反低俗助手(以下簡稱“靈犬”),同時支持圖片和文本識別。這是時隔半年后,“靈犬”的又一次重要升級。

      ?

      Generated

      “靈犬”脫胎于今日頭條反低俗模型,是一款檢測內容健康度的輔助小工具,致力于打擊低俗低質內容,凈化網絡空間。用戶目前可以在今日頭條內,搜索“靈犬”進行試用。

      當天下午,一場名為“算法如何反低俗”的溝通會在字節跳動總部舉辦。字節跳動人工智能實驗室總監王長虎現場介紹了“靈犬”背后的技術原理。

      據了解,在文本識別領域,新版“靈犬”同時應用了“Bert”和半監督技術,訓練數據集包含920萬個樣本,準確率提升至91%。在圖片識別領域,“靈犬”采用深度學習作為解決方案,在數據、模型、計算力等方面均做了針對性優化。

      “靈犬”使用人次超過300萬

      信息大爆炸時代,打擊低俗低質內容,是當前全球信息平臺都面臨的難題,不管是國外的Facebook、Google,還是國內的微信、今日頭條,都在尋求解決方案。

      反低俗無法單一地依靠技術或人工解決。王長虎表示,低俗的定義相對籠統,很難完全精確地定義出來,這項工作即使對人來說也不容易,交給機器做更難實現,而在當前內容創作和消費海量增長的趨勢下,純靠人工解決,效率低,無法有效滿足用戶需求。

      ?

      Generated

      王長虎分享“靈犬”背后的技術原理

      今日頭條是國內反低俗的先行者,而“靈犬”是今日頭條反低俗系統的一個簡化版本。據了解,2012年以來,今日頭條內部搭建了反色情、反低俗、反標題黨、反虛假信息、反低質等數百個模型,并投入近萬人專業審核團隊。“作為行業領先者,在內容安全上,今日頭條一直用最高的標準要求自己,”王長虎說,“靈犬是一個開放的反低俗窗口,我們希望通過靈犬,接收社會各界對反低俗的意見和建議。”

      新版“靈犬”重點拓展了反低俗識別類型和模型能力,現已覆蓋圖片識別(反色情低俗、反血腥暴力)和文本識別(反色情低俗、反暴力謾罵、反標題黨)。后續還將支持語音識別和視頻識別。

      此前一年時間內,“靈犬”已陸續完成兩次迭代。2018年3月28日,今日頭條首次上線“靈犬”,支持檢測文字和文章鏈接。2018年5月16日,“靈犬”完成服務能力升級,增加反色情短文本模型和反謾罵模型,將準確率從73%提升至82%。2019年2月20日,“靈犬2.0”正式上線,除了反色情低俗模型,加入反暴力謾罵和反標題黨模型,覆蓋了主要的低俗低質內容類型,整體識別準確率接近85%。截至2019年6月,靈犬反低俗助手的使用人次已經超過了300萬。

      用戶只需要在“靈犬”內輸入一段文字或文章鏈接,“靈犬”就可以幫助其檢測內容健康指數,返回一個鑒定結果。對于用戶輸入的內容,“靈犬”會先進行提取、分詞和語義識別,然后根據相關規則, 輸出對應的分數、評級和結論。這一切都在短短幾秒內完成。圖片和圖片鏈接檢測同理,用戶在“靈犬”內上傳圖片或圖片鏈接,即可快速獲取鑒定結果。

      “靈犬”背后的技術迭代

      據王長虎介紹,“靈犬”背后的文本分類模型,已經經過了三次迭代。每個新版本相對于舊版本,在技術和數據集層面,都有一個明顯的躍升。

      第一代“靈犬”,應用的是“詞向量”和“CNN(卷積神經網絡)”技術,訓練數據集包含350萬數據樣本,對隨機樣本的預測準確率達到79%。第二代“靈犬”,應用的是“LSTM(長短期記憶)”和“Attention”技術,訓練數據集包含840萬數據樣本,準確率提升至85%。

      新版“靈犬”同時應用了“Bert”和半監督技術,并且在此基礎上使用了專門的中文語料,在不犧牲效果的情況調整了模型結構,使得計算效率能達到實用水平。“Bert”是當前最先進的自然語言處理技術,是該領域近年來重大進展的集大成者。這項技術在常見的閱讀理解、語義蘊含、問答、相關性等各項任務上,大幅提高了性能。

      這一代“靈犬”訓練數據集總量是1.2個T,相當于20倍百度百科或100倍維基百科的數據總量,包含920萬個樣本,準確率提升至91%。

      不同于文本識別,圖片識別的技術難點主要在于三方面:非均衡、類內方差大和不可窮舉,即,低俗圖片占整體圖片內容的比例較低,低俗圖片的種類豐富、繁雜,構成低俗圖片的特征千差萬別。

      對此,“靈犬”運用的解決方案,是深度學習。“我們分別在數據、模型、計算力等方面做了很多優化。”王長虎說。數據層面,“靈犬”已累積上千萬級別的訓練數據。模型層面,“靈犬”針對許多困難樣本做了模型結構調優,嘗試解決多尺寸、多尺度、小目標等復雜問題。計算力層面,“靈犬”利用分布式訓練算法以及GPU訓練集群,加速模型的訓練和調試。

      一些技術難以搞定的問題,現階段還有賴于人工判斷。比如技術暫時難以制定標準的案例:世界名畫中常常出現裸體女子,如果完全交由機器判斷,機器通過識別畫中人物的皮膚裸露面積,就會認為這幅畫是色情低俗的;而某些拍攝芭蕾舞的圖片,以機器的視角來看,其實類似于裙底偷拍。

      此外是因為使用場景、人群不同而導致標準變動的案例:內衣和內衣模特出現在購物平臺上,會被默認為正常,但如果頻繁出現在新聞資訊平臺上,就可能被認為有低俗嫌疑;正常的熱舞內容,提供給成年人看,符合常規標準,但如果開啟了青少年模式,這些內容就不應該出現。

      王長虎說,針對低俗判斷問題的復雜性和不同判斷方式的局限性,一方面需要不斷進化技術模型,一方面需要有效結合技術和人工判斷兩種方式。

      當前,“靈犬”建設了比較完善的模型迭代系統。通過“數據收集—數據標注—數據清洗—模型訓練—模型評估—badcase分析”這一套完整的流程,持續做優化。

      ?

      相關閱讀:

      打印 | 收藏 | 發給好友 【字號
      今日熱詞
      更多>>福建今日重點
      更多>>國際國內熱點
      • 新聞圖片
      更多>>娛 樂
      • 點擊排行
      • 三天
      • 一周
      • 一月
      關于我們 | 廣告服務 | 網站地圖 | 網站公告 |
      國新辦發函[2001]232號 閩ICP備案號(閩ICP備05022042號) 互聯網新聞信息服務許可證 編號:35120170001 網絡文化經營許可證 閩網文〔2019〕3630-217號
      信息網絡傳播視聽節目許可(互聯網視聽節目服務/移動互聯網視聽節目服務)證號:1310572 廣播電視節目制作經營許可證(閩)字第085號
      網絡出版服務許可證 (署)網出證(閩)字第018號 增值電信業務經營許可證 閩B2-20100029 互聯網藥品信息服務(閩)-經營性-2015-0001
      福建日報報業集團擁有東南網采編人員所創作作品之版權,未經報業集團書面授權,不得轉載、摘編或以其他方式使用和傳播
      職業道德監督、違法和不良信息舉報電話:0591-87095403(工作日9:00-12:00、15:00-18:00) 舉報郵箱:jubao@fjsen.com 福建省新聞道德委舉報電話:0591-87275327

      主站蜘蛛池模板: 欧美在线视频免费看| 印度爱经hd在线观看| 在线免费观看国产视频| 国产精品一区视频| 国产丰满老熟女重口对白| 午夜gif视频免费120秒| 亚洲狠狠狠一区二区三区| 亚洲av无码片一区二区三区| 久久久99久久久国产自输拍| xxxxx做受大片在线观看免费| 91热久久免费精品99| 韩国在线观看一区二区三区| 精品久久久久久中文字幕一区 | 人妻少妇精品无码专区二区| 亚洲国产成人久久精品app| 久久99国产精品久久99| 99精品久久久久久久婷婷| 青青热久久久久综合精品| 狼色精品人妻在线视频| 福利网址在线观看| 最新版资源在线天堂| 影音先锋男人站| 性欧美黑人巨大videos| 国产精品线在线精品| 又爽又黄又无遮挡网站| 亚洲一区二区三区国产精华液 | 无码精品日韩中文字幕| 国产精品爆乳奶水无码视频 | 国产免费一区二区三区免费视频| 亚洲精品无码你懂的| 久久久久久久综合| 18精品久久久无码午夜福利| 美女和男人免费网站视频| 欧洲吸奶大片在线看| 天天射天天操天天色| 国产a毛片高清视| 乱色熟女综合一区二区三区| 亚洲一区二区三区在线观看网站| 一级毛片www| 青青青亚洲精品国产| 欧美激情xxxx性bbbb|