今日頭條升級靈犬反低俗助手

2019-08-02 10:47:24??來源：責任編輯：陳楠我來說兩句

7月30日，今日頭條宣布正式推出新版靈犬反低俗助手（以下簡稱“靈犬”），同時支持圖片和文本識別。這是時隔半年后，“靈犬”的又一次重要升級。

Generated

“靈犬”脫胎于今日頭條反低俗模型，是一款檢測內容健康度的輔助小工具，致力于打擊低俗低質內容，凈化網絡空間。用戶目前可以在今日頭條內，搜索“靈犬”進行試用。

當天下午，一場名為“算法如何反低俗”的溝通會在字節跳動總部舉辦。字節跳動人工智能實驗室總監王長虎現場介紹了“靈犬”背后的技術原理。

據了解，在文本識別領域，新版“靈犬”同時應用了“Bert”和半監督技術，訓練數據集包含920萬個樣本，準確率提升至91%。在圖片識別領域，“靈犬”采用深度學習作為解決方案，在數據、模型、計算力等方面均做了針對性優化。

“靈犬”使用人次超過300萬

信息大爆炸時代，打擊低俗低質內容，是當前全球信息平臺都面臨的難題，不管是國外的Facebook、Google，還是國內的微信、今日頭條，都在尋求解決方案。

反低俗無法單一地依靠技術或人工解決。王長虎表示，低俗的定義相對籠統，很難完全精確地定義出來，這項工作即使對人來說也不容易，交給機器做更難實現，而在當前內容創作和消費海量增長的趨勢下，純靠人工解決，效率低，無法有效滿足用戶需求。

Generated

王長虎分享“靈犬”背后的技術原理

今日頭條是國內反低俗的先行者，而“靈犬”是今日頭條反低俗系統的一個簡化版本。據了解，2012年以來，今日頭條內部搭建了反色情、反低俗、反標題黨、反虛假信息、反低質等數百個模型，并投入近萬人專業審核團隊。“作為行業領先者，在內容安全上，今日頭條一直用最高的標準要求自己，”王長虎說，“靈犬是一個開放的反低俗窗口，我們希望通過靈犬，接收社會各界對反低俗的意見和建議。”

新版“靈犬”重點拓展了反低俗識別類型和模型能力，現已覆蓋圖片識別（反色情低俗、反血腥暴力）和文本識別（反色情低俗、反暴力謾罵、反標題黨）。后續還將支持語音識別和視頻識別。

此前一年時間內，“靈犬”已陸續完成兩次迭代。2018年3月28日，今日頭條首次上線“靈犬”，支持檢測文字和文章鏈接。2018年5月16日，“靈犬”完成服務能力升級，增加反色情短文本模型和反謾罵模型，將準確率從73%提升至82%。2019年2月20日，“靈犬2.0”正式上線，除了反色情低俗模型，加入反暴力謾罵和反標題黨模型，覆蓋了主要的低俗低質內容類型，整體識別準確率接近85%。截至2019年6月，靈犬反低俗助手的使用人次已經超過了300萬。

用戶只需要在“靈犬”內輸入一段文字或文章鏈接，“靈犬”就可以幫助其檢測內容健康指數，返回一個鑒定結果。對于用戶輸入的內容，“靈犬”會先進行提取、分詞和語義識別，然后根據相關規則，輸出對應的分數、評級和結論。這一切都在短短幾秒內完成。圖片和圖片鏈接檢測同理，用戶在“靈犬”內上傳圖片或圖片鏈接，即可快速獲取鑒定結果。

“靈犬”背后的技術迭代

據王長虎介紹，“靈犬”背后的文本分類模型，已經經過了三次迭代。每個新版本相對于舊版本，在技術和數據集層面，都有一個明顯的躍升。

第一代“靈犬”，應用的是“詞向量”和“CNN（卷積神經網絡）”技術，訓練數據集包含350萬數據樣本，對隨機樣本的預測準確率達到79%。第二代“靈犬”，應用的是“LSTM（長短期記憶）”和“Attention”技術，訓練數據集包含840萬數據樣本，準確率提升至85%。

新版“靈犬”同時應用了“Bert”和半監督技術，并且在此基礎上使用了專門的中文語料，在不犧牲效果的情況調整了模型結構，使得計算效率能達到實用水平。“Bert”是當前最先進的自然語言處理技術，是該領域近年來重大進展的集大成者。這項技術在常見的閱讀理解、語義蘊含、問答、相關性等各項任務上，大幅提高了性能。

這一代“靈犬”訓練數據集總量是1.2個T，相當于20倍百度百科或100倍維基百科的數據總量，包含920萬個樣本，準確率提升至91%。

不同于文本識別，圖片識別的技術難點主要在于三方面：非均衡、類內方差大和不可窮舉，即，低俗圖片占整體圖片內容的比例較低，低俗圖片的種類豐富、繁雜，構成低俗圖片的特征千差萬別。

對此，“靈犬”運用的解決方案，是深度學習。“我們分別在數據、模型、計算力等方面做了很多優化。”王長虎說。數據層面，“靈犬”已累積上千萬級別的訓練數據。模型層面，“靈犬”針對許多困難樣本做了模型結構調優，嘗試解決多尺寸、多尺度、小目標等復雜問題。計算力層面，“靈犬”利用分布式訓練算法以及GPU訓練集群，加速模型的訓練和調試。

一些技術難以搞定的問題，現階段還有賴于人工判斷。比如技術暫時難以制定標準的案例：世界名畫中常常出現裸體女子，如果完全交由機器判斷，機器通過識別畫中人物的皮膚裸露面積，就會認為這幅畫是色情低俗的；而某些拍攝芭蕾舞的圖片，以機器的視角來看，其實類似于裙底偷拍。

此外是因為使用場景、人群不同而導致標準變動的案例：內衣和內衣模特出現在購物平臺上，會被默認為正常，但如果頻繁出現在新聞資訊平臺上，就可能被認為有低俗嫌疑；正常的熱舞內容，提供給成年人看，符合常規標準，但如果開啟了青少年模式，這些內容就不應該出現。

王長虎說，針對低俗判斷問題的復雜性和不同判斷方式的局限性，一方面需要不斷進化技術模型，一方面需要有效結合技術和人工判斷兩種方式。

當前，“靈犬”建設了比較完善的模型迭代系統。通過“數據收集—數據標注—數據清洗—模型訓練—模型評估—badcase分析”這一套完整的流程，持續做優化。

相關閱讀:

打印 | 收藏 | 發給好友【字號大中小】

今日熱詞

更多>>福建今日重點

省委常委會（擴大）會議召開
省政府黨組召開會議
省十四屆人大常委會第44次主任會議召開
2月份福建省居民消費價格同比下降0.3％
福鼎率先實施“微診室大篷車”
廈門：一證連兩岸融合邁新步
閩江數字貿易走廊將于第五屆中國跨交會啟動

更多>>國際國內熱點

國臺辦發言人就賴清德"臺獨"分裂言行發表談話
中國海警艦艇編隊14日在我釣魚島領海巡航
創造歷史！速滑世錦賽中國隊男團奪金
“國家喊咱減肥了” 管理體重如何做?
春招迎來"AI熱" 透過數據看今年就業新變化
聚焦315丨在線“診斷”心理問題，靠譜嗎？
廣電總局：微短劇創作不能一味求“爽”

原創
熱詞
政務
福建
臺海
國內
國際
直通屏山
視頻
評論
娛樂
體育
財經
專題
大學城
網事

關于我們 | 廣告服務 | 網站地圖 | 網站公告 |

國新辦發函[2001]232號閩ICP備案號(閩ICP備05022042號) 互聯網新聞信息服務許可證編號：35120170001 網絡文化經營許可證閩網文〔2019〕3630-217號
信息網絡傳播視聽節目許可（互聯網視聽節目服務/移動互聯網視聽節目服務）證號：1310572 廣播電視節目制作經營許可證（閩）字第085號
網絡出版服務許可證（署）網出證（閩）字第018號增值電信業務經營許可證閩B2-20100029 互聯網藥品信息服務（閩）-經營性-2015-0001
福建日報報業集團擁有東南網采編人員所創作作品之版權，未經報業集團書面授權，不得轉載、摘編或以其他方式使用和傳播
職業道德監督、違法和不良信息舉報電話：0591-87095403（工作日9:00-12:00、15:00-18:00） 舉報郵箱：jubao@fjsen.com 福建省新聞道德委舉報電話：0591-87275327