面對海量信息如何實現內容識別

2019-08-13 15:54:33??來源：人民網-傳媒頻道責任編輯：肖月青　肖月青

互聯網平臺的出現以及移動傳播體系的形成，改變了人類內容生產和分發的方式。從形態上，互聯網平臺代替傳統媒體成為了信息聚合和分發的樞紐；從傳播關系看，社會成員個體的參與愿望及信息需求，形成了當代社會信息交互的雙輪驅動。反映在內容生產與分發過程中，現象之一就是互聯網用戶個人上傳的各類內容成為了網絡空間里一個海量的存在，以當前發展迅速的短視頻平臺為例，它們每天都有數以千萬條計的短視頻內容上傳；現象之二是，這樣海量的內容只有通過移動終端，面向用戶個人的差異化信息需求，通過推送式的精準分發，才能使人們所生產的信息“各得其所”、“各盡其用”，以充分發揮不同內容的效能。

這一切的前提是內容本身是真實的，健康的。而面對每天上傳到互聯網平臺上數以十萬篇計的文章、千萬條計的短視頻、十億張計的照片這樣級別的海量信息，想要鑒別它們的“成色”并實現推送式的精準分發，必須充分運用人工智能技術。這也就是為什么習近平同志在2019年1月25日的中央政治局集體學習時講話中，要求“探索將人工智能運用在新聞采集、生產、分發、接收、反饋中” 。通俗地說，就是要“互聯網技術產生的問題，用互聯網技術來解決”。

維護互聯網平臺上內容的真實性和健康性是一個國際性課題。前不久，在美國參與的“數字時代的美國新舊媒體”考察活動給了我切身體驗。中國和美國這兩個不同社會制度的國家，都面臨著互聯網平臺帶來的各種挑戰，其中互聯網內容的真實、健康和安全是最為人們關注的。在各自國家政府和社會公眾的壓力之下，兩個國家的互聯網平臺都在做出努力來解決上述問題。這些努力的主要方面，就是積極利用人工智能技術，開發對互聯網內容進行審核的應用。比較分析的結果是，中國的互聯網平臺在這一領域居于領先地位。

以國內最大的資訊分發平臺今日頭條及其系列產品為例，其反低俗的軟件“靈犬”，經過三次迭代升級，最新版本包括識別類型和模型能力的重要升級，同時應用了“Bert” 和半監督技術，并在此基礎上使用了專門的中文語料，使對存在色情低俗、暴力謾罵、標題黨類問題內容的文本識別準確率提升至91%，還能支持對含有色情低俗、血腥暴力成分的圖片的識別。比較而言，谷歌和臉書等平臺對虛假、低俗類信息識別的技術路線更多是“重點對用戶特征（包括個人級別特征和組織級別特征）、新聞特征（包括文本特征和傳播特征）和網絡關系（包括用戶關系網、事件關系網和傳播路徑網）這三個要素進行自動查驗” ，具體而言，更多依靠用戶的反饋和標注，以及對相關因素的一致性檢驗，在借助人工智能和大數據對文本本身進行更加全面的識別方面投入不足，從而導致相應的技術能力無法應對以“深偽（Deepfake）”為代表的偽造信息技術的發展。有研究者指出，“瑞士科學家在一篇論文中就首次對人臉識別方法檢測Deepfake的效果進行了較為全面的測評，嘗試用最前沿的人臉識別系統去識別假視頻，結果錯誤率高達95%。所以當前如果要求平臺對深度偽造等合成媒體內容進行識別和標注，在技術上幾乎是不可能實現的” 。這一事實告訴我們，在網絡傳播中反虛假、反低俗，還是要更多依靠更加先進的人工智能應用，通過大數據與算法的結合，提升對各類內容（文字、圖片、視頻等）的識別能力。

當前的人工智能，實質上是基于對人類處理各種事務規則的算法化，并基于大數據提供的深度學習資源而實現的。具體地說，就是人們根據對于客觀事物的認識，制定處理相關事務的規則和標準，然后找到一組數學公式來模擬這個過程，也就是形成算法，再把算法開發成為軟件，就可以用大數據來訓練這個軟件學會識別不同狀態和情況，達到比較成熟的水平就可以上線運營，代替人類來工作了?？陀^上，在這個過程中，關鍵性的難點在各個環節都存在。如人們制定的標準和規則是否科學，取決于人們對相關事物本身發展規律的認識水平。按照馬克思的論斷，“一種科學只有在成功地運用數學時，才算達到了真正完善的地步”。這需要人們對客觀規律有深刻的認識，目前在社會科學領域這顯然是研究的短板。以筆者本人近年來對主流價值觀如何體現為算法的研究為例，旨在面向個人推送信息以提高傳播效率的算法，如何在社會成員個人對事件重要性的判斷與社會主體對事件重要性的判斷之間建立一致性就是一個難題。在內容審核方面，也存在標準和規則隨具體場景而變化的情況，如越南戰爭期間著名的反戰新聞照片，照片主體是一位越南小女孩衣服被汽油彈引燃而渾身赤裸奔跑，就曾經因為“裸露”，被Facebook誤刪。實踐中，即使實現了規則和標準清晰且正確，還要能夠找到可行的算法，建立較大規模的數據庫，還要有算力的支持。如靈犬3.0，就投入了更大的算力。從上述過程看，利用人工智能的深度學習來解決虛假、低俗內容充斥網絡空間的問題，是一個具有相當技術難度的系統工程，需要假以時日，需要付出更大的努力。

用技術識別內容如此之難，是不是我們就不要走這條路，靠人工去完成這個工作呢？很顯然，在互聯網傳播環境下，這是不現實的。當前，互聯網技術的應用，已經實現了在傳播的技術條件方面對用戶的普遍賦權，在中國，每天都有數以億計的互聯網用戶活躍在各個網絡平臺上，以短視頻為例，抖音等平臺，每天都有千萬條級別的內容上傳，今日頭條平臺每天經審核后發布的內容就超過60萬條。這是無法完全用人工去處理的。與人工審核相比，機器審核的優勢在于，機器一是計算快，一秒鐘能執行百億次計算；二是存儲大，可以輕松存儲千億以上漢字；三是運行穩定，不會因心情、狀態、對標準的理解等因素影響處理結果。據了解，由于強化內容標注和審核的需要，今日頭條的母公司“字節跳動”已經建立了近萬人的審核團隊。在“機器+人工”審核模式下，我國主要的互聯網信息分發平臺的內容安全得到了較大程度的提升，未來隨著研究的深入、技術的進步，內容審核的水平還會持續提升。

面對海量信息 如何實現內容識別

面對海量信息如何實現內容識別