令UGC頭部平臺(tái)焦慮的,不是流量,而是內(nèi)容審核
UGC內(nèi)容平臺(tái),無(wú)論是資訊類、社交類、還是視頻類,在贏得了網(wǎng)民的支持(流量暴增)之后,隨之而來(lái)的,是頻繁的監(jiān)管審查、違規(guī)處理,諸如約談、整頓、關(guān)停。
數(shù)美科技認(rèn)為,凡事物極必反,經(jīng)濟(jì)繁榮表象下深藏泡沫,而內(nèi)容產(chǎn)業(yè)的繁榮下則是亂象叢生,受利益驅(qū)使,黑產(chǎn)自然不會(huì)放過(guò)內(nèi)容平臺(tái)這塊肥肉,平臺(tái)成了間接作惡工具,自然給企業(yè)帶來(lái)源源不斷的麻煩、損失。
2018年4月4日,國(guó)家廣電總局約談今日頭條、快手相關(guān)負(fù)責(zé)人,要求其將網(wǎng)站上涉及低俗、暴力、血腥、色情等內(nèi)容的節(jié)目立即下線。
7月,短視頻行業(yè)又迎來(lái)一輪最嚴(yán)監(jiān)管,多達(dá)15款短視頻App被下架。其中包括嗶哩嗶哩、洋蔥視頻等用戶耳熟能詳?shù)亩桃曨l分享平臺(tái)。
2018年,令UGC平臺(tái)最焦慮的不是流量,而是合規(guī),是內(nèi)容風(fēng)險(xiǎn)。Facebook目前在全球擁有7500個(gè)內(nèi)容審查員;年初今日頭條內(nèi)容審核已超過(guò)4000人,預(yù)計(jì)未來(lái)突破1萬(wàn)人;快手多次被約談,勒令整改,不得不擴(kuò)充審核隊(duì)伍,2018年4月宣布緊急擴(kuò)招3000名內(nèi)容審核員。
當(dāng)然,除了大平臺(tái),小平臺(tái)也一樣,內(nèi)容風(fēng)控是當(dāng)下互聯(lián)網(wǎng)業(yè)務(wù)發(fā)展最急迫也是最棘手的問(wèn)題。
數(shù)美科技認(rèn)為,來(lái)自內(nèi)容的風(fēng)險(xiǎn)主要有兩類
一是監(jiān)管合規(guī)難。主要是涉政、違禁、暴恐、色情四大類內(nèi)容,將直接導(dǎo)致平臺(tái)面臨約談、整頓、罰款乃至關(guān)停等監(jiān)管風(fēng)險(xiǎn)。
二是商業(yè)損失。UGC平臺(tái)充斥大量廣告導(dǎo)流、欺詐廣告,導(dǎo)致用戶體驗(yàn)變差、用戶流失、平臺(tái)受損。
導(dǎo)流廣告和欺詐廣告,往往由黑產(chǎn)所為,隨著互聯(lián)網(wǎng)行業(yè)發(fā)展,網(wǎng)絡(luò)欺詐無(wú)處不在,黑色產(chǎn)業(yè)鏈已發(fā)展為成熟體系。企業(yè)反欺詐面臨著黑產(chǎn)技術(shù)水平與專業(yè)程度不斷提高、缺乏全局風(fēng)險(xiǎn)數(shù)據(jù)支撐、專業(yè)反欺詐人才不足等實(shí)際難題,在黑產(chǎn)面前,損失不言而喻。
內(nèi)容上出了問(wèn)題,不僅會(huì)導(dǎo)致企業(yè)停擺,更會(huì)讓股市瑟瑟發(fā)抖,令投資人睡不好覺(jué)。此前,在被點(diǎn)名、約談乃至下架之后,B站股市飄綠,隨后不得不將內(nèi)容審核上升到戰(zhàn)略級(jí)。
在內(nèi)容百花齊放的時(shí)代,內(nèi)容風(fēng)控自然成了各平臺(tái)不可避免的發(fā)展課題。
內(nèi)容風(fēng)控的四個(gè)發(fā)展階段
對(duì)于內(nèi)容風(fēng)控的進(jìn)化階段,數(shù)美科技認(rèn)為有如下四個(gè):
一、無(wú)人監(jiān)管。平臺(tái)必將頻頻遭遇監(jiān)管冷板凳待遇。
二、全部人工審核。面對(duì)黑產(chǎn)時(shí),他們是機(jī)器作案,快速更新欺詐手段,更新設(shè)備號(hào)。人工必然是疲于應(yīng)付,卻收效甚微。
三、機(jī)器+人工審核。這是部分公司采用的方式,但受限于策略與模型上的規(guī)則簡(jiǎn)單,導(dǎo)致機(jī)器漏殺誤殺嚴(yán)重,人工變成了對(duì)機(jī)器審核的再次檢驗(yàn),效率不僅沒(méi)有提升,準(zhǔn)確率也不高。
四、全棧式AI審核?;谌斯ぶ悄芩惴?,海量?jī)?nèi)容數(shù)據(jù)庫(kù),建立全棧式的內(nèi)容及場(chǎng)景模型覆蓋,結(jié)合用戶行為畫像,確保內(nèi)容防護(hù)面面俱到,內(nèi)容識(shí)別高效與準(zhǔn)確。
內(nèi)容大爆炸的時(shí)代,違規(guī)內(nèi)容、欺詐內(nèi)容呈指數(shù)級(jí)增長(zhǎng),在內(nèi)容審核上,有些是人工無(wú)法逾越的,比如人不能24小時(shí)工作,內(nèi)容審核團(tuán)隊(duì)也不能無(wú)限制擴(kuò)編。
此外在效率上,人工看圖片可以快速掠過(guò),看視頻和音頻卻無(wú)法快進(jìn),效率就會(huì)大打折扣。而機(jī)器可以在音視頻上節(jié)省大量時(shí)間,比如在音頻識(shí)別上,將聲音轉(zhuǎn)化成文字,再識(shí)別文字內(nèi)容。再比如面對(duì)黑產(chǎn)操縱的欺詐廣告,可以采用全局的風(fēng)險(xiǎn)數(shù)據(jù)支撐和強(qiáng)大的反欺詐技術(shù),實(shí)現(xiàn)精準(zhǔn)識(shí)別。所以,應(yīng)付五花八門的內(nèi)容風(fēng)險(xiǎn),自然要采用更前瞻的人工智能技術(shù)加全棧式的內(nèi)容風(fēng)控策略。
如何構(gòu)建一個(gè)無(wú)懈可擊的全棧式AI內(nèi)容防護(hù)?
機(jī)器智能審核的準(zhǔn)確率取決于數(shù)據(jù)量、算法、模型。當(dāng)數(shù)據(jù)量不夠多時(shí),自然會(huì)漏殺,當(dāng)策略模型和算法不準(zhǔn)確時(shí)可能會(huì)誤殺。AI過(guò)濾就是通過(guò)對(duì)海量數(shù)據(jù)的深度學(xué)習(xí),再結(jié)合算法對(duì)特定場(chǎng)景建立相應(yīng)的分析模型,最終把不同內(nèi)容形式的不良內(nèi)容過(guò)濾和攔截掉。
當(dāng)然,對(duì)于不同內(nèi)容形式,所需的技能與策略也不一樣,下面數(shù)美科技來(lái)一一講述。
文本識(shí)別
在文本識(shí)別上,人工智能技術(shù)可以通過(guò)深度學(xué)習(xí)與智能文本語(yǔ)義分析,識(shí)別同一詞在不同語(yǔ)境中的風(fēng)險(xiǎn)。比如針對(duì)大麻一詞,“雨很大麻煩車開(kāi)慢一點(diǎn)”是正常,“在美國(guó)大麻違法嗎”就屬于違禁。
文本識(shí)別重在要同步網(wǎng)安和網(wǎng)信辦合規(guī)要求,建立違規(guī)敏感詞庫(kù),一般要建立數(shù)十萬(wàn)級(jí)詞庫(kù),涵蓋各類敏感信息。
在對(duì)色情文本的識(shí)別上,則體現(xiàn)在分類模型的建立上,比如區(qū)別什么是色情、什么是低俗、什么是辱罵,因?yàn)椴煌脚_(tái)的審核標(biāo)準(zhǔn)不同,不同的分級(jí)要區(qū)別對(duì)待。
文本識(shí)別,還有一個(gè)很重要的功能就是識(shí)別聯(lián)系方式?,F(xiàn)在的聯(lián)系方式(微信、QQ、手機(jī)、網(wǎng)址、百度搜)以及各種變體,可謂五花八門。對(duì)此,通過(guò)機(jī)器學(xué)習(xí)建立上萬(wàn)種聯(lián)系方式變體特征庫(kù)就顯得很重要。
圖片識(shí)別
圖片識(shí)別同樣有各種細(xì)分需求,拿涉政圖片來(lái)說(shuō),就得分普通、漫畫、雕塑、惡搞、負(fù)面涉政等。圖片識(shí)別重在建立數(shù)據(jù)庫(kù),以及針對(duì)不同類型進(jìn)行模型訓(xùn)練。
拿暴恐來(lái)說(shuō),同樣是槍支,細(xì)化到場(chǎng)景,有單純的槍支圖片,但是游戲人物拿著槍支算不算?這就涉及到對(duì)不同的槍支圖片進(jìn)行細(xì)分,分別建策略模型,確保游戲槍支不被誤殺。
色情圖片識(shí)別,也需要分級(jí),性感、色情、重度色情要區(qū)別對(duì)待,其次是場(chǎng)景,直播、視頻、電商、社區(qū)、游戲,不同的場(chǎng)景下的色情要分別對(duì)待,海外一些平臺(tái)非常重視兒童裸露色情,所以就得有兒童裸露的策略模型,而國(guó)內(nèi)審核上一般不視為色情。
音頻識(shí)別
一般語(yǔ)音識(shí)別在語(yǔ)音直播、FM電臺(tái)、語(yǔ)音消息、語(yǔ)音文件、視頻直播中都有用到。語(yǔ)音過(guò)濾可以利用人工智能將語(yǔ)音轉(zhuǎn)文本,再識(shí)別文本中的涉政、色情、廣告等內(nèi)容。語(yǔ)音識(shí)別又涉及到不同語(yǔ)種,比如普通話、英語(yǔ)、藏語(yǔ)等。
此外,還有一些是特殊化的語(yǔ)音,拿數(shù)美天凈來(lái)說(shuō),就專門為語(yǔ)音中的嬌喘建模,目前有多家平臺(tái)在使用,嬌喘識(shí)別是通過(guò)深度學(xué)習(xí)與語(yǔ)音檢測(cè)技術(shù),識(shí)別嬌喘、呻吟等非說(shuō)話色情。

視頻識(shí)別
視頻識(shí)別是對(duì)視頻內(nèi)容中的畫面、聲音、文字進(jìn)行全方位分析過(guò)濾,視頻包括短視頻、長(zhǎng)視頻、視頻直播等多種場(chǎng)景。
人工智能技術(shù)對(duì)視頻的審核過(guò)濾,會(huì)將視頻進(jìn)行拆分,將視頻進(jìn)行畫面截幀,從而過(guò)濾圖片,圖片中的字幕則利用OCR字幕來(lái)過(guò)濾。視頻標(biāo)題通過(guò)文本過(guò)濾模型來(lái)檢測(cè),視頻語(yǔ)音則單獨(dú)采用語(yǔ)音模型過(guò)濾。
全棧式AI內(nèi)容風(fēng)控需要具備哪些特征?
互聯(lián)網(wǎng)發(fā)展至今,需要內(nèi)容風(fēng)控的場(chǎng)景越來(lái)越多,更新迭代也快,從文本、圖片,到長(zhǎng)視頻、短視頻,直播答題火了一陣后,抖音風(fēng)生水起,內(nèi)容的場(chǎng)景越多,對(duì)內(nèi)容審核的AI技術(shù)及場(chǎng)景化應(yīng)用的要求也更高。數(shù)美科技認(rèn)為做到全棧式AI內(nèi)容風(fēng)控需要具備三個(gè)方面:
一、橫向來(lái)講,在內(nèi)容形式上要做到全域覆蓋
內(nèi)容主要有五類:文本、圖片、音頻、視頻、網(wǎng)頁(yè)。文本要合規(guī),音視頻也要合規(guī),各種形式的內(nèi)容風(fēng)控都要抓起來(lái)。文本比較單一,但視頻中有圖片、標(biāo)題、字幕、語(yǔ)音,它又是一個(gè)綜合了多種形式的內(nèi)容,它的審核要更復(fù)雜。在音頻內(nèi)容中有聲紋識(shí)別,還有非說(shuō)話色情,比如嬌喘等等。在內(nèi)容形式上要覆蓋足夠?qū)拸V,才不會(huì)造成誤殺漏殺。
二、縱向來(lái)講,在垂直場(chǎng)景上要做到深度應(yīng)用
風(fēng)控是細(xì)化到場(chǎng)景的,對(duì)場(chǎng)景的理解與場(chǎng)景化建模能力要求很高,拿圖片涉政場(chǎng)景來(lái)講,有正常照片、雕塑、漫畫,每一個(gè)場(chǎng)景都需要單獨(dú)的模型;游戲直播平臺(tái)會(huì)要求把槍支分為槍支和游戲槍支,那么游戲槍支就需要單獨(dú)建分析模型。在特殊時(shí)期,坦克這一類型也是需要被識(shí)別過(guò)濾的,還有不良行為,比如抽煙、喝酒等。人工智能技術(shù)非常考驗(yàn)對(duì)場(chǎng)景的理解與技術(shù)應(yīng)用。
三、結(jié)合用戶行為畫像,從源頭識(shí)別欺詐用戶
前文中提到的內(nèi)容風(fēng)險(xiǎn)除了有監(jiān)管不合規(guī)外,還有一類是商業(yè)損失。造成商業(yè)損失的內(nèi)容,如廣告導(dǎo)流、欺詐廣告是由專業(yè)的黑產(chǎn)團(tuán)隊(duì)所為。
正常用戶所發(fā)布的內(nèi)容,我們通過(guò)機(jī)器的深度學(xué)習(xí)來(lái)識(shí)別,但黑產(chǎn)發(fā)布的內(nèi)容通常是通過(guò)設(shè)備號(hào)批量注冊(cè)賬號(hào),批量發(fā)布信息,令人防不勝防,這時(shí)候就需要我們結(jié)合設(shè)備指紋與用戶行為畫像分析來(lái)進(jìn)行反欺詐。
行為畫像是采用行為序列、關(guān)聯(lián)圖挖掘、風(fēng)險(xiǎn)傳播算法等時(shí)域關(guān)聯(lián)分析技術(shù)對(duì)用戶做行為分析。比如用戶在登錄時(shí)顯示沒(méi)問(wèn)題,但是每隔幾分鐘登錄一次,可能就是問(wèn)題用戶。再比如用戶登錄沒(méi)問(wèn)題,但行為有問(wèn)題,頻繁發(fā)違規(guī)內(nèi)容,這樣綜合判定該用戶是有問(wèn)題的。
用戶畫像主要是對(duì)用戶歷史行為進(jìn)行記錄,對(duì)其每一次的網(wǎng)絡(luò)行為也進(jìn)行記錄,最終結(jié)合啟動(dòng)、注冊(cè)、登錄、再到業(yè)務(wù)行為,把這幾個(gè)步驟關(guān)聯(lián)起來(lái)建立用戶行為畫像,確保識(shí)別效果更準(zhǔn)確。
用戶行為畫像是反欺詐中的關(guān)鍵點(diǎn),以數(shù)美天凈的聲紋識(shí)別舉例來(lái)說(shuō),在平臺(tái)上識(shí)別出欺詐廣告的賬號(hào),會(huì)把其聲紋記錄下來(lái)存在聲紋黑名單庫(kù)中,下次即使該用戶更換了設(shè)備再進(jìn)行詐騙,依然可以通過(guò)聲紋比對(duì)識(shí)別出來(lái)。
一般一臺(tái)設(shè)備是一個(gè)人使用,不同的聲紋使用同一臺(tái)設(shè)備,并且出現(xiàn)違法內(nèi)容時(shí)也可以判斷為有問(wèn)題的用戶。聲紋識(shí)別是通過(guò)聲紋檢索比對(duì)技術(shù),進(jìn)行聲紋聚類、關(guān)聯(lián),發(fā)現(xiàn)線上、線下語(yǔ)音廣告與欺詐行為。
橫向的內(nèi)容層、縱向的場(chǎng)景層、加上從源頭對(duì)用戶行為的分析,全棧式AI內(nèi)容風(fēng)控,其實(shí)是建立了一個(gè)多維防御空間來(lái)攔截和過(guò)濾違規(guī)內(nèi)容與欺詐用戶,從而防范業(yè)務(wù)風(fēng)險(xiǎn),避免更大的損失。
增長(zhǎng)得越快,背后的風(fēng)險(xiǎn)也越大。UGC內(nèi)容平臺(tái),小步快跑的同時(shí),別忘了,先好好活著。
轉(zhuǎn)自:中華網(wǎng)
版權(quán)及免責(zé)聲明:凡本網(wǎng)所屬版權(quán)作品,轉(zhuǎn)載時(shí)須獲得授權(quán)并注明來(lái)源“中國(guó)產(chǎn)業(yè)經(jīng)濟(jì)信息網(wǎng)”,違者本網(wǎng)將保留追究其相關(guān)法律責(zé)任的權(quán)力。凡轉(zhuǎn)載文章,不代表本網(wǎng)觀點(diǎn)和立場(chǎng)。版權(quán)事宜請(qǐng)聯(lián)系:010-65363056。
延伸閱讀

版權(quán)所有:中國(guó)產(chǎn)業(yè)經(jīng)濟(jì)信息網(wǎng)京ICP備11041399號(hào)-2京公網(wǎng)安備11010502035964