當(dāng)前位置首頁(yè) > 中國(guó)制造 > 企業(yè) >

數(shù)美科技全棧式反欺詐，UGC內(nèi)容平臺(tái)的生死大事

來(lái)源：中國(guó)產(chǎn)業(yè)經(jīng)濟(jì)信息網(wǎng) 時(shí)間：2018-11-26

　　令UGC頭部平臺(tái)焦慮的，不是流量，而是內(nèi)容審核

　　UGC內(nèi)容平臺(tái)，無(wú)論是資訊類、社交類、還是視頻類，在贏得了網(wǎng)民的支持(流量暴增)之后，隨之而來(lái)的，是頻繁的監(jiān)管審查、違規(guī)處理，諸如約談、整頓、關(guān)停。

　　數(shù)美科技認(rèn)為，凡事物極必反，經(jīng)濟(jì)繁榮表象下深藏泡沫，而內(nèi)容產(chǎn)業(yè)的繁榮下則是亂象叢生，受利益驅(qū)使，黑產(chǎn)自然不會(huì)放過(guò)內(nèi)容平臺(tái)這塊肥肉，平臺(tái)成了間接作惡工具，自然給企業(yè)帶來(lái)源源不斷的麻煩、損失。

　　2018年4月4日，國(guó)家廣電總局約談今日頭條、快手相關(guān)負(fù)責(zé)人，要求其將網(wǎng)站上涉及低俗、暴力、血腥、色情等內(nèi)容的節(jié)目立即下線。

　　7月，短視頻行業(yè)又迎來(lái)一輪最嚴(yán)監(jiān)管，多達(dá)15款短視頻App被下架。其中包括嗶哩嗶哩、洋蔥視頻等用戶耳熟能詳?shù)亩桃曨l分享平臺(tái)。

　　2018年，令UGC平臺(tái)最焦慮的不是流量，而是合規(guī)，是內(nèi)容風(fēng)險(xiǎn)。Facebook目前在全球擁有7500個(gè)內(nèi)容審查員;年初今日頭條內(nèi)容審核已超過(guò)4000人，預(yù)計(jì)未來(lái)突破1萬(wàn)人;快手多次被約談，勒令整改，不得不擴(kuò)充審核隊(duì)伍，2018年4月宣布緊急擴(kuò)招3000名內(nèi)容審核員。

　　當(dāng)然，除了大平臺(tái)，小平臺(tái)也一樣，內(nèi)容風(fēng)控是當(dāng)下互聯(lián)網(wǎng)業(yè)務(wù)發(fā)展最急迫也是最棘手的問(wèn)題。

　　數(shù)美科技認(rèn)為，來(lái)自內(nèi)容的風(fēng)險(xiǎn)主要有兩類

　　一是監(jiān)管合規(guī)難。主要是涉政、違禁、暴恐、色情四大類內(nèi)容，將直接導(dǎo)致平臺(tái)面臨約談、整頓、罰款乃至關(guān)停等監(jiān)管風(fēng)險(xiǎn)。

　　二是商業(yè)損失。UGC平臺(tái)充斥大量廣告導(dǎo)流、欺詐廣告，導(dǎo)致用戶體驗(yàn)變差、用戶流失、平臺(tái)受損。

　　導(dǎo)流廣告和欺詐廣告，往往由黑產(chǎn)所為，隨著互聯(lián)網(wǎng)行業(yè)發(fā)展，網(wǎng)絡(luò)欺詐無(wú)處不在，黑色產(chǎn)業(yè)鏈已發(fā)展為成熟體系。企業(yè)反欺詐面臨著黑產(chǎn)技術(shù)水平與專業(yè)程度不斷提高、缺乏全局風(fēng)險(xiǎn)數(shù)據(jù)支撐、專業(yè)反欺詐人才不足等實(shí)際難題，在黑產(chǎn)面前，損失不言而喻。

　　內(nèi)容上出了問(wèn)題，不僅會(huì)導(dǎo)致企業(yè)停擺，更會(huì)讓股市瑟瑟發(fā)抖，令投資人睡不好覺(jué)。此前，在被點(diǎn)名、約談乃至下架之后，B站股市飄綠，隨后不得不將內(nèi)容審核上升到戰(zhàn)略級(jí)。

　　在內(nèi)容百花齊放的時(shí)代，內(nèi)容風(fēng)控自然成了各平臺(tái)不可避免的發(fā)展課題。

　　內(nèi)容風(fēng)控的四個(gè)發(fā)展階段

　　對(duì)于內(nèi)容風(fēng)控的進(jìn)化階段，數(shù)美科技認(rèn)為有如下四個(gè)：

　　一、無(wú)人監(jiān)管。平臺(tái)必將頻頻遭遇監(jiān)管冷板凳待遇。

　　二、全部人工審核。面對(duì)黑產(chǎn)時(shí)，他們是機(jī)器作案，快速更新欺詐手段，更新設(shè)備號(hào)。人工必然是疲于應(yīng)付，卻收效甚微。

　　三、機(jī)器+人工審核。這是部分公司采用的方式，但受限于策略與模型上的規(guī)則簡(jiǎn)單，導(dǎo)致機(jī)器漏殺誤殺嚴(yán)重，人工變成了對(duì)機(jī)器審核的再次檢驗(yàn)，效率不僅沒(méi)有提升，準(zhǔn)確率也不高。

　　四、全棧式AI審核?；谌斯ぶ悄芩惴?，海量?jī)?nèi)容數(shù)據(jù)庫(kù)，建立全棧式的內(nèi)容及場(chǎng)景模型覆蓋，結(jié)合用戶行為畫像，確保內(nèi)容防護(hù)面面俱到，內(nèi)容識(shí)別高效與準(zhǔn)確。

　　內(nèi)容大爆炸的時(shí)代，違規(guī)內(nèi)容、欺詐內(nèi)容呈指數(shù)級(jí)增長(zhǎng)，在內(nèi)容審核上，有些是人工無(wú)法逾越的，比如人不能24小時(shí)工作，內(nèi)容審核團(tuán)隊(duì)也不能無(wú)限制擴(kuò)編。

　　此外在效率上，人工看圖片可以快速掠過(guò)，看視頻和音頻卻無(wú)法快進(jìn)，效率就會(huì)大打折扣。而機(jī)器可以在音視頻上節(jié)省大量時(shí)間，比如在音頻識(shí)別上，將聲音轉(zhuǎn)化成文字，再識(shí)別文字內(nèi)容。再比如面對(duì)黑產(chǎn)操縱的欺詐廣告，可以采用全局的風(fēng)險(xiǎn)數(shù)據(jù)支撐和強(qiáng)大的反欺詐技術(shù)，實(shí)現(xiàn)精準(zhǔn)識(shí)別。所以，應(yīng)付五花八門的內(nèi)容風(fēng)險(xiǎn)，自然要采用更前瞻的人工智能技術(shù)加全棧式的內(nèi)容風(fēng)控策略。

　　如何構(gòu)建一個(gè)無(wú)懈可擊的全棧式AI內(nèi)容防護(hù)?

　　機(jī)器智能審核的準(zhǔn)確率取決于數(shù)據(jù)量、算法、模型。當(dāng)數(shù)據(jù)量不夠多時(shí)，自然會(huì)漏殺，當(dāng)策略模型和算法不準(zhǔn)確時(shí)可能會(huì)誤殺。AI過(guò)濾就是通過(guò)對(duì)海量數(shù)據(jù)的深度學(xué)習(xí)，再結(jié)合算法對(duì)特定場(chǎng)景建立相應(yīng)的分析模型，最終把不同內(nèi)容形式的不良內(nèi)容過(guò)濾和攔截掉。

　　當(dāng)然，對(duì)于不同內(nèi)容形式，所需的技能與策略也不一樣，下面數(shù)美科技來(lái)一一講述。

　　文本識(shí)別

　　在文本識(shí)別上，人工智能技術(shù)可以通過(guò)深度學(xué)習(xí)與智能文本語(yǔ)義分析，識(shí)別同一詞在不同語(yǔ)境中的風(fēng)險(xiǎn)。比如針對(duì)大麻一詞，“雨很大麻煩車開(kāi)慢一點(diǎn)”是正常，“在美國(guó)大麻違法嗎”就屬于違禁。

　　文本識(shí)別重在要同步網(wǎng)安和網(wǎng)信辦合規(guī)要求，建立違規(guī)敏感詞庫(kù)，一般要建立數(shù)十萬(wàn)級(jí)詞庫(kù)，涵蓋各類敏感信息。

　　在對(duì)色情文本的識(shí)別上，則體現(xiàn)在分類模型的建立上，比如區(qū)別什么是色情、什么是低俗、什么是辱罵，因?yàn)椴煌脚_(tái)的審核標(biāo)準(zhǔn)不同，不同的分級(jí)要區(qū)別對(duì)待。

　　文本識(shí)別，還有一個(gè)很重要的功能就是識(shí)別聯(lián)系方式?，F(xiàn)在的聯(lián)系方式(微信、QQ、手機(jī)、網(wǎng)址、百度搜)以及各種變體，可謂五花八門。對(duì)此，通過(guò)機(jī)器學(xué)習(xí)建立上萬(wàn)種聯(lián)系方式變體特征庫(kù)就顯得很重要。

　　圖片識(shí)別

　　圖片識(shí)別同樣有各種細(xì)分需求，拿涉政圖片來(lái)說(shuō)，就得分普通、漫畫、雕塑、惡搞、負(fù)面涉政等。圖片識(shí)別重在建立數(shù)據(jù)庫(kù)，以及針對(duì)不同類型進(jìn)行模型訓(xùn)練。

　　拿暴恐來(lái)說(shuō)，同樣是槍支，細(xì)化到場(chǎng)景，有單純的槍支圖片，但是游戲人物拿著槍支算不算?這就涉及到對(duì)不同的槍支圖片進(jìn)行細(xì)分，分別建策略模型，確保游戲槍支不被誤殺。

　　色情圖片識(shí)別，也需要分級(jí)，性感、色情、重度色情要區(qū)別對(duì)待，其次是場(chǎng)景，直播、視頻、電商、社區(qū)、游戲，不同的場(chǎng)景下的色情要分別對(duì)待，海外一些平臺(tái)非常重視兒童裸露色情，所以就得有兒童裸露的策略模型，而國(guó)內(nèi)審核上一般不視為色情。

　　音頻識(shí)別

　　一般語(yǔ)音識(shí)別在語(yǔ)音直播、FM電臺(tái)、語(yǔ)音消息、語(yǔ)音文件、視頻直播中都有用到。語(yǔ)音過(guò)濾可以利用人工智能將語(yǔ)音轉(zhuǎn)文本，再識(shí)別文本中的涉政、色情、廣告等內(nèi)容。語(yǔ)音識(shí)別又涉及到不同語(yǔ)種，比如普通話、英語(yǔ)、藏語(yǔ)等。

　　此外，還有一些是特殊化的語(yǔ)音，拿數(shù)美天凈來(lái)說(shuō)，就專門為語(yǔ)音中的嬌喘建模，目前有多家平臺(tái)在使用，嬌喘識(shí)別是通過(guò)深度學(xué)習(xí)與語(yǔ)音檢測(cè)技術(shù)，識(shí)別嬌喘、呻吟等非說(shuō)話色情。

　　視頻識(shí)別

　　視頻識(shí)別是對(duì)視頻內(nèi)容中的畫面、聲音、文字進(jìn)行全方位分析過(guò)濾，視頻包括短視頻、長(zhǎng)視頻、視頻直播等多種場(chǎng)景。

　　人工智能技術(shù)對(duì)視頻的審核過(guò)濾，會(huì)將視頻進(jìn)行拆分，將視頻進(jìn)行畫面截幀，從而過(guò)濾圖片，圖片中的字幕則利用OCR字幕來(lái)過(guò)濾。視頻標(biāo)題通過(guò)文本過(guò)濾模型來(lái)檢測(cè)，視頻語(yǔ)音則單獨(dú)采用語(yǔ)音模型過(guò)濾。

　　全棧式AI內(nèi)容風(fēng)控需要具備哪些特征?

　　互聯(lián)網(wǎng)發(fā)展至今，需要內(nèi)容風(fēng)控的場(chǎng)景越來(lái)越多，更新迭代也快，從文本、圖片，到長(zhǎng)視頻、短視頻，直播答題火了一陣后，抖音風(fēng)生水起，內(nèi)容的場(chǎng)景越多，對(duì)內(nèi)容審核的AI技術(shù)及場(chǎng)景化應(yīng)用的要求也更高。數(shù)美科技認(rèn)為做到全棧式AI內(nèi)容風(fēng)控需要具備三個(gè)方面：

　　一、橫向來(lái)講，在內(nèi)容形式上要做到全域覆蓋

　　內(nèi)容主要有五類：文本、圖片、音頻、視頻、網(wǎng)頁(yè)。文本要合規(guī)，音視頻也要合規(guī)，各種形式的內(nèi)容風(fēng)控都要抓起來(lái)。文本比較單一，但視頻中有圖片、標(biāo)題、字幕、語(yǔ)音，它又是一個(gè)綜合了多種形式的內(nèi)容，它的審核要更復(fù)雜。在音頻內(nèi)容中有聲紋識(shí)別，還有非說(shuō)話色情，比如嬌喘等等。在內(nèi)容形式上要覆蓋足夠?qū)拸V，才不會(huì)造成誤殺漏殺。

　　二、縱向來(lái)講，在垂直場(chǎng)景上要做到深度應(yīng)用

　　風(fēng)控是細(xì)化到場(chǎng)景的，對(duì)場(chǎng)景的理解與場(chǎng)景化建模能力要求很高，拿圖片涉政場(chǎng)景來(lái)講，有正常照片、雕塑、漫畫，每一個(gè)場(chǎng)景都需要單獨(dú)的模型;游戲直播平臺(tái)會(huì)要求把槍支分為槍支和游戲槍支，那么游戲槍支就需要單獨(dú)建分析模型。在特殊時(shí)期，坦克這一類型也是需要被識(shí)別過(guò)濾的，還有不良行為，比如抽煙、喝酒等。人工智能技術(shù)非常考驗(yàn)對(duì)場(chǎng)景的理解與技術(shù)應(yīng)用。

　　三、結(jié)合用戶行為畫像，從源頭識(shí)別欺詐用戶

　　前文中提到的內(nèi)容風(fēng)險(xiǎn)除了有監(jiān)管不合規(guī)外，還有一類是商業(yè)損失。造成商業(yè)損失的內(nèi)容，如廣告導(dǎo)流、欺詐廣告是由專業(yè)的黑產(chǎn)團(tuán)隊(duì)所為。

　　正常用戶所發(fā)布的內(nèi)容，我們通過(guò)機(jī)器的深度學(xué)習(xí)來(lái)識(shí)別，但黑產(chǎn)發(fā)布的內(nèi)容通常是通過(guò)設(shè)備號(hào)批量注冊(cè)賬號(hào)，批量發(fā)布信息，令人防不勝防，這時(shí)候就需要我們結(jié)合設(shè)備指紋與用戶行為畫像分析來(lái)進(jìn)行反欺詐。

　　行為畫像是采用行為序列、關(guān)聯(lián)圖挖掘、風(fēng)險(xiǎn)傳播算法等時(shí)域關(guān)聯(lián)分析技術(shù)對(duì)用戶做行為分析。比如用戶在登錄時(shí)顯示沒(méi)問(wèn)題，但是每隔幾分鐘登錄一次，可能就是問(wèn)題用戶。再比如用戶登錄沒(méi)問(wèn)題，但行為有問(wèn)題，頻繁發(fā)違規(guī)內(nèi)容，這樣綜合判定該用戶是有問(wèn)題的。

　　用戶畫像主要是對(duì)用戶歷史行為進(jìn)行記錄，對(duì)其每一次的網(wǎng)絡(luò)行為也進(jìn)行記錄，最終結(jié)合啟動(dòng)、注冊(cè)、登錄、再到業(yè)務(wù)行為，把這幾個(gè)步驟關(guān)聯(lián)起來(lái)建立用戶行為畫像，確保識(shí)別效果更準(zhǔn)確。

　　用戶行為畫像是反欺詐中的關(guān)鍵點(diǎn)，以數(shù)美天凈的聲紋識(shí)別舉例來(lái)說(shuō)，在平臺(tái)上識(shí)別出欺詐廣告的賬號(hào)，會(huì)把其聲紋記錄下來(lái)存在聲紋黑名單庫(kù)中，下次即使該用戶更換了設(shè)備再進(jìn)行詐騙，依然可以通過(guò)聲紋比對(duì)識(shí)別出來(lái)。

　　一般一臺(tái)設(shè)備是一個(gè)人使用，不同的聲紋使用同一臺(tái)設(shè)備，并且出現(xiàn)違法內(nèi)容時(shí)也可以判斷為有問(wèn)題的用戶。聲紋識(shí)別是通過(guò)聲紋檢索比對(duì)技術(shù)，進(jìn)行聲紋聚類、關(guān)聯(lián)，發(fā)現(xiàn)線上、線下語(yǔ)音廣告與欺詐行為。

　　橫向的內(nèi)容層、縱向的場(chǎng)景層、加上從源頭對(duì)用戶行為的分析，全棧式AI內(nèi)容風(fēng)控，其實(shí)是建立了一個(gè)多維防御空間來(lái)攔截和過(guò)濾違規(guī)內(nèi)容與欺詐用戶，從而防范業(yè)務(wù)風(fēng)險(xiǎn)，避免更大的損失。

　　增長(zhǎng)得越快，背后的風(fēng)險(xiǎn)也越大。UGC內(nèi)容平臺(tái)，小步快跑的同時(shí)，別忘了，先好好活著。

轉(zhuǎn)自：中華網(wǎng)

返回產(chǎn)經(jīng)網(wǎng)首頁(yè) >>

　　版權(quán)及免責(zé)聲明：凡本網(wǎng)所屬版權(quán)作品，轉(zhuǎn)載時(shí)須獲得授權(quán)并注明來(lái)源“中國(guó)產(chǎn)業(yè)經(jīng)濟(jì)信息網(wǎng)”，違者本網(wǎng)將保留追究其相關(guān)法律責(zé)任的權(quán)力。凡轉(zhuǎn)載文章，不代表本網(wǎng)觀點(diǎn)和立場(chǎng)。版權(quán)事宜請(qǐng)聯(lián)系：010-65363056。

延伸閱讀

熱點(diǎn)視頻

性能提升、服務(wù)擴(kuò)展，北斗三號(hào)基本系統(tǒng)建成

熱點(diǎn)新聞

熱點(diǎn)輿情

特色小鎮(zhèn)

數(shù)美科技全棧式反欺詐，UGC內(nèi)容平臺(tái)的生死大事

熱點(diǎn)視頻

熱點(diǎn)新聞

熱點(diǎn)輿情

特色小鎮(zhèn)

微信公眾號(hào)

數(shù)美科技全棧式反欺詐，UGC內(nèi)容平臺(tái)的生死大事