無論是趕集網、58***等分類信息網站,還是慧聰網、1688等大型B2B電子商務網站,每天更新的數據都是海量的。趕集網淘寶相關職位招聘頁面,北京地區僅一天發布的淘寶相關職位就有20頁之多,要依靠人工審核每條數據是不可能完成的。
這就需要建立一個強大的機審規則來代替人工審核工作量。具體操作步驟如下:
(1)短信驗證碼確認發布。利用短信驗證碼可以有效避免機器發布海量垃圾內容,如果有短信驗證碼,就能確定是人為發布。
(2)建立違禁詞庫。網民發布信息的內容不可控,可能會觸及到黃賭毒等法律法規禁止的相關內容,因此需要違禁詞庫來做初級篩選屏蔽相關內容。當網民發送的內容包含違禁詞庫
信息時,自動觸發刪除或者人工審核程序。違禁詞庫應根據法律法規政策和時代變化一直不斷地更新、增加內容,在最初設計時需要有足夠多的容量和算法來保證短時間能完成這個審核。
(3)UGC網站內容頁一般都設有投訴舉報入口。當有其他用戶投訴舉報該信息時,立即觸發人工審核機制,對該信息重新審核。
網站建設SEO人員在優化UGC網站時,想要快速審核海量數據,可以參考上述方法。
>>> 查看《如何審核大量網站數據?》更多相關資訊 <<<
本文地址:http://www.ms699.com/news/html/4451.html