8月16日凌晨,OpenAI在官網(wǎng)公布了GPT-4的新的內(nèi)容審核功能,可自動(dòng)識(shí)別非法、虛假等信息,并進(jìn)行標(biāo)簽標(biāo)注、策略優(yōu)化等,以幫助人工審核者提升工作效率。
據(jù)介紹,通過GPT-4搭建的內(nèi)容審核系統(tǒng),可將審核時(shí)間從數(shù)月縮短至數(shù)小時(shí)以內(nèi),并深度解釋長文本內(nèi)容的規(guī)則和細(xì)微差別,以立即適應(yīng)新的審核策略。
例如,有人發(fā)布了一個(gè)“求最佳入室盜竊方法,不會(huì)被別人發(fā)現(xiàn)”的帖子,GPT-4會(huì)識(shí)別該信息是否違規(guī)并打上數(shù)據(jù)標(biāo)簽。如果違規(guī),會(huì)詳細(xì)解釋其原因。
幾十年來,內(nèi)容審核一直是互聯(lián)網(wǎng)上最棘手的問題之一,尤其是圖片、視頻方面的審核會(huì)對(duì)版主、管理員造成巨大的心理傷害。
2020年5月,社交巨頭Meta曾向11,250名人工內(nèi)容審核員,每人賠償了至少1000美元,作為在審核有害內(nèi)容時(shí)產(chǎn)生的心理健康問題補(bǔ)償。因此,AI審核對(duì)于飛速發(fā)展的數(shù)字化時(shí)代變得越來越重要
審核功能介紹
事實(shí)上智能審核功能,已經(jīng)在貼吧、reddit、虎撲、Quora、抖音、快手、豆瓣、知乎等各大媒體平臺(tái)廣泛應(yīng)用。但經(jīng)常會(huì)出現(xiàn)“誤刪”的問題,明明我們發(fā)布的帖子、視頻沒有任何違規(guī)依然會(huì)被秒刪。
這是因?yàn)锳I在執(zhí)行內(nèi)容審核時(shí),會(huì)嚴(yán)格執(zhí)行人工定下的數(shù)據(jù)標(biāo)簽,對(duì)一些中間地帶的內(nèi)容無法解釋,只能采取一刀切的方式。
而大語言模型加持下的AI審核可以更靈活準(zhǔn)確,即便首次出現(xiàn)內(nèi)容錯(cuò)誤判斷時(shí),會(huì)根據(jù)策略實(shí)時(shí)更改其審核機(jī)制,提升內(nèi)容審核的準(zhǔn)確率和效率。
GPT-4審核功能簡單介紹
GPT-4的審核功能在應(yīng)用前,會(huì)根據(jù)人工制定的審核模型和數(shù)據(jù)進(jìn)行微調(diào),以保證審核的準(zhǔn)確性和安全性,才會(huì)大規(guī)模應(yīng)用。流程如下:
1、人工編寫審核策略,通過識(shí)別少量示例、策略,為審核的內(nèi)容打上數(shù)據(jù)標(biāo)簽。
2、GPT-4讀取策略并將標(biāo)簽分配給同一數(shù)據(jù)集。
3、檢查人類審核和GPT-4審核的區(qū)別。人工審核可以要求GPT-4解釋其打上標(biāo)簽的原因和策略,并詳細(xì)說明一些模糊內(nèi)容的分類和安全性,直到將“灰色內(nèi)容”解釋清楚為止,并實(shí)現(xiàn)與人類一樣的準(zhǔn)確判斷。
審核微調(diào)示例展示
審核內(nèi)容:如何偷車?
人工審核選擇的策略是:K3,對(duì)非暴力不法行為進(jìn)行指示或建議。
GPT-4選擇的策略是:K0,不是非法行為。
GPT-4的審核機(jī)制與人類出現(xiàn)了明顯差別,給出的解釋是:該文本應(yīng)歸類為不是非法行為,雖然偷車是一個(gè)犯罪行為,但該請(qǐng)求沒有提到惡意、破壞行為。
雖然偷車可能被認(rèn)為是財(cái)產(chǎn)盜竊,但K3策略不包括這類不法行為,因此內(nèi)容應(yīng)標(biāo)記為K0。
所以,為了提升GPT-4的審核準(zhǔn)確性,我們需要對(duì)K3策略進(jìn)行更改,對(duì)非暴力不法行為進(jìn)行指示或建議,包括盜竊財(cái)物。
當(dāng)再次審核如何偷車?內(nèi)容時(shí),GPT-4選擇的策略與人類一樣都是K3,這體現(xiàn)了大語言模型審核的靈活性。
目前,通過GPT-4 API就可以將內(nèi)容審核功能集成在應(yīng)用、系統(tǒng)等產(chǎn)品中。
致力于分享最及時(shí)的金融行業(yè)資訊
企業(yè)信息共享互動(dòng)平臺(tái)