當(dāng)下正是畢業(yè)季,論文的“AI味”太濃,是高校共同面對的新難題。今年的高校畢業(yè)生在畢業(yè)論文階段,除了傳統(tǒng)的查重、盲審、答辯,畢業(yè)路上又多了一道關(guān)卡——AIGC檢測,也就是人工智能生成內(nèi)容檢測。
假設(shè)你是一名畢業(yè)生,發(fā)現(xiàn)自己的論文AI率有62%,離學(xué)校規(guī)定的15%的紅線差了47個百分點。而后你打開一個大模型,輸入“幫我把這篇論文改得像人寫的”,改完一查——AI率竟然升到了94%。這種情況并非個案,過去一段時間不少畢業(yè)生都遇到過。學(xué)校讓AI查AI率,學(xué)生用AI降A(chǔ)I率,這都靠譜嗎?畢業(yè)論文檢測,怎樣更科學(xué)?
檢測工具不完善
學(xué)生修改后AI率不降反升
多所高校在畢業(yè)論文審核中增設(shè)AI生成內(nèi)容檢測環(huán)節(jié)。然而,不少學(xué)生反映,現(xiàn)在的檢測工具似乎還不是很完善,比如自己寫的內(nèi)容會被誤判為AI生成,反復(fù)修改后AI率不降反升。同時,一些以“降A(chǔ)I率”為名的付費服務(wù)在網(wǎng)絡(luò)上隨處可見。這些也給不少學(xué)生帶來困擾。
某高校畢業(yè)生 小吳:學(xué)校卡了20%的“AI率”線,提交上去發(fā)現(xiàn)自己寫的也被打成AI寫的了。你就要在有限的時間內(nèi)把“AI率”降下來,同時還要兼顧查重率,有時候“AI率”降下來,查重率又升上去了。
除了自己寫的文字被判定為AI生成之外,針對查出來的疑似AI生成內(nèi)容,由于檢測報告中只有整段紅色標(biāo)注,而沒有解釋為何被認(rèn)定為AI生成,學(xué)生在修改的時候也不清楚自己應(yīng)該往哪個方向改。
某高校畢業(yè)生 小孫:調(diào)整了四次,把我標(biāo)紅的那些被認(rèn)為是AI的字段,我進(jìn)行了一些擴寫,然后我得到的結(jié)果是,我改了一個晚上,它的AI查重率從15%升到了19%。而且我第一次沒有標(biāo)紅,并且第二次也沒有修改的原文在這次標(biāo)紅了。
瞅準(zhǔn)部分高校在畢業(yè)論文審核中增設(shè)AI生成內(nèi)容檢測環(huán)節(jié),一些私人公司就打著售賣畢業(yè)論文“降A(chǔ)I率”的服務(wù),在社交媒體、網(wǎng)絡(luò)平臺上發(fā)廣告、招攬業(yè)務(wù),亂象較多,也給畢業(yè)生帶來干擾和困惑。
某高校畢業(yè)生 小劉:一方面AI查重賺一波錢,然后降A(chǔ)I又賺一波錢。其實非常暴利,改一次實際的成本可能5塊錢都不要,但他收100塊錢。我覺得這個快成為一條產(chǎn)業(yè)鏈了,論文檢測平臺它有AI率的檢測,外部的一些平臺它有降A(chǔ)I的服務(wù),本質(zhì)上是用AI去“降A(chǔ)I率”,它的意義也不大。
大模型如何檢測一篇文章中AI生成內(nèi)容?
學(xué)校對于學(xué)生的論文設(shè)置“AI率”檢測紅線,但是有不少學(xué)生反映,學(xué)校檢查論文AI率也是依托指定檢測平臺、結(jié)合算法模型分析。
一般來講,目前主流高校多采用知網(wǎng)、維普、萬方等系統(tǒng)的AIGC檢測模塊。那么,AI大模型到底是如何檢測一篇文章中有多少內(nèi)容是AI生成的呢?
記者將這一問題拋給了多個大模型,總結(jié)相關(guān)的回答,簡單來說就是通過“困惑度與突發(fā)性”等特征來判斷。AI文本通常更“平滑”,人類文本波動更大。
大模型回答,困惑度指的是文本的“可預(yù)測性”,越充滿人類特有的、意外的、跳出常規(guī)的表達(dá),越像人類。突發(fā)性,就是文本節(jié)奏波動——人類寫作如心電圖般起伏,AI輸出則如直線般平穩(wěn)。如此判斷,準(zhǔn)確嗎?
對此,專家告訴記者,除了困惑度、突發(fā)性等指標(biāo)外,AI文本生成的原理是通過預(yù)測下一個最有可能出現(xiàn)這種詞的概率來逐漸生成文本,可以理解為基于一種概率統(tǒng)計。所以,目前檢測AI生成內(nèi)容準(zhǔn)確性都做不到100%,誤判也時有發(fā)生。
檢測“AI率”原理基于概率而非確定性判斷
首都師范大學(xué)教育學(xué)院副院長 蔡海龍:查重是將論文與語料庫進(jìn)行語句對比,從而確定這種語句的重復(fù)性,做出確定性的判斷。而AI檢測是運用AI系統(tǒng)去檢測人類文本,在語意、語言表達(dá)風(fēng)格上和AI寫作是否存在重疊,本質(zhì)上是一種基于概率的分類,而非基于證據(jù)的確定性的判斷。
當(dāng)前AI檢測的技術(shù)瓶頸核心就在于我們是在用AI去查AI,這就導(dǎo)致我們不能明確判定這段文字是人類作者所寫還是AI所寫,不能對此做出明確的解釋和說明,這是技術(shù)瓶頸最為關(guān)鍵之所在。
除此之外,中文語言表達(dá)方面還有另外一個特點,它的語意非常豐富,語句的表達(dá)方式也非常豐富。這就使得人工智能系統(tǒng)在檢測人類作者所寫作語句的時候,它就會產(chǎn)生很多的歧義,它的難度,它的準(zhǔn)確率都會相應(yīng)增加,這是導(dǎo)致誤判的一個很重要的原因。
由于AI率檢測目前還不能做到十分精準(zhǔn),老師們認(rèn)為在論文審核上,應(yīng)建立透明可回溯的AI使用標(biāo)注制度,而非簡單地劃定AI率“紅線”。在判定機制上,應(yīng)確立以人工評議為主、AI檢測為輔的“人機共判”模式。
編輯:陳琦