一項(xiàng)針對(duì)學(xué)術(shù)文獻(xiàn)的大規(guī)模分析顯示,去年發(fā)表的生物醫(yī)學(xué)論文摘要中,約1/7可能借助人工智能(AI)完成撰寫(xiě)。2024年,醫(yī)學(xué)數(shù)據(jù)庫(kù)PubMed收錄的150萬(wàn)篇摘要中,超過(guò)20萬(wàn)篇包含大型語(yǔ)言模型(LLM)常推薦使用的詞匯。

相關(guān)研究于2024年6月以預(yù)印本形式在線公布,當(dāng)時(shí)預(yù)計(jì)上半年約1/9的摘要由AI輔助完成。上述最新分析結(jié)果則在今年7月2日發(fā)表于《科學(xué)進(jìn)展》。

1/7生物醫(yī)學(xué)論文摘要由AI撰寫(xiě)-肽度TIMEDOO圖片來(lái)源:Nicolas Economou/NurPhoto via Getty

英國(guó)倫敦大學(xué)學(xué)院的Andrew Gray表示:“由LLM編輯的論文數(shù)量一直‘不可阻擋地增長(zhǎng)’?!彼J(rèn)為,研究人員尚未充分認(rèn)識(shí)到這些工具被用于產(chǎn)出學(xué)術(shù)成果的規(guī)模,“希望這篇論文能推動(dòng)人們關(guān)注這一問(wèn)題”。

許多團(tuán)隊(duì)試圖評(píng)估LLM對(duì)學(xué)術(shù)產(chǎn)出的影響,但這一過(guò)程頗具挑戰(zhàn)性,因?yàn)榇蠖鄶?shù)使用者并未披露這種行為。常見(jiàn)方法是訓(xùn)練模型識(shí)別人類與LLM生成文本的差異,再將其應(yīng)用于文獻(xiàn)評(píng)估。然而,目前尚不清楚此類模型如何區(qū)分兩種文本,且訓(xùn)練數(shù)據(jù)集未必能反映LLM生成文本的最新趨勢(shì)。

德國(guó)圖賓根大學(xué)的Dmitry Kobak及同事采用了更開(kāi)放的研究方法。他們?cè)谡兴阉?022年11月ChatGPT普及后出現(xiàn)頻率異常升高的“冗余詞匯”。

研究發(fā)現(xiàn),2024年有454個(gè)詞匯的出現(xiàn)頻率遠(yuǎn)高于2010年以來(lái)的任何年份。它們多為與研究?jī)?nèi)容無(wú)關(guān)的“風(fēng)格詞”,且以動(dòng)詞和形容詞為主。其中既有常見(jiàn)詞匯“發(fā)現(xiàn)”“潛力”,也有較生僻的詞匯“探究”“展現(xiàn)”。Kobak指出,2024年下半年新增的冗余詞匯包括“顯著增強(qiáng)”“妨礙”,以及“無(wú)與倫比”“極有用”等最高級(jí)形容詞。

科學(xué)詞匯的演變是長(zhǎng)期過(guò)程。2021年有190個(gè)“冗余詞匯”,多為與研究?jī)?nèi)容相關(guān)的名詞。但自LLM普及以來(lái)的詞匯變化更為顯著,且主要體現(xiàn)在風(fēng)格層面。

此外,在計(jì)算科學(xué)和生物信息學(xué)等領(lǐng)域,超過(guò)1/5的摘要由LLM輔助撰寫(xiě)。“今年的整體數(shù)據(jù)可能進(jìn)一步上升,LLM的使用仍在持續(xù)增加?!盞obak表示。AI實(shí)際使用率可能比最新研究顯示的更高。

2月,法國(guó)巴黎高等師范學(xué)院的Mingmeng Geng及同事在預(yù)印本平臺(tái)arXiv公布的研究中指出,部分標(biāo)志性詞匯和短語(yǔ),如“探究”在2024年底的出現(xiàn)頻率有所下降。他認(rèn)為,這可能是由于相關(guān)研究將其標(biāo)記為“使用AI”,促使作者刪除此類詞匯,或調(diào)整LLM請(qǐng)求以規(guī)避檢測(cè)。

隨著作者不斷調(diào)整策略,評(píng)估AI對(duì)學(xué)術(shù)文獻(xiàn)影響的研究變得越發(fā)困難。另一大挑戰(zhàn)在于,包括Kobak團(tuán)隊(duì)在內(nèi)的研究均無(wú)法確定AI工具的具體使用方式。作者可能將其用于合理場(chǎng)景,如潤(rùn)色文本或輔助翻譯,也可能涉及更具爭(zhēng)議的做法,如在缺乏適當(dāng)監(jiān)督的情況下生成大段文本。“這其中存在真正的科研誠(chéng)信隱患?!盙ray說(shuō)。

相關(guān)論文信息:https://doi.org/10.48550/arXiv.2406.07016

來(lái)源:中國(guó)科學(xué)報(bào)