国产乱子伦一区二区三区-国产精品久久毛片-精品久久久久成人码免费动漫-国产精品亚洲二区在线观看

分享縮略圖

分享到:
鏈接已復(fù)制

新聞

新聞直播 要聞 國(guó)際 軍事 政協(xié) 政務(wù) 圖片 視頻

財(cái)經(jīng)

財(cái)經(jīng) 金融 證券 汽車 科技 消費(fèi) 能源 地產(chǎn) 農(nóng)業(yè)

觀點(diǎn)

觀點(diǎn) 理論 智庫(kù) 中國(guó)3分鐘 中國(guó)訪談 中國(guó)網(wǎng)評(píng) 中國(guó)關(guān)鍵詞

文化

文化 文創(chuàng) 藝術(shù) 時(shí)尚 旅游 鐵路 悅讀 民藏 中醫(yī) 中國(guó)瓷

國(guó)情

國(guó)情 助殘 一帶一路 海洋 草原 黃河 運(yùn)河 灣區(qū) 聯(lián)盟 心理 老年

首頁(yè)> 觀點(diǎn)中國(guó)>

防止AI“知識(shí)污染”,警惕認(rèn)知隱性陷阱

2025-08-14 08:34

來(lái)源:環(huán)球時(shí)報(bào)

分享到:
鏈接已復(fù)制
字體:

最近,筆者向一款國(guó)產(chǎn)大模型提問(wèn)“縣域AI應(yīng)用面臨哪些挑戰(zhàn)”,得到一個(gè)結(jié)構(gòu)清晰、數(shù)據(jù)翔實(shí)的回答。例如,回答提到,“約60%的縣域?qū)W校設(shè)備不滿足AI基礎(chǔ)需求”,還指出“某縣醫(yī)院AI忽略甲亢、誤推心臟檢查的概率達(dá)68%”。這些數(shù)據(jù)精準(zhǔn)得讓人印象深刻。但當(dāng)筆者核實(shí)這些信息的來(lái)源時(shí),卻發(fā)現(xiàn)它們大多來(lái)自一些自媒體文章,而這些文章本身也拿不出任何權(quán)威的佐證。這個(gè)小小的案例,揭開了一個(gè)巨大且令人擔(dān)憂的問(wèn)題:我們賴以獲取信息的AI,其知識(shí)本身可能已經(jīng)被“污染”了。

這種“污染”并非個(gè)例,而是正在成為一個(gè)系統(tǒng)性的風(fēng)險(xiǎn)。要理解這個(gè)問(wèn)題,首先需要知道AI大模型是如何學(xué)習(xí)的。簡(jiǎn)單來(lái)說(shuō),它的“智力”主要來(lái)源于海量的“學(xué)習(xí)材料”,也就是訓(xùn)練數(shù)據(jù)。如果這些材料本身就有問(wèn)題,那么AI的認(rèn)知從一開始就是扭曲的。

這種信息污染,主要通過(guò)以下三個(gè)環(huán)節(jié)發(fā)生。

第一環(huán)節(jié):預(yù)訓(xùn)練——打下“有毒”的地基。大模型學(xué)習(xí)的第一步,是“通讀”海量的互聯(lián)網(wǎng)數(shù)據(jù),這個(gè)過(guò)程叫“預(yù)訓(xùn)練”。像國(guó)外的GPT-3,其60%的訓(xùn)練材料來(lái)自一個(gè)名為“通用爬取”的數(shù)據(jù)庫(kù),它就像是整個(gè)互聯(lián)網(wǎng)的快照。

這里的污染是源頭性的。首先,互聯(lián)網(wǎng)上的信息本就魚龍混雜,充斥著偏見、過(guò)時(shí)信息甚至謊言。AI在學(xué)習(xí)時(shí)會(huì)不加分辨地全盤吸收。其次,現(xiàn)有的大部分?jǐn)?shù)據(jù)是英文的,這導(dǎo)致AI天生就帶有一種以西方視角為中心的傾向。

更隱蔽的是“加權(quán)投喂”。比如,在GPT-3的訓(xùn)練中,來(lái)自維基百科的資料只占總量的0.6%,卻被賦予了3%的權(quán)重。這意味著AI被強(qiáng)制要求“超額學(xué)習(xí)”維基百科的內(nèi)容。考慮到維基百科在很多議題上存在特定的立場(chǎng),這種操作相當(dāng)于在AI的底層認(rèn)知中,預(yù)先埋下一個(gè)特定的價(jià)值框架。

第二環(huán)節(jié):后訓(xùn)練——精心設(shè)計(jì)的“認(rèn)知投毒”。如果說(shuō)預(yù)訓(xùn)練的污染是無(wú)意的、慢性的,那么在后訓(xùn)練(或稱“微調(diào)”)階段,污染則可能是故意的、精準(zhǔn)的。后訓(xùn)練的目的是通過(guò)更高質(zhì)量的數(shù)據(jù),提升AI在特定任務(wù)上的表現(xiàn)。但這也為“投毒”者提供了可乘之機(jī)。

在一個(gè)被全球開發(fā)者廣泛使用的開源數(shù)據(jù)集中,研究人員發(fā)現(xiàn)了一個(gè)精心設(shè)計(jì)的案例。這段對(duì)話的前半部分完全正常,用戶在詢問(wèn)一款技術(shù)工具,AI也給出了專業(yè)回答。然而,對(duì)話后半段畫風(fēng)突變,提問(wèn)者突然用繁體中文拋出大量具有明顯誘導(dǎo)性的反華政治問(wèn)題。在一個(gè)幾乎不涉及中國(guó)政治的數(shù)據(jù)集里,插入這樣一條觀點(diǎn)極端的數(shù)據(jù),其后果是十分危險(xiǎn)的。其他AI模型如果使用這個(gè)“帶毒”的數(shù)據(jù)集進(jìn)行訓(xùn)練,就會(huì)在潛意識(shí)深處被植入一個(gè)關(guān)于中國(guó)極其負(fù)面的“思想鋼印”。這種手法,已經(jīng)不是簡(jiǎn)單的信息真?zhèn)螁?wèn)題,而是一種目的明確的認(rèn)知操縱。

第三環(huán)節(jié):實(shí)時(shí)搜索——從被污染的“井”里打水。為了讓回答更準(zhǔn)確、更新,現(xiàn)在的AI應(yīng)用大多具備了實(shí)時(shí)上網(wǎng)搜索信息的能力。然而,這又帶來(lái)了一個(gè)新問(wèn)題:如果AI搜索的中文互聯(lián)網(wǎng)信息本身就質(zhì)量堪憂,那么它也只能從一口“被污染的井”里打水。

前文提到的關(guān)于“縣域AI挑戰(zhàn)”的虛假數(shù)據(jù),就是AI從自媒體平臺(tái)搜索到的結(jié)果。這暴露了當(dāng)前中文互聯(lián)網(wǎng)的一個(gè)困境:高質(zhì)量、可信賴的信息源稀缺。很多平臺(tái)為了流量,默許甚至鼓勵(lì)大量的“內(nèi)容工廠”生產(chǎn)信息垃圾。更諷刺的是,一種“AI生成的內(nèi)容被AI引用”的怪圈正在形成。AI生成的包含事實(shí)錯(cuò)誤的垃圾文章被發(fā)布到網(wǎng)上,隨后又被其他AI當(dāng)作“知識(shí)”抓取和引用,導(dǎo)致錯(cuò)誤信息被不斷放大和固化。

面對(duì)從源頭到應(yīng)用的全鏈路污染,僅僅依靠在AI輸出的最后環(huán)節(jié)進(jìn)行內(nèi)容過(guò)濾,是遠(yuǎn)遠(yuǎn)不夠的。這就像在一個(gè)已經(jīng)被污染的水龍頭末端安裝一個(gè)簡(jiǎn)易過(guò)濾器,只能濾掉一些表面的雜質(zhì),卻無(wú)法去除深植于水中的有害物質(zhì)。大模型語(yǔ)料的污染,本質(zhì)上是一場(chǎng)正在發(fā)生、卻又不見硝煙的戰(zhàn)爭(zhēng)。它攻擊的是我們的大腦,爭(zhēng)奪的是未來(lái)的認(rèn)知主導(dǎo)權(quán)。在這場(chǎng)關(guān)乎每個(gè)人如何認(rèn)知世界的斗爭(zhēng)中,我們必須有所行動(dòng)。

首先,需要建立我們自己的、高質(zhì)量的“清潔語(yǔ)料庫(kù)”。這相當(dāng)于為我們的AI挖掘一口“戰(zhàn)略儲(chǔ)備井”,確保它們能喝上干凈的水。令人欣慰的是,我國(guó)教育部、國(guó)家語(yǔ)委等部門已經(jīng)提出目標(biāo),計(jì)劃在2027年初步建成國(guó)家關(guān)鍵語(yǔ)料庫(kù),這正是邁向勝利的關(guān)鍵一步。

其次,國(guó)內(nèi)的互聯(lián)網(wǎng)平臺(tái)和搜索引擎服務(wù)商必須承擔(dān)起信息治理的責(zé)任。當(dāng)下的“流量為王”模式,實(shí)質(zhì)上是在鼓勵(lì)“劣幣驅(qū)逐良幣”,長(zhǎng)遠(yuǎn)來(lái)看,損害的是整個(gè)社會(huì)的信息環(huán)境和我們每個(gè)人的利益。

最后,作為普通用戶,我們需要提高警惕性。在享受AI帶來(lái)便利的同時(shí),要對(duì)其提供的信息,尤其是那些看起來(lái)過(guò)于“完美”或聳人聽聞的數(shù)據(jù)和觀點(diǎn),保持一份審慎和懷疑。多方核實(shí)信息來(lái)源,依然是我們?cè)谥悄軙r(shí)代保護(hù)自己認(rèn)知安全的必要手段。(作者是華東師范大學(xué)國(guó)際傳播研究院全球南方中心主任)


【責(zé)任編輯:申罡】
返回頂部