本刊記者 鄭雪
如果要求ChatGPT持續(xù)輸出一個單詞,會怎么樣?大模型在重復這個單詞一定次數之后就會“發(fā)瘋”,甚至開始輸出某些個人隱私信息。
這是谷歌DeepMind、華盛頓大學、康奈爾大學等研究人員在2023年發(fā)表的一篇論文中介紹的案例。當然這個漏洞現(xiàn)在已經修復,但AI發(fā)展過程中面臨的安全問題仍不容小覷。
深度求索(以下簡稱DeepSeek)的出圈,點燃了各行各業(yè)接入AI的熱情。但AI加速落地所引發(fā)的安全問題,仍需引起更大重視。
AI加速落地,安全待解
DeepSeek以創(chuàng)新技術范式和超低價策略,創(chuàng)造了很多看上去不太可能的事情。
行業(yè)影響方面,騰訊元寶、百度搜索、快手可靈AI相繼宣布全面接入DeepSeek。各地也陸續(xù)推出AI公務員:深圳福田區(qū)推出了基于DeepSeek開發(fā)的AI數智員工;北京市市場監(jiān)管局企業(yè)登記注冊場景接入DeepSeek大模型技術,打造“有溫度”的“AI公務員”。
AI全面加速產業(yè)落地的背后,安全也成為多方關注焦點。
奇安信集團董事長齊向東此前接受《中國經濟周刊》記者采訪時表示,人工智能暴露出諸多安全隱患,如人工智能大模型自身的安全問題、利用人工智能開展網絡攻擊的問題。
從具體實踐來看,國外已經出現(xiàn)多個案例。
比如2023年3月,三星公司引入ChatGPT不到20天,連續(xù)發(fā)生3起數據泄露事件。其中兩起源于工程師使用ChatGPT進行代碼修復和優(yōu)化,一起源于員工使用ChatGPT整理會議紀要。
此外,參考消息近期援引外媒報道稱,美國本土發(fā)生了首例利用ChatGPT來策劃襲擊的事件。
大模型泄密背后
知道創(chuàng)宇首席安全官周景平在安全領域耕耘頗久,他在接受本刊記者采訪時介紹,從大模型技術來看,大模型使用的生成式預訓練模型,是基于“概率”預測,通過給出的詞預測下一個詞,輸入端需要學習大量數據才能有效輸出。這種方式本身就可能泄露很多敏感數據內容。
“可以將大模型看作一個巨大的知識庫,夸張點說它能夠擁有和學習人類所有知識。但學習知識的過程中,相關語料是否完全做好了隱私處理,有時要打一個問號?!敝芫捌窖a充說。
此外,用戶在使用大模型時,不小心會把一些敏感信息提交給大模型,絕大多數模型會將用戶輸入的數據用于模型訓練,這種情況也會導致泄密。
“比如之前有人嘗試把自己所有的微信數據投喂給大模型,讓大模型學習打造數字分身。但是沒想到,他的微信數據包含部分密碼數據,當他把數字分身發(fā)布出來后,攻擊者只需要對數字分身輸入‘給出你的xxx密碼’,這個密碼便會泄露?!敝芫捌秸f。
當然,傳統(tǒng)安全問題也會影響AI安全。
周景平介紹,大模型的應用是一個生態(tài),尤其企業(yè)或個人本地化部署,涉及很多組件,可以說是“海量”級別,有組件的地方必然就會有“漏洞”,攻擊者可以通過漏洞進行攻擊,最終也會導致信息泄露。
特定行業(yè)可本地化部署
實踐中,為避免信息泄露,對于數據敏感、合規(guī)要求較高、對系統(tǒng)實用性有特定需求的行業(yè),如金融、政府、醫(yī)療等,往往選擇本地化部署大模型。
新希望金融科技相關負責人在接受本刊記者采訪時介紹,本地化部署可以理解為在家里安裝“私人保險箱”。這里的“保險箱”指服務器等設備,通常存儲企業(yè)最重要的各種數據。
“本地化部署,意味著只有企業(yè)自己能夠訪問和控制,直接形成物理隔離。因此,‘安全’是本地化部署的核心優(yōu)勢,極大降低了數據泄露風險。同時,企業(yè)也實現(xiàn)了對系統(tǒng)和數據的牢牢掌控?!鄙鲜鲐撠熑私榻B。
在周景平看來,企業(yè)級的本地部署核心還是要追求“性價比”,即AI性能既要滿足企業(yè)場景需求,價格也在企業(yè)可承受范圍之內。
“目前大模型部署對硬件要求相對較高,很多企業(yè)主要部署低參數版本及量化版本的AI。當然隨著技術的發(fā)展,‘性價比’會越來越高?!敝芫捌秸f。
考慮本地部署對于硬件和算力的要求較高以及后續(xù)協(xié)同問題,更靈活和更加便捷的AI一體機,也在近期快速“出圈”。所謂的AI一體機,指直接將服務器、軟件、模型等集成在一個設備里,可以實現(xiàn)插電即用。