編者按:自1956年“人工智能”的概念首次被提出已過(guò)60余年,此間,人工智能從虛化的代碼逐漸轉(zhuǎn)化成實(shí)踐應(yīng)用,催生出一批批商業(yè)故事。不過(guò),人工智能規(guī)?;逃貌⒎翘雇?,概念的火熱一直以來(lái)未能助推技術(shù)突破與商業(yè)應(yīng)用。
時(shí)間來(lái)到2022年,生成式AI發(fā)展為人工智能發(fā)展再注入一針強(qiáng)心劑。ChatGPT橫空出世,被視為通用人工智能的起點(diǎn)和強(qiáng)人工智能的拐點(diǎn),引發(fā)新一輪人工智能革命。人工智能發(fā)展似乎找到了自己的主流敘事。
不過(guò),技術(shù)創(chuàng)新的同時(shí)也帶來(lái)了監(jiān)管難題。如何平衡發(fā)展與安全,中國(guó)正在摸索自己的AI治理路徑。南財(cái)合規(guī)科技研究院與觀韜中茂律師事務(wù)所推出《中國(guó)AI治理的獨(dú)立思考——生成式人工智能發(fā)展與監(jiān)管白皮書(shū)》,通過(guò)分析生成式AI的發(fā)展現(xiàn)狀、政策導(dǎo)向、實(shí)操中面臨的風(fēng)險(xiǎn),以及各國(guó)的監(jiān)管路徑,以期為未來(lái)的AI治理提供有益思路。
生成式人工智能發(fā)展一日千里,與驚喜相伴的是對(duì)其引發(fā)的安全隱患擔(dān)憂。生成式AI的模型層是生成式AI得以實(shí)現(xiàn)的關(guān)鍵環(huán)節(jié),依賴于更高質(zhì)量、更豐富的訓(xùn)練數(shù)據(jù)集。如何判斷數(shù)據(jù)收集行為以及留存的數(shù)據(jù)內(nèi)容是否合規(guī),已成為當(dāng)前相關(guān)技術(shù)發(fā)展亟待解決的問(wèn)題,更是大模型產(chǎn)品未來(lái)健康發(fā)展的關(guān)鍵。數(shù)據(jù)安全問(wèn)題正變得越來(lái)越重要,甚至可能成為產(chǎn)品的“阿克琉斯之踵”。
因此,必須關(guān)注煉造大模型帶來(lái)的次生問(wèn)題,比如數(shù)據(jù)跨境流動(dòng)中的難點(diǎn)與困境,再比如個(gè)人信息,尤其未成年人信息在模型訓(xùn)練、應(yīng)用過(guò)程中的合規(guī),這些都是生成式AI數(shù)據(jù)治理過(guò)程中需要予以特別關(guān)注。
數(shù)據(jù)跨境:多重不確定性疊加
海量數(shù)據(jù)推動(dòng)大模型“涌現(xiàn)”功能的出現(xiàn)。數(shù)據(jù)從何而來(lái)?
一是各個(gè)廠商歷史積累的數(shù)據(jù),數(shù)據(jù)的具體類型和質(zhì)量取決于廠商的主營(yíng)業(yè)務(wù)情況;二是公開(kāi)渠道爬取的數(shù)據(jù),受限于當(dāng)前各類反爬取技術(shù)和規(guī)則,此類數(shù)據(jù)獲取將愈加困難;三是各類免費(fèi)或付費(fèi)的第三方數(shù)據(jù)庫(kù)與數(shù)據(jù)集,例如GPT數(shù)據(jù)來(lái)源中全球最大的免費(fèi)網(wǎng)頁(yè)數(shù)據(jù)庫(kù)Common Crawl,各類高校,以及企業(yè)科研機(jī)構(gòu)所搜集和處理的開(kāi)源數(shù)據(jù)集如WikiQA(微軟研究院發(fā)布)、EXEQ-300K(北京大學(xué)、賓夕法尼亞大學(xué)、中山大學(xué)發(fā)布)、ArxivPapers(Facebook、倫敦大學(xué)學(xué)院、DeepMind發(fā)布)等。
可以看到,大模型數(shù)據(jù)獲取過(guò)程中不可避免的涉及數(shù)據(jù)跨境問(wèn)題。除此之外,數(shù)據(jù)跨境問(wèn)題還可能存在于服務(wù)提供等環(huán)節(jié)。
目前,除少部分自行開(kāi)發(fā)、部署模型的提服務(wù)提供者供以外,大部分服務(wù)提供者仍需倚賴第三方技術(shù)服務(wù)商搭建模型或以接入API等方式使用生成式AI服務(wù),而這些技術(shù)方的服務(wù)器一般部署于境外。例如,一家位于中國(guó)大陸的企業(yè),通過(guò)API接口的方式接入位于北美的生成式AI技術(shù)服務(wù)提供商,而該服務(wù)商的服務(wù)器部署于印度,此時(shí)可能面臨相關(guān)數(shù)據(jù)出境所帶來(lái)的風(fēng)險(xiǎn)。
除此之外,在提供生成式AI服務(wù)過(guò)程中,不僅涉及數(shù)據(jù)出境問(wèn)題,還可能涉及數(shù)據(jù)入境。例如,經(jīng)過(guò)境外模型處理后產(chǎn)生的數(shù)據(jù)通過(guò)AI交互方式返回給中國(guó)用戶時(shí),也需考慮境外國(guó)家關(guān)于數(shù)據(jù)出境的合規(guī)要求和限制。
從境內(nèi)外關(guān)于生成式AI技術(shù)的法律規(guī)制來(lái)看,目前,服務(wù)提供者在應(yīng)用生成式AI模型的過(guò)程中,可能會(huì)面臨四方面與數(shù)據(jù)跨境相關(guān)的風(fēng)險(xiǎn)與挑戰(zhàn):
一是大陸地區(qū)尚未被列入核心技術(shù)供應(yīng)商開(kāi)放服務(wù)范圍之內(nèi)。
目前,如OpenAI等核心生成式AI技術(shù)提供方并未將中國(guó)大陸地區(qū)列入其服務(wù)提供對(duì)象范圍,在此背景下,如果因?yàn)槭褂孟嚓P(guān)服務(wù)給大陸企業(yè)造成了損害后果(如數(shù)據(jù)泄漏等),企業(yè)的權(quán)利應(yīng)當(dāng)如何得到保障?
此外,部分企業(yè)通過(guò)自行建立或租用專線(含虛擬專用網(wǎng)絡(luò)VPN)的方式,連接到境外的生成式AI技術(shù)模型,這一做法如未經(jīng)電信主管部門(mén)批準(zhǔn),則涉嫌違反工信部《關(guān)于清理規(guī)范互聯(lián)網(wǎng)網(wǎng)絡(luò)接入服務(wù)市場(chǎng)的通知》的規(guī)定,違規(guī)風(fēng)險(xiǎn)極大,尤其是當(dāng)企業(yè)以營(yíng)利為目的專門(mén)向其他企業(yè)提供此類服務(wù)的,情節(jié)嚴(yán)重的情況下,還可能構(gòu)成非法經(jīng)營(yíng)罪,將會(huì)面臨刑事風(fēng)險(xiǎn)。
二是數(shù)據(jù)出境方面,情況存在不確定性。
根據(jù)《網(wǎng)絡(luò)安全法》、《個(gè)人信息保護(hù)法》、《數(shù)據(jù)出境安全評(píng)估辦法》等法律法規(guī)規(guī)定,在進(jìn)行數(shù)據(jù)出境前應(yīng)當(dāng)履行相應(yīng)的出境合規(guī)義務(wù),例如進(jìn)行事前安全評(píng)估,如涉及個(gè)人信息的,還應(yīng)當(dāng)進(jìn)行個(gè)人信息保護(hù)認(rèn)證、簽署標(biāo)準(zhǔn)合同等,而由于企業(yè)使用生成式AI模型服務(wù)中涉及的數(shù)據(jù)出境情況存在不確定性,因此,在履行出境合規(guī)義務(wù)上可能存在滯后性。
目前,生成式AI模型的應(yīng)用路徑主要分為兩種,其一,是企業(yè)將其收集的數(shù)據(jù)提供給生成式AI模型,并向其提出數(shù)據(jù)處理請(qǐng)求,該情形下,企業(yè)在提供數(shù)據(jù)前可以結(jié)合業(yè)務(wù)需求及合規(guī)義務(wù)要求對(duì)數(shù)據(jù)進(jìn)行預(yù)處理、篩選,以限定其所提供的數(shù)據(jù)范圍,從而使得相關(guān)數(shù)據(jù)出境風(fēng)險(xiǎn)處于可控范圍之內(nèi)。其二,是用戶直接使用企業(yè)接入生成式AI模型的服務(wù)平臺(tái),這種情況下,由于用戶是直接向生成式AI模型提供數(shù)據(jù)的主體,對(duì)于企業(yè)而言,用戶提供哪些數(shù)據(jù)存在很大不確定性,從而觸發(fā)相關(guān)的數(shù)據(jù)出境合規(guī)義務(wù)要求。而且,由于該情形下向境外提供個(gè)人信息量級(jí)的不確定性,將導(dǎo)致企業(yè)難以確定數(shù)據(jù)出境合規(guī)路徑。
三是個(gè)人信息出境時(shí)如何告知并取得個(gè)人或其監(jiān)護(hù)人的單獨(dú)同意。
根據(jù)《個(gè)人信息保護(hù)法》的要求,基于個(gè)人同意向境外提供個(gè)人信息的,應(yīng)當(dāng)取得個(gè)人的單獨(dú)同意。從目前行業(yè)實(shí)踐來(lái)看,企業(yè)通常通過(guò)彈窗勾選的方式取得數(shù)據(jù)出境相關(guān)的單獨(dú)同意,但是在告知方面,基于生成式AI模型的特殊性,如何在事前告知可能出境的個(gè)人信息范圍,將會(huì)成為企業(yè)在履行相關(guān)告知義務(wù)時(shí)不得不面臨的現(xiàn)實(shí)困境。
四是如何滿足境外出口管制的要求。
經(jīng)境外的生成式AI模型處理后產(chǎn)生的數(shù)據(jù)面臨相關(guān)國(guó)家、地區(qū)的監(jiān)管。不同于歐盟的嚴(yán)格限制,例如美國(guó)對(duì)于數(shù)據(jù)跨境流動(dòng)的監(jiān)管要寬松許多,對(duì)于數(shù)據(jù)跨境流動(dòng),美國(guó)偏向于限制政府權(quán)利,其跨境數(shù)據(jù)隱私保護(hù)策略主要靠有限的立法和行業(yè)自律。
如前所述,經(jīng)境外的生成式AI模型處理后產(chǎn)生的數(shù)據(jù)或產(chǎn)品如返回給中國(guó)用戶,需要考慮境外國(guó)家關(guān)于數(shù)據(jù)出境的合規(guī)要求和限制。例如,在OpenAI公布的用戶協(xié)議中,亦明確規(guī)定其提供的服務(wù)受美國(guó)出口管制相關(guān)規(guī)則所約束,不得出口到任何美國(guó)禁運(yùn)國(guó)家。
同時(shí),根據(jù)美國(guó)商務(wù)部工業(yè)與安全局官網(wǎng)公布的禁運(yùn)規(guī)則解釋文本及其對(duì)應(yīng)表格,中國(guó)屬于清單中的D組禁運(yùn)國(guó)家,主要禁運(yùn)領(lǐng)域?yàn)椤皣?guó)家安全、核工業(yè)、化學(xué)與生物領(lǐng)域、導(dǎo)彈科技和其他軍事領(lǐng)域”,雖非絕對(duì)禁運(yùn),但是,對(duì)于電子產(chǎn)品、電子通信、電腦、信息安全等領(lǐng)域相關(guān)的設(shè)備、組件、材料、軟件及其相關(guān)科技向中國(guó)的出口,仍需要向美國(guó)相關(guān)部門(mén)進(jìn)行報(bào)批。
值得注意的是,出口管制適用的范圍不僅包括實(shí)體貨物,還包括計(jì)算機(jī)軟件、數(shù)據(jù)、技術(shù)等,這就意味著受《美國(guó)出口管制條例》等法律法規(guī)約束的貨物相關(guān)的數(shù)據(jù)亦需遵循相應(yīng)的規(guī)制。因此,對(duì)于經(jīng)生成式AI模型處理后返回的數(shù)據(jù),是否符合境外出口管制方面的合規(guī)要求,亦是企業(yè)在將來(lái)迎接監(jiān)管時(shí)可能面臨的挑戰(zhàn)。
數(shù)據(jù)安全:需關(guān)注Prompt injection攻擊
新技術(shù)快速發(fā)展,也需警惕其中風(fēng)險(xiǎn)。在數(shù)據(jù)成為寶貴資產(chǎn)的今天,海量數(shù)據(jù)的安全如何保障?與此同時(shí),大模型的惡意使用行為如何預(yù)防?也是快速發(fā)展過(guò)程中需要關(guān)注和回應(yīng)的問(wèn)題。
具體來(lái)看,生成式AI需要關(guān)注并回應(yīng)數(shù)據(jù)泄露、網(wǎng)絡(luò)安全、重要數(shù)據(jù)處理等關(guān)鍵問(wèn)題。
關(guān)于數(shù)據(jù)泄露,基于大模型強(qiáng)大的系統(tǒng)學(xué)習(xí)能力,以及交互方式上相對(duì)的自由與不受局限,導(dǎo)致交互過(guò)程中存在較大泄漏數(shù)據(jù)或商業(yè)秘密的風(fēng)險(xiǎn)。例如,近日,某韓國(guó)頭部企業(yè)發(fā)生了三起生成式AI產(chǎn)品的誤用與濫用案例,包括設(shè)備信息泄漏和會(huì)議內(nèi)容泄漏。其中,涉及半導(dǎo)體設(shè)備測(cè)量資料、產(chǎn)品良率等內(nèi)容或已被存入AI模型的學(xué)習(xí)資料庫(kù)中。
為規(guī)避數(shù)據(jù)泄露風(fēng)險(xiǎn),此前已有不少企業(yè)明確禁止員工使用生成式AI模型,包括摩根大通、德意志銀行、埃森哲、富士通、軟銀、高盛、花旗等公司。
網(wǎng)絡(luò)安全方面,大模型的“濫用風(fēng)險(xiǎn)”似乎是伴隨著大模型興起一直為人們緊密關(guān)注的議題,對(duì)于生成式AI模型的開(kāi)發(fā)者而言,在訓(xùn)練模型的過(guò)程中需要思考如何有效預(yù)防用戶的惡意使用行為,例如利用模型撰寫(xiě)編碼或病毒,用于攻擊網(wǎng)站等,從而引發(fā)網(wǎng)絡(luò)安全風(fēng)險(xiǎn)。
同時(shí),大模型也似乎更容易受到“提示語(yǔ)注入攻擊(Prompt injection)”的影響。例如,給出ChatGPT能夠接受的假設(shè),引導(dǎo)它違反自身的編程限制,生成不合適或有害的內(nèi)容。如何防止惡意使用者誘騙模型突破限制使用范圍,也將成為生成式AI模型應(yīng)用過(guò)程中可能面臨的一大挑戰(zhàn)。
重要數(shù)據(jù)處理方面,基于大語(yǔ)言模型的特性,其模型的訓(xùn)練和完善都有賴于大量數(shù)據(jù)的幫助,不同數(shù)據(jù)類型、數(shù)據(jù)量級(jí)的疊加,不排除構(gòu)成重要數(shù)據(jù)乃至核心數(shù)據(jù)從而觸發(fā)相應(yīng)的合規(guī)義務(wù)。
同時(shí),我國(guó)目前《數(shù)據(jù)安全法》等法律法規(guī)中雖然提出了“重要數(shù)據(jù)”、“核心數(shù)據(jù)”的概念,但二者的判定依據(jù)尚未明晰,這種不確定性也使得生成式AI模型應(yīng)用面臨的合規(guī)風(fēng)險(xiǎn)增加。
比如某企業(yè)通過(guò)某生成式AI模型堆砌數(shù)據(jù),但當(dāng)數(shù)據(jù)量增加到某一量級(jí)時(shí)已構(gòu)成重要數(shù)據(jù),此時(shí)如本身模型技術(shù)支持位于境外,企業(yè)將會(huì)面臨重要數(shù)據(jù)出境相關(guān)的合規(guī)風(fēng)險(xiǎn)。
個(gè)人信息:關(guān)注收集、使用、響應(yīng)等環(huán)節(jié)
當(dāng)前,隨著個(gè)人信息保護(hù)意識(shí)的不斷加深,大模型發(fā)展過(guò)程中如何保護(hù)個(gè)人信息,成為發(fā)展過(guò)程中必需回答的問(wèn)題。對(duì)于個(gè)人信息的保護(hù),需要重點(diǎn)關(guān)注收集、使用、權(quán)利響應(yīng)等環(huán)節(jié),同時(shí)尤其關(guān)注兒童信息。
個(gè)人信息收集場(chǎng)景方面,大數(shù)據(jù)時(shí)代,生成式AI模型難以規(guī)避因收集個(gè)人信息所帶來(lái)的風(fēng)險(xiǎn),這類風(fēng)險(xiǎn)不僅可能發(fā)生在模型的訓(xùn)練階段,也可能發(fā)生在模型的實(shí)際應(yīng)用階段。
在模型的訓(xùn)練階段,大模型往往需要獲取多元化、豐富的語(yǔ)料進(jìn)行訓(xùn)練,在這個(gè)過(guò)程中,難免會(huì)采取爬蟲(chóng)等技術(shù)方式通過(guò)互聯(lián)網(wǎng)等公開(kāi)渠道獲取大量數(shù)據(jù),如何避免因爬取或其他手段獲取公開(kāi)渠道的個(gè)人信息而構(gòu)成侵權(quán)等法律風(fēng)險(xiǎn)?如涉及從第三方獲取的數(shù)據(jù)的,如何審核個(gè)人信息來(lái)源的合法性和個(gè)人的授權(quán)情況?這都是應(yīng)當(dāng)思考的問(wèn)題。
例如,某生成式AI模型在訓(xùn)練的過(guò)程中爬取了某點(diǎn)評(píng)網(wǎng)站上關(guān)于某餐飲店的評(píng)價(jià),但由于某用戶在點(diǎn)評(píng)時(shí)透露了自身的個(gè)人信息,導(dǎo)致該部分個(gè)人信息進(jìn)入到模型語(yǔ)料庫(kù),進(jìn)而涉嫌侵犯他人個(gè)人信息權(quán)益。
在模型的實(shí)際應(yīng)用階段,如何精準(zhǔn)識(shí)別AI與用戶交互過(guò)程中所收集的個(gè)人信息,并進(jìn)而履行個(gè)人信息保護(hù)相關(guān)的合規(guī)義務(wù),也將成為生成式AI模型應(yīng)用者所要面臨的一大挑戰(zhàn)。
不同于一般應(yīng)用程序中填入式的收集個(gè)人信息方式,大模型由于涉及人與AI的交互,很難在事前對(duì)可能收集個(gè)人信息的場(chǎng)景進(jìn)行完全羅列,而更近似于“客服熱線”的場(chǎng)景,在此背景下,應(yīng)當(dāng)如何在事前向個(gè)人告知收集個(gè)人信息的目的、方式和范圍并取得其同意,也是值得研究的問(wèn)題。
個(gè)人信息使用場(chǎng)景上,目前,部分生成式AI產(chǎn)品以改善服務(wù)為由使用用戶提供的內(nèi)容(其中包含個(gè)人信息),但顯然,僅以改善服務(wù)為由要求收集用戶信息并不符合最小必要原則,本質(zhì)上是對(duì)于“企業(yè)訓(xùn)練模型之需”與“用戶享受服務(wù)之需”的混淆。目前,OpenAI已提供用戶拒絕其使用個(gè)人信息進(jìn)行訓(xùn)練的途徑。
除此之外,在大模型的交互模式下,對(duì)于個(gè)人信息的披露可能不同于往常意義上的“公開(kāi)披露”,而更類似于一種“被動(dòng)公開(kāi)”,即當(dāng)某個(gè)用戶的真實(shí)個(gè)人信息被摘錄于語(yǔ)料庫(kù)后,之后任意用戶通過(guò)詢問(wèn)等方式均可以得知相關(guān)個(gè)人信息,此時(shí)由于對(duì)象為非特定自然人,相較于向特定個(gè)人“提供個(gè)人信息”,可能更接近于“公開(kāi)個(gè)人信息”的范疇。
因此,對(duì)于模型開(kāi)發(fā)者而言,應(yīng)當(dāng)慎重考慮在語(yǔ)料庫(kù)以及訓(xùn)練模型的過(guò)程中是否加入真實(shí)個(gè)人信息。例如,某直銷機(jī)構(gòu)需要向客戶公開(kāi)披露直銷員的聯(lián)系方式等,但由于并未告知直銷員,導(dǎo)致直銷員的聯(lián)系方式被其他人通過(guò)與AI的問(wèn)答獲取,并用于其他目的,此時(shí)企業(yè)可能會(huì)因?yàn)槲词虑芭妒褂媚康亩嫦忧址杆藗€(gè)人信息權(quán)益。
個(gè)人信息權(quán)利響應(yīng)場(chǎng)景方面,生成式AI也帶來(lái)一系列難題。
在大模型下,關(guān)于個(gè)人信息權(quán)利響應(yīng)的實(shí)現(xiàn)似乎遠(yuǎn)遠(yuǎn)沒(méi)有想象中來(lái)得容易。例如,就查閱權(quán)和更正權(quán)而言,提供者應(yīng)當(dāng)如何確定個(gè)人信息的范圍并提供給用戶查閱或更正?
如前所述,模型通常存儲(chǔ)的是交互記錄,而不會(huì)在識(shí)別個(gè)人數(shù)據(jù)后將其作為單獨(dú)的存儲(chǔ)單位。就刪除權(quán)而言,如果這部分?jǐn)?shù)據(jù)已被用于模型訓(xùn)練,此時(shí),從技術(shù)上而言難以做到完全刪除,僅能通過(guò)過(guò)濾數(shù)據(jù)或者重新訓(xùn)練的方式以最小化這部分個(gè)人信息對(duì)模型輸出可能產(chǎn)生的影響。
同時(shí),如果大模型技術(shù)提供方位于境外,收集的個(gè)人信息將通過(guò)API接口傳輸至位于境外的主體,如何向個(gè)人告知向境外行使個(gè)人信息權(quán)利的途徑,也將成為服務(wù)提供者需要面臨的現(xiàn)實(shí)問(wèn)題。
如何處理兒童個(gè)人信息,也成為生成式人工智能合規(guī)治理過(guò)程中需著重考量的因素。
在訓(xùn)練大模型的過(guò)程中,服務(wù)提供者需要基于自身的目的,考量是否有收集兒童個(gè)人信息的必要性。
如果業(yè)務(wù)本身并不面向或針對(duì)兒童,但如遇到醫(yī)療健康事件等小概率事件下可能會(huì)收集兒童個(gè)人信息,也應(yīng)當(dāng)在隱私政策等個(gè)人信息聲明中告知并獲得有效同意。
如不存在收集任何兒童個(gè)人信息的必要性,則應(yīng)從技術(shù)和制度角度防止誤收兒童個(gè)人信息。例如,某10歲的兒童通過(guò)網(wǎng)站的廣告頁(yè)面進(jìn)入了某生成式AI模型服務(wù)提供頁(yè)面,并輸入了自身的姓名等個(gè)人信息,此時(shí),由于系統(tǒng)無(wú)法準(zhǔn)確識(shí)別使用者的年齡,在無(wú)形中收集了該名兒童的個(gè)人信息。目前,如OpenAI也已經(jīng)關(guān)注到此類問(wèn)題,但可能出于對(duì)現(xiàn)有技術(shù)判別年齡的有效性等考量,其并未采取進(jìn)一步動(dòng)作。