專訪AI專家杜奕瑾:當審查大國遇上 “有問必答”的ChatGPT

2023.02.23
專訪AI專家杜奕瑾:當審查大國遇上 “有問必答”的ChatGPT 本臺記者專訪臺灣AI實驗室創始人、前微軟人工智能團隊(AI.R.)亞太研發總監杜奕瑾。
Taiwan AI Labs 提供

近日,美國科技公司OpenAI開發的聊天機器人ChatGPT引發中國科技界關注。但隨後有消息顯示,中國官方要求迅速對此整改,研發中的“中國版ChatGPT”如未經網信辦評估也“不得上線”。本臺記者唐家婕就此專訪了臺灣AI實驗室創始人、美國微軟公司原人工智能團隊(AI.R.)的亞太研發總監杜奕瑾,請他就當前ChatGPT在中國的發展狀況發表了看法。

 

 

ChatGPT在中國“說錯話”?

在中國,"說錯話”的人可能會被刪帖封號,甚至被當局以“尋釁滋事”罪找麻煩;但如果“說錯話”的是機器人呢?

美國科技公司OpenAI開發的聊天機器人ChatGPT大火,這是一款可以向人一樣自然對話的語言機器人,它還可以藉由用戶的反饋做出不同的回應並持續學習。

 

 

中國網友迫不及待地透過VPN使用ChatGPT,探索各種在中國被防火牆屏蔽的“禁忌話題”。21日傳出,中國官方出手要求迅速整改下線ChatGPT代理服務,且研發中的“中國版ChatGPT”未經網信辦評估“不得上線”。

ChatGPT到底是什麼跨時代的AI發明?當言論審查大國遇上會聊天、會學習的對話機人時,ChatGPT 在中國會產生什麼變形?中美在AI領域的競爭朝什麼方向前進?決戰點又在哪裏呢?大概沒有誰比臺灣AI實驗室創始人杜奕瑾(Ethan Tu)更適合解答這些疑問。

現年47歲的杜奕瑾在臺灣高雄長大,大二時在臺大宿舍裏架設了BBS站PTT,PTT長成臺灣最具影響力的線上論壇。杜奕瑾的科技探索之路沒有就此停歇,他參與了臺灣第一個入口網站蕃薯藤搜尋引擎的建立,隨後到美國國家衛生研究院(NIH)從事基因序列相關檢測研究。

2006年至2017年,杜奕瑾加入美國微軟公司進行搜尋引擎 bing 的開發,以及擔負起微軟人工智能的研究工作,成爲微軟人工智能團隊(AI.R.)首席亞太區研發總監。他見證了北京微軟研究院培育出一批批中國人工智能人才的年代,也在第一線看到美中人工智能發展的不同路徑。

2017年,杜奕瑾離開微軟返臺創立非政府、非營利導向的臺灣人工智能實驗室(Taiwan AI Labs)

中國能複製出ChatGPT嗎?

記者:Ethan你好,謝謝你接受自由亞洲電臺的訪問。ChatGPT從去年11月30日推出, 到現在快三個月。在你看來,ChatGPT會造成轟動的原因是什麼?幫我們科普一下,它在AI發展又有什麼重要的意義?

杜奕瑾: ChatGPT 是一個突破性的Conversational AI(對話人工智能),它可以依照使用者的問題很自然流暢地回答, 而且它是可以引經據點,講得頭頭是道。再來,因爲它的文本量很多, 它的語言模組(language model)夠複雜,所以其實你可以跟它有各種的互動。

你可以請它假裝用某個人的口吻去回答你,可以讓它寫程式、寫歌、產生詩詞, 甚至它的對話裏有contextual (上下文語境),就是你可以藉由之前跟它講的對話 ,與它之後的回答有先後文的關係。這個在過去來講,是模型對話的很大的突破。

記者:現在ChatGPT大熱,百度、阿里巴巴,甚至許多中國科技公司都誓言要推出相關的產品。北京政府上週剛發佈的《人工智能產業發展白皮書》也寫明,要“支持頭部企業打造對標ChatGPT的大模型”,無條件開放超過15000個公部門的數據集供AI培訓。在你看來,中國複製得了ChatGPT嗎?

 

北京政府2月14日發佈《人工智能產業發展白皮書》,寫明要“支持頭部企業打造對標ChatGPT的大模型”。(北京政府網站)
北京政府2月14日發佈《人工智能產業發展白皮書》,寫明要“支持頭部企業打造對標ChatGPT的大模型”。(北京政府網站)

杜奕瑾:這種語言模型生成(技術)現在不是一個什麼交易祕密, 因爲它的Instruct GPT(編按:ChatGDPT的前身,在2022年一月釋出)的技術讓大家可以知道是怎麼運作的。再來談到中國的資料文本量,AI訓練要非常多的文本量 ,因爲大家都做過搜尋引擎, 要這麼多的文本量其實不是那麼的複雜。

我覺得比較特別的是,如果要去訓練出這個自然對話模型,有幾個關鍵因素:

第一,我覺得在美國這個地方去訓練 ChatGPT模型因爲它的內容流動比較自由, 我們在內容多元性來說,可以拿到比較多元的資訊。

另外,它(語言機器人)產生的結果在相對自由的地區 ,不會影響到你的這家公司的發展。但是在言論比較緊縮的地方, 由於ChatGPT可能可以產生各種不預期的內容。其實相對來講,它去發展語言模型的風險會比較高。

如果說要講資料量的多寡或者中國人或美國人的聰明度, 我相信都是差不多。但是你如果說是有差別的,可能就是在制度面的這部分。

當審查大國遇上 “有問必答”的語言機器人

記者:當AI機器人回答出對中國當局來說“敏感”的答案,App就被封、公司被處罰了。在你看來,中國互聯網的審覈,對發展中國版的ChatGPT有什麼影響呢? 相較於美國的ChatGPT從谷歌、推特、Reddit上去收集文本,中國從百度、微博上去收集文本,會訓練出什麼樣的語言機器人呢?

杜奕瑾:第一,應該說你在這個內容是受到限制的市場,拿到的文本也已經是受到限制的內容,也就是說有些資料是沒有在這裏面的。所以你相對來講,(AI訓練)得到的結果也不會那麼的完整。

第二,語言生成模型也是可以生成不在原本文本訓練的內容規範裏面。 你可以藉由一些 contextual(上下文)的輸入,去注入你想要的結果,它甚至有可能產生你本來不預期的結果。

我之前在微軟原本負責對話機器人,我負責微軟Cortana,也包含中國市場。在美國,我們曾推出一個“Tay”對話機器人(ChatBOT),這個對話機器人因爲產生種族歧視、 仇恨相關的言論, 我們在不到一天的時間在美國市場下架。相較於在美國市場, 你(公司)可能只是面對道德上面的攻擊;但在中國市場,你有可能會因爲這個對話引擎講一些“不恰當”的話, 造成你的組織、 你的這整個系統在這個市場被封閉 。

其實在這段時間, 一些中國山寨的ChatGPT, 它只是在中國加一個服務, 然後再透過美國的ChatGDP 得到答案之後,再送回中國。像這種山寨ChatGPT在中國很多很快就被封閉的其中一個原因,就是因爲它會產生一個不可預期的回答,這對提供服務的組織來講是有風險的。

記者:但反過來講,有沒有可能訓練出一個符合威權政府、獨裁政府需要的對話機器人呢?

杜奕瑾:不排除是有可能。在發展出網路的時代,大家原本覺得網路可以自由的表達,但因爲在威權國家會以限縮網域名稱、關鍵字,管制關鍵字的方式去限縮相關言論。

但是這種語言生成式模型,封閉這些關鍵敏感的言論會比過去的更難。因爲它其實是可以繞著說,還是可以把一些“不恰當”的內容說出來。

 

ChatGPT標誌(路透社)
ChatGPT標誌(路透社)

ChatGPT: 進化版的鍵盤俠?

記者:什麼叫做繞著說出來?有什麼例子嗎?

杜奕瑾:比如說,在美國市場也有一些比較敏感的內容,你不能在ChatGPT裏面去講到違反一些法令,像是推薦藥品、醫療等內容。但是你還是可以換個話去說(問機器人), 然後它(對話機器人)有可能講得出一些可能會違法律規範的內容。

記者:也就是說,這是一個會學習的語言機器人,它可能像是進化版的鍵盤俠,比現有的審查工具更厲害了?
杜奕瑾:對,所以其實現在也有一些評論家討論ChatGPT最危險的就是:它可能會一本正經的胡說八道。 在自由的國家或許大家知道它在胡說八道是無所謂, 但是在有些地方你說錯話,是會有嚴重的後果 ,甚至是違反當地的法規。

同理,在有些地方,大家會比較不敢去做生成式模型的發展,就因爲它的相對的、你需要做到的審查的規格就是更高。

ChatGPT會成爲散佈假消息的幫兇嗎?

記者:中國官宣已經出來指責ChatGPT在涉疆問題上和美政府口徑一致,說ChatGPT“在西方的宣傳活動帶有重要角色”。你會怎麼看這樣對Open AI的指控?

杜奕瑾:人工智能在訓練的時候, 其實它文本的內容會一定程度的影響到它生成模型之後, 生成內容的傾向。如果它的文本內容原本就是在以美國市場爲主的文本內容來講話,訓練出來當然就是傾向這個市場原本有的文本內容。
我覺得,這可能不是一個特別去選擇的結果,而是因爲它訓練的來源主要是在OpenAI這邊的樣本。

記者:反過來說,中國政府生成語言機器人,傳授的就是中國視角的論述模式?

杜奕瑾:其實甚至不需要訓練,只要用ChatGPT的語言模型拿來做應用,就可以影響它去有中國視角的結果。以中國現在的能力,要去訓練一個ChatGPT運用在自由市場,我相信這個能力絕對是有的。

記者:這聽起來可以被濫用成假消息、宣傳的工具?

杜奕瑾:所以現在已經開始有很多科技倫理的議題,如果這種大型語言模型是未來會被廣泛應用的話,當然會被應用在好的地方,幫人類做很多事情, 寫程式、 創作、總結文本。但它也能是你一個助理寫手, 你可以用它換個口吻寫成一個負面的、虛假的報導。

如果說這個能力被濫用的話,它也有可能被用來作爲這種假消息傳送的工具;而相對應的假消息防禦的組織會更難去抵禦,因爲它是可以很容易大量地依照不同的新聞來源去生成類似、但是虛假的內容。

中美AI大比拼

記者:現在談中國跟美國的人工智能競爭時,我們常聽到中國AI的研究已經領先了,甚至學術論文已經超越美國。你在美中產業界幾十年,觀察到的是這樣的趨勢嗎?

杜奕瑾:中國訓練起來的學生有一個習慣, 當我們使用哪個KPI作爲指標的時候,中國一定可以做到領先指標。所以,當領先指標用在模型研發上,變成美國做了一個樣本,中國就一定會比它更多。

但領先指標代表的意義是什麼,不見得是可以有更好的結果。就像大家會思考,爲什麼人工智能的領域有很多突破性應用都是從美國開發之後,中國纔開始去複製,或者去做到更進一步?有一個原因就是,中國太重視指標,以至於它在指標各項去做領先的時候,其實在創新突破上反而是欠缺的。

 

ChatGPT是OpenAI公司開發的人工智能聊天程式。(法新社圖片)
ChatGPT是OpenAI公司開發的人工智能聊天程式。(法新社圖片)

中國有非常優秀的學生,但爲什麼在中國發表這麼多論文之後,比較突破性的發展還是從美國這邊發生?其實不是競爭力的關係,而是環境以及人思考的方式去造就不同發展的方向。這些不同發展方向,不見得是從我們傳統這些指標 可以決定哪邊比較優秀的。

記者: 那麼,美中AI發展的方向有什麼不同?

杜奕瑾:就我過去的經驗,在美國發展人工智能的領域比較是屬於就是由下而上。比如說BigTech(科技公司引領)這種模式,以人爲本,出發點是當我們在思考未來人類有什麼需要,做出各種不同的嘗試。

中國會比較是屬於Big Government(大政府引領)的這種模式,就是當我們看到比如美國的什麼領先指標, 我們就大家齊心齊力共同去做一個比它更好、更強、更厲害的相關的生成模型。所以我覺得,中美髮展的驅動力不同、 環境不同;還有像我們剛纔講,在比較自由的市場跟比較緊縮的市場,會導致你(開發者)選擇的題目也會不一樣, 以至於你可以看到它落地的應用的範圍也會不一樣。

記者:這我就想到美國公司做出了創新的IOS系統,中國公司在這之上去長出了Wechat、Tiktok;美國公司特斯拉釋出了自動駕駛技術開源代碼,過去幾年,中國科技公司往這個領域投資說要彎道超車。那一個關鍵的AI戰場會在哪個領域呢?會是ChatGPT嗎?

杜奕瑾: 在軟體以及人工智能的這個世界有一個很重要,當你有一個領先指標出現的時候, 除非你做一個市場區隔,就像Google出現的時候 你再做一個great firewall,因爲中國市場基本上也夠大, 那中國就會發展出自己特色的人工智能或軟體工業。

但是如果說這個市場區隔沒有做出來的話, 因爲通常跑在前面的,不管是軟體或是人工智能引擎,它會一定程度累積到更多的使用者、蒐集到更多的資料, 所以其實你如果是想純粹去用複製的方式去做到一個生成式模型,其實是很難去超越現在ChatGPT已經做到的成果。

美國市場其實有一個優勢,相對來講比較多元 、比較自由, 所以即使是這類高端人才的人數不見得比中國多,但在這種環境之下,它孕育出來的成果就是會比較多,而不是從既有架構去做複製,因此突破性的發展在這種市場是比較容易發生的。

記者: 你怎麼評估芯片出口限制對中國發展AI的影響呢?

杜奕瑾:對,我想如果說只是用來作爲訓練ChatGPT,未來的這種大型的語言模型一定需要很大的運算能力,你擁有越多有運算能力的組織,訓練這個大型的語言模型就會越有效率。

我相信,中國現有的算力應該是足夠讓中國去做訓練的,但當你要把它用來大量廣泛的使用,以及把人工智能的算法變成在每個地方都可以使用,這就需要更多AI芯片設備。相對來講,(缺少芯片)你的未來的發展可能就會受到限制。

人工智能未來的決戰點:確保人權、隱私

記者:你參與微軟在美國、中國的人工智能發展幾十年後決定回到臺灣創立AI實驗室,你爲什麼看好臺灣在AI領域的發展?

杜奕瑾:臺灣的言論新聞自由、經濟自由,造就的土壤讓這邊的人也能非常多元、有創新能力。當我們在講一個人工智能領域的發展,你需要有多元的內容以及文化,臺灣是在亞太區域很有代表性。

 

杜奕瑾認爲,人工智能未來的決戰點在確保人權隱私保障。(Taiwan AI Labs 提供)
杜奕瑾認爲,人工智能未來的決戰點在確保人權隱私保障。(Taiwan AI Labs 提供)

2月21日傳出,ChatGPT中國代理服務遭當局要求"整改下線" (網路截圖)
2月21日傳出,ChatGPT中國代理服務遭當局要求"整改下線" (網路截圖)

另外一方面,臺灣自己本身人工智能的運算的能力 、人工智能相關的芯片以及相關的硬體設備在全球都是領先地位。在臺灣做人工智能的發展,從想法到應用落地有非常大的競爭優勢。再來就是臺灣在這段時間,公司部門其實都有一個有共識的共同目標,用人工智能帶起軟體、硬體整個產業鏈。

臺灣我覺得最大的優勢就是我們是一個可信賴的合作伙伴, 我們跟全世界去做各種人工智能相關的研發, 講究的是code of ethics( 道德準則)。我們有一套從算法的研發驗證到確效的非常嚴謹的流程,它是保障人權隱私、確保不會有偏見,以及保障這個結果及流程是可以被驗證的, 這是被世界非常認同的。

以這個角度來講,過去大家會覺得人工智能的決戰點在哪裏,資料量是一個、你的軟體的能力是一個、運算能力是一個,那另一個就是我們是不是可信任的solution provider(解決方案提供商)。

記者:能不能談比較具體的例子讓我們的讀者瞭解,比如臺灣防疫數據的蒐集及應用與中國健康碼的差別在哪裏?

杜奕瑾:我想,大家都有注意到臺灣的大法官釋憲案。在臺灣,對資料的人權的保障是非常的強大的, 臺灣政府在收集個人資料非常小心,也必須確保人權隱私。

在臺灣,社交距離APP以及臺灣人工智能實驗室做科技反應相關的發展, 我們第一件事情就是利用Rights-Respecting Technology(尊重人權隱私的科技) , 就是我們尊重數據,不把你的數據帶離你的個人裝置,中央政府並沒有一箇中央的資料庫去搜集你的數據。

臺灣人工智能實驗室是第一個倡議聯邦式學習分析的機構,尊重資料所有權,也就是資料擁有者有權管理資料。這種做法比較符合歐盟的GDPR(通用資料保護規則)。這種去中心化、保障人羣隱私的算法科技,其實才是未來可信任人工智能研究的一個基礎。

記者:謝謝你接受我的訪問。

杜奕瑾:謝謝你。

 

記者:唐家婕    責編: 何平    網編: 瑞哲

添加評論

您可以通過填寫以下表單發表評論,使用純文本格式。 評論將被審覈。

評論

非常文明的社會
2023-04-10 15:57

臺灣是非常文明的社會,政府尊重人權,人民素質高,臺灣那些第五縱隊要是在中國早被槍斃了。只有臺灣政府包容他們。我個人感覺中華文明的正統在臺灣。