防止學生利用 ChatGPT 作弊的兩個替代選擇
最近我在南非和一群教育工作者進行了一場關於人工智慧 (特別是 ChatGPT 和類似產品) 的對話,他們都擔心這套軟體可能會讓學生更容易作弊。
我們討論到兩種 ChatGPT 的替代選擇:第一,老師可以要求學生繳交手寫的作業,這樣會強迫學生在交作業之前至少會讀過一次作業的內容。第二,老師在打分數時,最高只給到 89 分 (也就是 B),但如果要拿到 A,學生必須站在全班面前用口頭方式說明他的內容、研究方法以及結論,並回答老師或同學可能提出的任何問題。(有了口頭方式為自己的想法辯護,老師甚至完全不需要學生繳交書面作業!)
這問題的本質在於老師根據作業來打分數,如果教育的目標是要教導學生學會知識以及利用這些知識來進行思辨,那麼目前評量成就的指標顯然無法達到目的。
美國知名管理學家腓德烈·溫斯羅·泰勒 (Fredrick W. Taylor) 是最常被引用的管理學家之一,他最著名的一句話就是:「如果你無法評量,就沒辦法管理。」有趣的是,他從未說過這句話,所以算他幸運,因為這句話完全不正確。人們經常在沒有數據的情況下管理各種事務,從開車到養育小孩。其實他說的是:「如果你評量了,你就會管理它」,而他的用意是要提出一種警告。當你採用了某種指標,你就會調整你的評估方式來配合你所選擇的指標。所以他警告說,你要非常小心挑選你的指標。
在過去四十年的某個時間點,我們決定了教育的目的就是要讓學生考出好成績。不幸的是,這也是錯的,教育的目的是要教育人們蒐集證據,然後依據證據做出清晰的思考。學生應該學會如何判斷證據的各種樣貌,他們應該了解修辭技巧 (也就是如何將概念傳達清楚)。他們應該小心一些人們常犯的思考錯誤,也就是當我們趕時間或不專心時可能會落入的認知陷阱,還有會讓我們的辯證失去立足點的邏輯誤謬。
大型語言模型 (LLM) 會反映出網路內容的偏見、邏輯限制以及認知扭曲
大型語言模型 (LLM) 匯集了大量的文字,這些資料的來源並未經過整理,所以 LLM 會反映出網路內容的偏見、邏輯限制以及認知扭曲。我們都知道一些早期的聊天機器人很容易被人惡搞,例如 Microsoft 的聊天機器人「Tay」就被惡搞成一個種族主義者共鳴者。
(請參閱「Twitter 在不到一天之內將 Microsoft 的 AI 聊天機器人訓練成一名種族主義混蛋」(Twitter taught Microsoft’s AI Chatbot to be a Racist A**hole in Less than a Day) 一文,出版者:The Verge,日期:2016 年 3 月 24 日,網址: https://www.theverge.com/2016/3/24/11297050/tay-microsoft-chatbot-racist ,上次存取時間 2023 年 8 月)
LLM 不會思考,它們只會盡可能地掃描大量內容,然後產生一組有關哪個字最可能跟在哪個字後面的概率。如果「pterodactyl」(翼手龍) 出現在文字裡,那麼它後面最可能接的字會是「soaring」(展翅高飛),其次是「flying」(飛翔)。如果 ChatGPT 接收到「pterodactyl」這個字當作輸入,那它就會在它後面接上「soaring」這個字當作輸出。這對於讀取輸出內容的人來說,也許看起來合理,但不一定正確。「正確」意味著某種型式的理解和判斷,而 ChatGPT 兩者都不會,它只是根據 LLM 資料庫中的統計概率來將文字做排列。我們現在知道,那些接收電腦生成內容當作輸入的 LLM 甚至更會加偏頗,它們會重新掃描先前的輸入來判斷字詞順序的機率。長期下來,以 AI 生成內容作為輸入的 LLM 會偏離人類實際撰寫內容越來越遠。人們經常提到 LLM 會產生一些幻想內容,這種情況越來越常見,因為在提取和放大那些常用字詞的過程中,會導致機器的回應內容越來越趨於狹隘。最終,如果我們無法防止 LLM 汲取已經被處理過的內容作為輸入,那麼 ChatGPT 的輸出將變得越來越狹隘,走到極端之後,不管輸入是什麼,最後都只會輸出同一種情節、同一個答案、同一幅畫、同一個結果。但早在這件事發生之前,人們應該就已經拋棄使用 LLM 來從事任何需要創造力的活動。
LLM 在哪些領域可以提供協助?答案是:幫忙整理特定領域內的資訊
那麼,LLM 在哪些領域可以提供協助?答案是:幫忙整理特定領域內的資訊。例如,以蛋白質序列作為訓練材料的 LLM 可以很快地開發出一種可攻擊某特定疾病或阻斷過敏反應的最佳模型。在這樣的環境下,我們要的並不是創意,而是快速掃描一些幾乎相同的資料,從過敏反應中找出那少數足以導出不同結果的資料。人類在做這類工作時,很容易會覺得無聊或犯錯。所以 LLM 可以幫助科學快速過濾特定封閉領域中的大量資料。但當遇到開放領域時 (例如藝術、詩詞、小說、電影、音樂),LLM 只能產出平庸的內容,創作出濫竽充數的作品,但藝術家追求的是突破自己過去的作品。
LLM 的核心問題也許無解,所以眼前許多企業都在探索如何標記 AI 生成內容 (文字或圖片),好讓人類只須花點時間就能判斷內容的準確性和正確性。當然,訊息摘要 (message digest) 有可能遭到破壞,浮水印也可能被偽造。駭客有可能刻意將真實的內容惡意標記為 AI 生成內容。最新的發展包括專門用來生成變臉詐騙攻擊或稱為商務電子郵件入侵 (Business Email Compromise, BEC)與網路釣魚電子郵件內容的惡意 ChatGPT 版本。
學生們總是會設法抄捷徑,這樣的積習難改。商業上,官僚系統也可能利用工具來簡化他們的工作,所以,您的企業要如何安全地將 LLM 導入業務流程?企業應思考要如何稽核內部流程來確保 LLM 的輸出可以適當融入其對外通訊。想像一下,如果某家公開上市公司被發現使用 LLM 來製作他們的年度財報可能會造成什麼傷害。