第七期 2004年01月
編者的話 首頁  

放大

學習評量
>> 澳門學校為測試所付出的代價 文•祈務晨
譯•余 巍

[ 中文版 ] [ English Version ]

測試已造成危機嗎?

  測試是永無休止的。世界各地都十分重視測試。測試似乎已被公認為標準的守護天使、成功的守門員以及檢證學生所學知識的最有效工具。教師、學校體系和家長都無法抵擋它的魅力。對教師來說,分數象徵、記錄學習過程;對學生和家長來說,分數象徵著成功或失敗。測試行為本身,似乎代表它能向教師或學生,保證客觀地評估學習表現。但這種看法可能是對的,也可能不對。雖然測試的本質既無惡意也不是毫無價值,由於澳門十分重視測試,令人擔憂的是測試為學生和教師帶來的負面影響;測試的性質和內容,對課程和學習過程所帶來的連鎖影響。

  十幾年前,Lewin和Wang(1990)的研究報告指出中國廣泛的測試導致低水平的背誦、扼殺創造力、降低動機、損害自尊、缺乏創意;縮窄了課程的內容和框架,把學習內容看得比訓練技能更重要,而且鼓勵了機械式的學習。我曾在澳門一項已出版的研究(Morrison和鄧歡喜,2002)中提出,這些問題不但在Lewin和 Wang的研究面世之後沒有任何改善的跡象,而且在澳門這個小地方有惡化的趨勢。測試經已演變成檢視學生是否懂得背誦書本上的知識和事實,若缺乏適當的監管,會逐漸演變成弄巧反拙的依賴文化,封閉的課程與測試互為因果,產出低水平和以事實為本的課程、壓迫性的說教式教學法、機械式的學習過程、扭曲學生的學習動機、高壓監控學生和教師的機制、狹義地把教學看成單向知識傳授、以及並沒有把學生看成獨立的個體。

  我們從腦科學的研究成果(Sousa,2001)中得知情感和學習等認知和情緒因素不但與腦功能的結構互相緊扣,而且動機、喜好、成功的經歷、運用選擇和自主權的機會(例如:控制自我學習過程的經歷)、正面的自我形象和自尊、降低不必要的壓力和困擾等都是推動正面學習情感的必備條件。負面的情感抑制有效的學習,有時對學生產生終身的負面影響;學生可能在測試中取得高分,但可能從此之後永遠對學習失去興趣。在終身學習的時代,我們應該極之關注如何讓年輕人養成積極的終身學習態度。簡單地說,動機、自主權、成功經驗(不論是多麼微不足道的)和自尊心對學習來說都是很重要的。但是測試的結果往往徹底地損害了這些重要的因素。

  過度使用分數貶抑了學習、教學、學生、教師和教育的存在價值。在澳門曾進行了一些關於教學、學習和評估方面的研究(例如:Morrison和鄧歡喜,2002;鄧歡喜,2002),由澳門高等校際學院主持並已公佈的幾項研究報告中,展示了一個很清晰的訊息:可能是出於善意,澳門很多學校和教師會告訴學生去想些什麼,怎麼想和什麼時候去想,然後透過測試去檢查學生想得怎麼樣,而學生必須怎樣把他們的想法展示出來。這種做法令人在知性和情緒上都感到窒息,它阻礙教育、學習和發展。更令人憂慮的是,在澳門正在大力推動創思教育的時候,這些障礙降低了學生的創造力,將學生變成“學習無望”,嚴重的個案甚至會引起併發症,當病發的時侯會引致死亡。很多東亞地區的學生覺得只有從高樓跳下來才能逃避測驗和考試帶來的可怕壓力和困擾。

  我並不是說測試本身要負起責任,那會是十分荒謬的講法。但我認為在所有內容都是既定、受控、被動和封閉性的惡性教育循環中,測試的頻率、性質和成效已成為內在失敗的重要組成部分。如Sacks(1999)所述,測試的文化要付出沉重的代價:測試令思想僵化。學校不應該是工廠。

  測驗分數被看成是正確、可靠和公平的評量學習過程的工具。這個觀點是具有欺騙性的。統計學上普遍存在的標準誤差已經證明了這一點。此外,在多個場合中我曾請教師為一些學生功課的樣本評分,但有多年教學經驗的教師不但不能夠按同一個標準評分,而且他們所給的分數之間的差異很大。然而我們始終保持著分數是公平、可靠和正確這一個信念,而更令人困惑的是,我們經常基於這些分數作出關於學生的重要判斷和決策。測試中的分數驟然變成評定人的準則。

  在一個分數主導的體系中,如果我得不到100分,那麼我獲得的分數就不會被看成是成功的標誌,而會被看成是失敗的標誌。為什麼常常在澳門會看到一個取得50分或60分的學生被標籤成失敗?作出這些判斷是基於什麼準則?到底什麼是失敗的準則?只是無法取得足夠的分數?為什麼要設立一條“成功”與“失敗”之間的分界線?為什麼是定在這裡?為什麼定在50分?為什麼定在60分?這個決定成敗的“標準”是從哪裡來的?這些“標準”是建基於教育學的理論基礎,抑或是按照分數的分佈來隨意決定合格或不合格的水平?如果只因為學生沒法按照一個緊密的步伐和統一的觀點來學習,並通過測試,就被認定為失敗而接受懲罰,我們會怎樣看待這樣的教育體系?只需要去看一看澳門留級生在整體學生中所佔的比例,就會發現問題不是出在學生身上,而是出在教育制度本身。

  現行的體制出了問題源自測試不斷強化已僵化的課程體系,忽略了學生的個別差異而產生了大批留級生。不及格為學生帶來沉重的打擊,而這個問題的起因往往是僵化的課程及沒有考慮到學生之間的個別差異所引起,它只會死板地把能力不一樣的學生看成能力一致,試圖讓他們按照相同的進度升級。這個觀念違背了常理、自然規律和人權。在學年完成後懲罰學生就等同將責任歸咎於受害人。無可否認部分學生真的懶惰,也應該因為沒有用功而受到責備,但只是慣性地為這些學生記下一個分數就未免過於荒謬。分數並不能完全代表學習、能力、個性和學習過程中的情感參與程度;分數只代表其中一小部分。如果我們根據統一的準則為教師的教學表現評分,根據其他國家(例如在學校督導體系內)的經驗,教師會感到退步、侮辱、卑微、失去動機、無助和十分憤慨;他們的自尊心受到極大的打擊。但是我們為什麼要對學生做同樣的事情呢?

  Black(1998)是一位國際上著名的評估專家,他指出教師自己設計的測試常常存有一些問題(澳門常用這種測試方式),教師往往捨棄形式豐富多元的評估方式,而限制自己使用簡單的測試方式。他引證了四項主要的發現:

  • 教室內的評估方式通常鼓勵表面化和機械式的學習,專注於重複而且彼此沒有連繫的個別事件,而這些通常都是學生很快忘記的知識。
  • 教師通常不會主動檢討他們所使用的測試問題,而且同儕之間也不彼此批評性地進行討論,因此教師極少會反思測試的內容。
  • 過分重視分數,對學習過程的重視不足。
  • 有使用常模參照而不是標準參照的趨勢,這種方式增強學生之間的競爭性,而沒有想辦法促進學生的個人發展。在這種體制之下,等於有一把無形的聲音告訴那些能力較弱的學生,他們是遜人一籌的,而這只會令他們的學習動機更低,失去學習信心和自我學習的能力。

以上描述同樣適用於澳門。

  我們到底為了維持這個以測試者和被測試者所組成的社會付出了多麼高昂的代價?許多證據顯示東亞地區的學生在國際測試中取得的成績高於其他國家的學生,然而最重要的問題仍未被回答:我們付出了什麼代價?失控的測試產生令教學和學習觀念僵化的嚴重危機,而更重要的是,令人們逐漸失去思考、行動、創造和聯想的能力。人們不應只是零星知識的容器,當受到刺激的時候就會作出適當的回應;我們並不是Pavlov的條件反射實驗中的小狗。

  我不是反對通過記憶來進行學習。它的確有令人驚奇的成效。當我還在唸中學和大學的時候,曾深深地被Yeats(編者按:愛爾蘭詩人)和Pastenaks(編者按:前蘇聯詩人)的優美詩篇所打動,至今腦海中也經常盪漾著Schubert和Bach的美妙音符。從來沒有人迫我去學這些東西,我也沒有被別人測試過這些內容,但是這些美好的東西永遠都伴隨著我的心靈。由於這些內容對很多學生來說都過於艱澀,而且很容易測試之後就會完全忘記,所以永遠無法通過循規蹈矩、不斷重複和在測試中複述教科書上的知識來獲得這些美妙的東西。

  真實的學習過程需要應用和建構概念。提倡多元智能的Gardner (1999)認為,建基於腦科學的研究反覆強調“學以致用”這句格言的內涵 ─ 學生應該學習觀點和概念,並不應只是單純地重複和記憶一些事實,而是更應該重視其應用和發展。測試真的能讓學生應用他們所學的知識,創造並且驗證觀點嗎?澳門的證據顯示現況不是這樣的,測試的模式主要是測試學生暫時性吸收課本和在課堂中所學的知識,以及教師為了控制大班而過度集中於傳遞以教科書資料為中心的課程內容。由於澳門的班級人數較多,教師時常認為他們唯一能在這種環境中生存的方法就是進入“求生模式”,以複述事實為主導,並通過測試強化這種教學模式,這是教師在大班教學體系中的必然方式。

  大家應該慎記,切勿過度批評機械性地單憑背誦和記憶學習、低層次的認知策略、大班教學和以教師為中心的教學模式,因為:(一)亞洲學生在國際性評估中取得優異的成績;(二)重複和記憶並不一定與理解互相抵觸,反而會引導學生跨越表面化而進入深層的學習過程,並學習高層次的認知策略;(三)很多中國教師能在人數眾多的班級中依然可以用認知複雜、高層次和積極參與的方式進行教學。1但是,即使我們不否定上述論點,根據從澳門的教師取得的表面證據來看,澳門的真實情況並不是這樣的。雖然機械性的背誦和憑記憶可能最後導致成功的學習(三國時董迂曾說:“書讀百遍,其義自見”(Dahlin和Watkins,2000),但是這樣的學習方式不但沒有效率,我們更需要放開視野,去找一找是不是還有更好的學習和教學模式。

兩項在澳門進行的測試研究

  本澳學校進行的測試,不論是它的內容、頻率、範圍還是性質,很大程度都是由教師自己控制。在兩項關於澳門的教育研究中(Morrison和鄧歡喜,2002),很多教師都表示十分重視測驗和考試,而且認為測試具有許多優點,例如:

  • 可以推動學生學習”;
  • 可以保證“學生明白上課的內容”;
  • 評量“學生已學會多少知識”;
  • 是一種客觀和可靠評量方式;
  • 指出“學生在某一個主題上學會多少知識”;
  • 確保懶惰的學生學習(許多被訪者都提及這點);
  • “迫使學生學上課的內容”;
  • “施加壓力令學生學習”;
  • “令學生學習,因為他們十分重視分數”;
  • 為“教師的教學是否具備效能”提供證據;
  • “推動教師努力工作”;
  • 評估“大量學生”的有效方法;
  • “為學生升大學做準備”。

  有趣的是,在研究中提到了“懶惰的學生”和壓力,而忽略了更深層次的問題(例如:學習動機),好像問題不是出在測試。另一方面,同一研究中的教師又指出了測試的一些缺點,例如:

  • 令學生和教師承受巨大的壓力和負擔;
  • 只測試在班級中教授的內容:“學生只去學習教師指定給他們的學習內容”;
  • 缺乏多樣性,支配評估的類型和數量,而且支配課程,令它變得更加僵化和狹窄;
  • 嚴重地淡化了學生自我評估和自我診斷的功能;
  • 是消極的,並且不確保學習的持久性;學生在測試/考試後馬上就忘記所學的東西;
  • 主要檢視書本上的知識;
  • 打擊學生的自尊心和學習動機;
  • 在學生之中積累失敗,並引起對學習的怨恨;
  • 處罰能力較弱的學生;
  • 較適合教訓、教科書主導的教學法、操練、機械性的背誦學習和記憶、膚淺的學習、學生被動和填鴨式教育。
  • 形成學生只懂得追求分數的文化;
  • 訓練學生“機械式地學習”和“使學生用錯誤的方法學習”,藉此引致他們“對學習失去興趣”;
  • “不能顯示學習的真實情況”;
  • 對於“在學習上有困難的學生起消極的作用”;
  • “需要記太多沉悶內容”,時常“不求甚解”;
  • 壓抑創造力和批判性思考(一位被訪者表示“如果題問要求學生作出批判性的思考,學生就會懶得回應這道題問”);
  • 鼓勵“學生為了應付測試花大量時間死背知識。這實在太浪費他們的光陰了”;
  • 發展被動性,培養學生的惰性。

  學生為了測試及格而學習,然後把所學到的內容從腦海中漂白;短期的憑記憶被忘記所取代,正如一位被訪者提到:“考完了以後,他們全都忘了”。

  測試的結果令學生形成了一種傾向,就是測試及格是教育的唯一目標,要不惜一切代價避免失敗;分數永遠都是第一位,取得高分就是教育過程中最重視的事情。所有問題都有標準答案,如果學生無法一字不漏地按標準答案默出來就會被扣掉分數;正如一位被訪者提到:“學生認為只要我能在測驗的時候把書上的東西默出來,我就能得到高分。”

  當問及測試的次數時,研究中的被訪教師提供了以下數據:

  • 每個班級的測試頻率是:
    每星期超過一次: 27.8﹪
    一星期一次: 22.2﹪
    兩星期一次: 16.7﹪
    兩星期至一個月之間一次: 11.1﹪
    少於一個月一次: 22.2﹪

  • 每個星期在評估和記錄上花費的時間:
    不到五個小時: 15.8﹪
    5-14小時: 52.6﹪
    15-24小時: 15.8﹪
    超過24個小時: 15.8﹪

  • 每個星期在測試上花費的時間:
    1-5小時: 72.2﹪
    6-10小時: 16.7﹪
    11-14小時: 11.1﹪

  很明顯測試在這些教師和學生的生活中佔據著十分重要的位置。每科每周測驗的眾數是一次或以上,如此高的頻率實在令人吃驚(若以平均數推算,每位學生每天要參加兩次測試)。在佔用教師的時間方面,教師花在批改和記錄測試的時間眾數是每星期5至14小時,而這等同於差不多每星期有一整天(1至5小時)都花在測試上,這顯示出測試已佔據了教師腦海中相當一部分空間。由於測試的非人性化,所以我們一定要打破這個框架,教育才能得以發展。

逐漸淡化測試的影響

  教師以至學生都應從測試的結果中汲取教訓,同時教師必須利用測試的結果來改進本身的教學。舉例來說,一個班級的平均分是70分,然後,正如Black(1998)所說,雖然事實經已表明班上有很多學生連教師所教的一半也沒有學會(“平均”表示有人取得平均數以上的分數,也有人取得平均數以下的分數),教師往往將分數視為依舊的指示,而不會把它看成有需要修訂或重教的指示。

  評估一定要取代測試,而且一定要用形成性的評估。Black(1998)的結論指出,除非一個人願意修訂課程,否則不可能進行真實和大範圍地進行形成性評估。這些訊息對於那些長期信奉所有學生都要按同一進度、時間和內容來學習的封閉式課程觀的人來說十分重要。他強調形成性評估並不是在現行體制中的偶發地實行,而是要改變整個體制。

  此外,他更進一步提出,如果具備以下條件,教師評估能有效地提升成就和動機的水平:

  • 採納標準參照,並非採納常模參照;
  • 多些稱讚,避免責備;
  • 符合個別學生的不同需要;
  • 集中並再三檢視學習目標;
  • 設定可達成的目標;
  • 具彈性和可改變的學習計劃的一部分。

  有些評語既無效能,也毫無幫助,例如:“下次更努力一點”;“你拼字很差”;70分;等級D。學生無法從中得知應該如何改進和怎樣改進。另一方面,有效能的評語不單指出哪些地方需要改進,目標是什麼以及他們怎樣才能達到目標,注意力應該集中在哪些方面,如何能改正錯誤,學生能如何改進,而且這些回饋都應是及時的、持續的和連貫的。評語應告訴學生努力的結果;此外亦需要指導學生如何回應收到的評語。

  形成性評估在學生的學習過程中扮演重要的角色;它起著改進學習和成效的功能。改進學習受以下多個因素影響(Black和William,1998):

  • 向學生提供有效的回饋;
  • 學生積極參與本身的學習過程;
  • 根據評估的結果調整教學策略;
  • 明白評估對學生的動機和自尊的深遠影響力,因為兩者均對學習起著決定性的作用;
  • 該學生需要懂得自我評核,以及明白如何改進;
  • 與學生分享學習目標;
  • 學生參與自我評估;
  • 提供的回饋能引導學生明白他們的下一步目標以及應如何達致這些目標;
  • 堅信每一位學生都能學得更好。

總結

  我不是說我們應該取消測試,那只是無稽之談。測試在教育中佔有重要的地位,但它有其本身的局限性,而人們亦逐漸認識到這種局限性。我的論點是應該在本澳大幅度地減少測試的頻率,而相應地大幅度增加形成性評估(不只是一般的測試)。在進行測試的時候,應該符合以下原則:

  1. 成為教育過程的結果,而不是教育的驅動器;
  2. 不要簡單的重複,要求應用和高層次思維;
  3. 不應限制或過度干預課程;
  4. 減少頻率;
  5. 不應局限於簡單地表示及格和不及格;
  6. 不應被視作學習過程的唯一指標;
  7. 不應被視作教育與學習的唯一重要因素;
  8. 對分數的信度抱著懷疑的態度;
  9. 用來改進及提升教學;
  10. 促進學習;
  11. 增加學習的動機、自尊和熱忱。

  應該減少測試,以騰空時間用來:

  1. 作深層和高層次的教學和思考;
  2. 應用和建構知識;
  3. 探索、創造和發現;
  4. 課程的範圍、靈活性和開放性;
  5. 學生自主學習;
  6. 教學和學習。

  少測試、多學習;少測試、多教學。少測試、多成功。要豬兒快高長大,豬農就要餵它吃好的飼料,光天天去秤它是沒有用的。邏輯告訴我們頻密的測試次數並不會提升學生的智力,急於求成往往只會欲速而不達。

  本澳學校為測試所付出的代價是以大部分學生的失敗換取小部分學生經常取得的成功。即使在澳門以至東亞地區崇尚分數和測試的文化已根深蒂固,但教育工作者不應該單從成功或失敗的角度來看待教育,更不應該以一個分數來判斷成敗。學生的失敗就代表著學校的失敗。

  學生和教師像是生活在一個無法掙脫的牢籠,在單調而乏味的環境中被教科書牽制著學習,而又同時被測試強化,因而導致教育的破產和為教師、學生帶來可怕的損害。教師和學生淪為技師。學校教育變成了一個循環─測試主導教學,而教學被測試所牽制,學校教育變得封閉,沒有出路。這是與教育的本義相違背的。

(作者為澳門高等校際學院副校長,
譯者現職於教育暨青年局教育研究暨教育改革輔助處)

備註
1. See Biggs (1996a; 1996b), Marton et al (1996), Dahlin and Watkins (2000), Biggs and Watkins (2001), Watkins and Biggs (2001), Cortazzi and Jin (2001) and Mok et al (2001).

參考資料
Biggs, J. B. (1996a) Western misperceptions of the Confucian-heritage learning culture. In. D. A. Watkins and J. B. Biggs (Eds) The Chinese Learner: Cultural, Psychological and Contextual Factors. Hong Kong and Australia: Comparative Education Research Centre and the Australian Council for Educational Research Ltd., pp. 45-67.
Biggs, J. B. (1996b) Learning, schooling and socialization: A Chinese solution to a Western problem. In Sing Lau (Ed.) Growing Up the Chinese Way: Chinese Child and Adolescent Development. Hong Kong: The Chinese University of Hong Kong: The Chinese University Press, pp. 147-67.
Biggs, J. B. and Watkins, D. A. (2001) Insights into teaching the Chinese learner. In D. A. Watkins and J. B. Biggs (Eds) Teaching the Chinese Learner: Psychological and Pedagogical Perspectives. Hong Kong and Australia: Comparative Education Research Centre and the Australian Council for Educational Research Ltd., pp. 277-300.
Black, P. (1998) Testing: Friend or Foe?. London: Falmer.
Black, P. and Wiliam, D. (1998) Inside the Black Box: Raising Standards through Classroom Assessment. London: Kings College, University of London. http://www.pdkintl.org/kappan/kbla9810.htm.
Cortazzi, M. and Jin, L. (2001) Large classes in China: 'good' teachers and interaction. In D. A. Watkins and J. B. Biggs (Eds) op cit, pp. 115-34.
Dahlin, B. and Watkins, D. (2000) The role of repetition in the processes of memorising and understanding: A comparison of the views of German and Chinese secondary school students in Hong Kong. British Journal of Educational Psychology, 70, pp. 65-84.
Gardner, H. (1999) The Disciplined Mind. New York: Simon and Schuster, pp. 76-82.
Lewin, K. and Lu, W. (1990) University entrance examinations in China: a quiet revolution, in P. Broadfoot, R. Murphy, and H. Torrance, H. (Eds) (1990) Changing Educational Assessment. London: Routledge, pp. 153-76.
Marton, F., Dall'Alba, G., and Tse, L. K. (1996) Memorizing and understanding: the keys to the paradox? In D. Watkins and J. Biggs (Eds) op cit, pp. 69-83.
Mok, I., Chik, P. M., Ko, P. Y., Kwan, T., Lo, M.L., Marton, F., No, D. F. P., Pang, M. F., Runesson, U. and Szeto, L. H. (2001) Solving the paradox of the Chinese learner. In D. A. Watkins and J. B. Biggs (Eds) op cit. pp. 161-79.
Morrison, K. R. B. and Tang, F. H. (2002) Testing to destruction: a problem in a small state. Assessment in Education, 9 (3), pp. 289-317.
Sacks, P. (1999) Standardized Minds. Cambridge, MA: Perseus Books.
Sousa, D. A. (2001) How the Brain Learns (second edition). Thousand Oaks, CA: Corwin Press Inc.
Tang, F. H. (2002) An Investigation into English Teaching, Learning and Achievements in Macau. Unpublished Ed. D. thesis. University of Durham, UK.


教育及青年發展局