發了瘋地學習(上篇)——底層探究,激發學習的元動力
http://www.wandqa.cn2021年05月20日 09:29教育裝備網
一直想分享這篇文章,今天靜下心來,我們一起來品味,一同思考,你會想打王者榮耀一樣發瘋地學習嗎?
我們先來看一下為什么很多人癡迷游戲,無法自拔。王者榮耀,一個游戲的經典制作,先問一個問題,對于一個非職業玩家,我們打王者榮耀,是為了什么?除去消遣時間這個客觀因素,是為了推掉敵方水晶,還是拿到五殺,抑或只是和朋友一起,享受在游戲中暢快淋漓地傾瀉技能,這些其實都不是本質原因。單次的獲勝或五殺并不能驅使我們一定要打開下一局的游戲,本質上,我們對游戲的快感,都是大腦對游戲反饋機制的一種獎勵,它由我們的多巴胺所決定。
多巴胺既是快感嗎?其實并不是,多巴胺不是快感的本身,而是對快感的預期,或是對快感的追求,當你獲勝或拿到擊殺,你的腎上腺素,催產素和內啡肽分泌增多,你會感到愉悅,興奮,但對大腦神經來說,這些情緒只是暫時的體驗,而多巴胺所構成的信號機制才是決定你會不會接著玩下去,并且以后還會打開游戲的關鍵。換句話說,多巴胺賦予你沉迷游戲的欲望,在多巴胺的信號機制中,你不會感到我玩王者榮耀很爽,而是讓你覺得這把我能翻盤,下把一定贏,再贏一把我就升級段位了,也正由于多巴胺是直接作用于大腦的獎勵回來,于是一次又一次的我們打開手機電腦,點開游戲,周而復始,這就是我們沉迷游戲的根本原因。
反饋回路,我們已經知道大腦所構造的反饋回路,是促使大腦沉迷游戲的底層原因,再將反饋回路應用到學習之前,我們先來簡單的了解一下它的工作原理。當你是個普通玩家,第一次進入游戲,孤身殺入敵方防御塔范圍,但被擊殺,你的大腦感覺失望,于是重新復活后你孤身進塔的動作概率被降低,你開始選擇跟誰隊友一起進入,并推掉了敵方防御塔,再經歷數十個動作和狀態轉移后,最終勝利,你獲得了滿足,根據獎勵結果,大腦判斷,第二種操作更好,因此下一次循環,你選擇跟誰隊友的概率會繼續增加,并隨之做出更多的正確操作,最終強化這條反饋回路的效果,而這也是脫穎而出的制勝原因,大腦的反饋機制使得響應更快,由此可見,反饋回路并不復雜,它只是一種信號,動作。
反饋機制機制由五個部分組成,每個部分都對應一個例子中的一個描述。環境,你的交互環境,比如游戲,狀態,你所處在的狀態(擊殺,獲勝),動作(打開游戲,操作角色,或關掉游戲),更新(提高或降低你做出某個動作的概率,概率可以理解為大腦信號的強弱),獎勵(獲勝的愉悅,也即是快感預期);并且滿足一下五個規則,當你進入游戲,你會以不同的概率在每個時間點上做出不同的動作,你的動作影響下一刻所處的狀態,每一個狀態都對應一個獎勵,也既是大腦所獲得的反饋,每一步動作都不止影響下一步的反饋,也可能影響更遠的狀態和反饋,反饋可以為正也可以為負。反饋回路的構造方法之一,就是加強對目標的預期反饋,也叫做反饋強化。
反饋強化,游戲帶給玩家的反饋是否足夠,是否迅速,是決定一個游戲是否有趣的基礎,而一個游戲廠商在做的事情,就是將反饋回路竭盡所能地加強和加快,比如提高動作的收益,推掉水晶,你獲得的不只是勝利,游戲分數也會提升,或者不確定性,讓玩家耗費更多次的嘗試來確定反饋回路,比如皮膚的隨機性。
回到學習本身,正如學習帶給學習者的反饋,也是決定這個學習模式是否有趣的基礎,再將學習和游戲聯系起來之前,我們還是再深入的了解一下游戲系統的三種反饋強化模式,固定比率強化,如打敗是個對手一定可以升一級,連勝十場一定可以升段;二是固定時距強化,比如游戲中的寶箱3小時后一定可以解鎖;三是不固定比率強化,也就是游戲中抽一次卡,有1%的幾率抽到SSR。這三種方法,正是將強化學習中的不確定性獎勵固化成為確定性收益,比如分數,卡牌,又分別對應來游戲廠商的三項核心KPI,留存率,在線人數和凈收入。
講了這么久游戲,那學習又怎樣和游戲聯結找出底層邏輯?在強化學習的過程中,我們又該如何具體實施執行呢?下期我們分享,且聽下回分解。
奧圖碼數碼科技(上海)有限公司致力于智慧教育驅動力協作發展,歡迎合作垂詢。
注:本文為企業發布的推廣文案,不代表本站觀點。
責任編輯:董曉娟
本文鏈接:TOP↑