江铭的演示还在继续。
前面的概念只能算是开胃小菜,后面的部分公式推导越来越多,式子也越来越长。
“智能体前后两次试错中,目标函数的差值,可以称为策略梯度。”
“在自适应巡航这个问题中,目标函数即通过拉格朗日乘子法将车速、稳定性、舒适度等多个目标统一成的单个函数。”
随着江铭讲解逐渐深入,学员们的目光都变得清澈了起来。
林欣然更加震惊异常。
“这...这是我们组的方案?”,她小声嘀咕道。
这和昨天的方案完全不一样啊。
师弟怕不是昨天晚上回去睡觉的早,在梦里穿越到异世界学了什么不得了的知识吧!
...
直播弹幕已经炸了。
“卧槽?卧槽!卧槽!!!”
“这都是什么?我怎么听了半天一点没听懂?”
“楼上一定是走神了,就像是老师上一秒还在讲1+1,走了个神回来就是微积分了。”
“江老师,请收我为徒!”
“我已经拜入信息神教了,从今往后,一切问题都用神经网络来解决。长夜将至,我从今开始守望,至死方休...”
“试错、探索与利用...我悟了!大道至简,我们人类只有从错误中吸取教训才会走得更远。”
“那天你和警察就是这么说的?”
演播室内的两位评委也没能幸免,被江铭的一通公式推导狠狠洗礼了一番。
他们虽然都能轻易跟上公式的推导思路,但这个思路...
江铭这个思路简直前所未有,闻所未闻!
“颜教授,这个方法...你怎么看?”,庞武收起了之前的态度,郑重道。
“嘶...”,颜宇菲深吸一口气:“我也摸不透,看起来有点仿生学算法的意思,但又不是。”
之前的许多优化算法,都会从自然界寻找灵感,例如遗传算法,或是各类进化算法。
华清组的粒子群优化就是一种仿生学算法。
然而江铭的算法,在迭代优化的部分,其实就是神经网络的梯度反向传播那一套。
但是这个梯度竟然是通过设计一个智能体在环境中自由探索试错得来的!
沉思良久,颜宇菲也难以给江铭的方案一个确切的评价。
这种感觉...她一下子回想起之前她测试使用小澄翻译的时候,也是这种感觉!
理智上觉得不可能,但是公式推导又清晰地摆在那里,证明这是可行的,可以实现的。
这个方案突兀地摆在那里,和之前所有的方法都完全不同,甚至没有关联,给她一种如同另一个世界技术般的不真实感。
“哎,听听彭城怎么评价吧。”,颜宇菲最终还是放弃了分析,叹了口气道。
...
“我的方案就是以上这些,方案的一些具体细节还需要继续完善,请彭导批评指正。”