她随手从笔筒里抽出一支笔,在一张空白的A4纸上,飞快地写下了一行公式:
θ_new = θ_old - α * ??J(θ_old)
“α是学习率,控制每一步更新的幅度。”她解释道。
马宇腾看着那行简洁而优美的公式,感觉堵在脑子里的那团迷雾,瞬间被一道光劈开。
就是这个!
“那……如果是一个具体的神经网络,比如逻辑回归,这个梯度该怎么算?”他追问道。
钟虹看了他一眼,没有直接回答。她坐到旁边的椅子上,将那张A4纸拉到自己面前。
“这需要用到链式法则。”
她的笔尖在纸上飞舞,一行行数学符号和推导过程如流水般倾泻而出。
她先是写出了逻辑回归的假设函数h(x)和代价函数J(θ)。
然后,她开始对代价函数求偏导数。
她的动作流畅而自信,仿佛不是在进行复杂的演算,而是在书写一首烂熟于心的诗歌。
马宇腾在一旁看得目瞪口呆。
那些让他头痛欲裂的线性代数和微积分知识,在钟虹的手中,就像是孩童的积木一样,被轻松地拆解、组合。
几分钟后,钟虹停下笔。
纸上,已经清晰地呈现出从代价函数到最终参数更新梯度的完整推导过程。
每一个步骤,都清晰明了,逻辑严密。
“看,最终的结果很简单。”她指着纸上最后那行推导结果。
马宇腾看着她,眼神里充满了震撼。
他知道自己的妻子是数学天才,但这种将抽象理论瞬间转化为具体解法的能力,还是让他感到了巨大的冲击。
“我……看懂了。”马宇腾的声音有些干涩。
钟虹把纸推给他,又看了一眼屏幕上的其他内容。
“你写的这些网络结构很有意思,特别是这个‘无监督逐层预训练’的想法,很巧妙。”
她拿起鼠标,滚动页面,仔细马宇腾写下的理论框架。
“但是,这里面涉及到的数学问题会更复杂。”她指着深度信念网络的部分。
“比如RBM的训练,会用到吉布斯采样和对比散度算法,那涉及到概率图模型和蒙特卡洛方法。”
一连串马宇腾只听过名字却完全不理解的术语从钟虹嘴里冒出来。
马宇腾彻底放弃了挣扎。
他直接把笔记本