电子书ThePrinciplesofDeepLearningTheo

蚁工厂 2026-01-05 13:02:29

电子书 The Principles of Deep Learning Theory 深度学习理论原理 --理解神经网络的有效理论方法arxiv.org/pdf/2106.101652021年的书,里面没有大模型的内容."这是一本教科书风格的深度学习理论研究专著。虽然这本书看起来可能与你之前见过的其他深度学习书籍略有不同,但我们向你保证,它适合所有具备线性代数、多变量微积分和非正式概率论知识,并对神经网络抱有浓厚兴趣的人。无论是从业者还是理论家,我们都希望你们能喜欢这本书。现在,让我们向大家说明几点。第一,也是最重要的一点,在本书中我们所做的每一个选择都力求体现教学性,将直觉置于形式之上。但这并不意味着计算是不完整或草率的;恰恰相反,我们要试图提供每一个计算的完整细节——这其中肯定包含大量的计算——并特别强调进行相关感兴趣的计算所需的工具。事实上,理解计算是如何完成的与知道计算结果同样重要,因此我们的教学重点往往在于其中的细节。第二,虽然我们展示了所有计算的细节,但我们将实验验证保留在了我们自己的电子笔记本中。我们这样做的理由很简单:虽然解释推导过程能让人学到很多东西,但打印一张显示两条曲线重合的验证图并不能带来更多收获。鉴于现代深度学习代码的简洁性和算力的易得性,你自己验证任何公式都很容易;我们当然已经用这种方式彻底检查了所有公式,所以如果知道这些图表的存在能让你感到宽慰,请知晓它们确实存在于我们的个人硬盘和云端硬盘中。第三,我们的主要关注点是深度学习社区在实践中使用的现实模型:我们想要研究深度神经网络。具体来说,这意味着:(i) 单隐层网络的一些特殊结果将不予讨论;(ii) 神经网络的无限宽极限——对应于零隐层网络——将仅作为一个起点被引入。所有这些理想化模型最终都会被扰动,直到它们对应于一个真实模型。我们当然承认,有一个充满活力的深度学习理论家群体致力于探索各种理想化的理论极限。然而,我们的兴趣坚定地集中在为从业者使用的工具和方法提供解释上,试图阐明是什么让它们如此有效。第四,本书的很大一部分集中在深度多层感知机上。我们做出这一选择是为了从教学上阐释有效理论(effective theory)框架的力量——并非由于任何技术障碍——在此过程中,我们也指出了如何将这一形式体系扩展到其他感兴趣的架构。事实上,我们期望我们的许多结果具有广泛的适用性,并且我们尽量专注于那些我们认为对深度学习社区具有持久和普遍价值的方面。第五,虽然许多材料是新颖的且首次出现在本书中,并且虽然我们的框架、符号、语言和重点与历史发展路线有所不同,但也非常感激深度学习社区。考虑到这一点,在整本书中我们将尝试引用重要的先前贡献,重点关注近期开创性的深度学习成果,而非追求面面俱到。感兴趣的读者可以在我们引用的作品中轻松找到更多参考文献。第六,本书最初源于与 Boris Hanin 合作的一个研究项目。为了感谢他的付出和随后的支持,我们在封面上对他以此纪念。更广泛地,我们要感谢 Rafael Araujo, L´eon Bottou, Paul Dirac, Ethan Dyer, John Frank, Ross Girshick, Vince Higgs, Yoni Kahn, Yann LeCun, Kyle Mahowald, Eric Mintun, Xiaoliang Qi, Mike Rabbat, David Schwab, Stephen Shenker, Eva Silverstein, PJ Steiner, DJ Strouse 以及 Jesse Thaler 提供的艺术创作、讨论、鼓励、题词、反馈、管理、审阅、引荐和支持。在组织上,我们要感谢 FAIR 和 Facebook,Diffeo 和 Salesforce,MIT 和 IAIFI,以及剑桥大学出版社和 arXiv。第七,鉴于撰写本书所需的巨大的(以及各种不确定的)时空和能量-动量投入,Dan 感谢 Aya、Lumi 和 Lisa Yaida;从对偶样本空间的视角来看,Sho 感谢 Adrienne Rothschilds,并预先感谢任何假设存在的未来 Mark 或 Emily,否则他们本该在这一段中被感谢。第八,我们希望这本书能传播我们的乐观态度,即拥有一套深度学习的通用理论是可能的,这套理论既源于第一性原理,同时也专注于描述现实模型实际上是如何工作的:实践中近似简单的现象应对应于近似简单的有效理论。我们梦想这种类型的思维不仅会引出更 [已编辑] 的 AI 模型,还能指引我们走向理解智能普遍方面的统一框架。"科技先锋官

0 阅读:0
蚁工厂

蚁工厂

感谢大家的关注