Dive into Deep Learning-优化算法(1)

  1. 优化和深度学习的关系
  • 优化是最小化损失函数,而深度学习的目标是在给定有限数据量的情况下寻找合适的模型,分别对应着训练误差和泛化误差;
  • 需要注意过拟合;
  1. 优化面临的挑战(求解数值解)
  • 局部最小值:当优化问题的数值解接近局部最优值的时候,目标函数解的梯度接近或者变为0,通过迭代获得的数值解可能仅使目标函数局部最优,而不是全局最优,一定程度的噪声会使参数跳出局部最小值,这是小批量随机梯度下降的有利特性之一,此时小批量上梯度的自然变化能够将参数从局部最小资中跳出;
  • 鞍点:定义为梯度为0但是既不是全局最小值也不是局部最小值的点,尽管不是最小值,但是优化可能会停止,假设输入是k维向量,假设在0梯度处的Hessian矩阵的k个特征值均为正,此时局部最小值,均为负,为局部最大值,有正有负为鞍点;
  • 梯度消失
  1. 凸性
  • 凸集:对于任意的 a , b ∈ X a,b\in X a,bX,连接 a , b a,b a,b的线段也位于 X X X,则集合 X X X是凸集,数学化表示,对于任意 λ ∈ [ 0 , 1 ] \lambda\in[0,1] λ[0,1],有 λ a + ( 1 − λ ) b ∈ X \lambda a + (1-\lambda) b\in X λa+(1λ)bX,例如实数集,两个凸集的交集也是凸集;
  • 凸函数:对于所有 x , x ′ ∈ X , λ ∈ [ 0 , 1 ] x,x'\in X,\lambda\in [0,1] x,xX,λ[0,1],有 λ f ( x ) + ( 1 − λ ) f ( x ′ ) ≥ f ( λ x + ( 1 − λ ) x ′ ) \lambda f(x) + (1-\lambda)f(x') \geq f(\lambda x + (1-\lambda)x') λf(x)+(1λ)f(x)f(λx+(1λ)x);
  • 詹森不等式:凸性定义的推广 ∑ i α i f ( x i ) ≥ f ( ∑ i α i x i ) , ∑ i α i = 1 \sum_i\alpha_if(x_i)\geq f(\sum_i\alpha_i x_i),\sum_i\alpha_i=1 iαif(xi)f(iαixi),iαi=1;
  • 凸函数的性质:凸函数的局部极小值是全局极小值

i. 特征值和特征向量, A v = λ v Av=\lambda v Av=λv,其中 v v v是特征向量, λ \lambda λ是特征值;例如对于 A = [ 2 1 2 3 ] A = \begin{bmatrix} 2 & 1\\ 2 & 3\end{bmatrix} A=[2213],他的特征值是 4 , 1 4,1 4,1对应的两个特征向量是 [ 1 2 ] \begin{bmatrix} 1\\ 2\end{bmatrix} [12] [ 1 − 1 ] \begin{bmatrix} 1 \\ -1\end{bmatrix} [11]
ii. 求解特征值和特征向量: ( A − λ I ) v = 0 (A-\lambda I)v = 0 (AλI)v=0,所以 ( A − λ I ) (A-\lambda I) (AλI)不可逆,也就是 d e t ( A − λ I ) = 0 det(A-\lambda I)= 0 det(AλI)=0,即可解得特征值
iii. 延续上面的例子,特征向量组成的矩阵 W = [ 1 1 − 1 2 ] W=\begin{bmatrix}1 & 1\\-1 & 2\end{bmatrix} W=[1112],特征值组成的矩阵 ∑ = [ 1 0 0 4 ] \sum=\begin{bmatrix}1 & 0\\0 & 4\end{bmatrix} =[1004],可得 A W = W ∑ AW=W\sum AW=W,而且 W W W是可逆的,所以等式两边同乘 W − 1 W^{-1} W1得到 A = W ∑ W − 1 A=W\sum W^{-1} A=WW1
iv. 一些良好的性质: A n = W ∑ n W − 1 A^n = W\sum^n W^{-1} An=WnW1,也就是对应一个矩阵的乘方进行特征值分解,只需要将特征值进行同样的n次方即可,此时n需要时正数;对于矩阵的求逆, A − 1 = W ∑ − 1 W − 1 A^{-1}=W\sum^{-1}W^{-1} A1=W1W1,可以看到对矩阵的逆进行特征值分解,直接对特征值求逆即可;矩阵的行列式等于矩阵的特征值的乘积 d e t ( A ) = λ 1 ⋯ λ n det(A) = \lambda_1\cdots \lambda_n det(A)=λ1λn;矩阵的秩等于非0特征值的个数;
v. https://d2l.ai/chapter_appendix-mathematics-for-deep-learning/eigendecomposition.html

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mfbz.cn/a/604319.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

《动手学深度学习》预备知识和安装环境

哈喽,欢迎来到自学深度学习小白的文章,本文将介绍anacoda是什么和有什么用,以及在win10环境下如何安装运行环境。 关于anaconda 1.环境 准备开始写代码了,教材总是先叫你配好环境,环境可以堪称一栋房子,…

MindSponge分子动力学模拟——软件架构

技术背景 在前面一篇文章中,我们介绍了MindSponge的两种不同的安装与使用方法,让大家能够上手使用。这篇文章主要讲解MindSponge的软件架构,并且协同mindscience仓库讲解一下二者的区别。 整体架构 首先我们来了解一下MindSponge独立仓库的…

Baidu Comate智能编码助手:提升软件生产力的高效工具使用教程

目录 一、前言 二、Comate助手概览 三、核心功能详解 智能推荐与自动补全 生成单元测试 代码注释生成 四、使用场景与优势 五、总结与展望 一、前言 随着信息技术的飞速发展,编程已经成为许多行业不可或缺的一部分。然而,编程过程中的繁琐和重复…

基于51单片机交通灯设计—汇编语言

基于51单片机的交通灯设计 (仿真+程序设计报告) 功能介绍 具体功能: 1.南北方向绿灯20s(最后3s闪烁)后转黄灯常亮5s,同时东西方向红灯25秒;东西方向绿灯20s(最后3s闪烁…

【三】DRF序列化进阶

序列化器的定义与使用 多表关联序列化 【1】准备工作 # settings.py DATABASES {default: {# 数据库引擎选择使用MySQLENGINE: django.db.backends.mysql,# 指定数据库名字,需提前创建NAME: books,# 指定数据库用户名USER: root,# 指定数据库用户密码PASSWORD: …

Redis 主从复制 初步认识

文章目录 定义拓扑拓扑定义单从拓扑多从拓扑树型拓扑 使用原理建立流程持续复制 定义 Redis主从复制技术的主要满足的需求是①数据恢复②负载均衡 ①数据恢复的理解:将数据同步到多个Redis服务器中,其中一个节点数据损毁,可通过复制其他节点…

FreeRTOS学习笔记-基于stm32(6)时间片调度实验

1、什么是时间片调度 在任务优先级相同的时候,CPU会轮流使用相同的时间去执行它,即时间片调度。这个相同的时间就是时间片。而时间片的大小就是SysTick的中断周期(SysTick的中断周期可以修改)。 比如有三个相同优先级的任务在运行…

一张贴纸50万,炒房炒币的怎么都来炒CSGO皮肤了

一张贴纸50万,为什么炒房炒币的都来炒CSGO饰品了? 一张贴纸50万,炒房炒币的怎么都来炒CSGO皮肤了? 经常有人问我,天天看你们买卖装备,买卖皮肤,说到底这都是虚拟产品,看得见摸不着的…

ue引擎游戏开发笔记(35)——为射击添加轨道,并显示落点

1.需求分析: 我们只添加了开枪特效,事实上并没有实际的效果产生例如弹痕,落点等等。所以逐步实现射击的完整化,先从实现落点开始。 2.操作实现: 1.思路:可以这样理解,每次射击的过程是一次由摄…

二层交换机与防火墙连通上网实验

防火墙是一种网络安全设备,用于监控和控制网络流量。它可以帮助防止未经授权的访问,保护网络免受攻击和恶意软件感染。防火墙可以根据预定义的规则过滤流量,例如允许或阻止特定IP地址或端口的流量。它也可以检测和阻止恶意软件、病毒和其他威…

Ansible-playbook剧本

目录 一、Ansible playbook简介 2.1 playbook格式 2.2 playbook组成部分 二、playbook示例 2.1 yaml文件编写 2.2 运行playbook 2.3 定义、引用变量 2.4 指定远程主机sudo切换用户 2.5 when条件判断 2.6 迭代 三、总结 Ansible中使用playbook脚本的作用和好处 一、A…

5月8日学习记录

_[FBCTF2019]RCEService(preg_match函数的绕过) 涉及知识点:preg_match函数绕过,json的格式,正则回溯 打开环境,要求用json的格式输入 搜索学习一下json的语法规则 数组(Array)用方括…

OpenMV 图像串口传输示例

注意:本程序根据 OpenMV采集图片通过串口发送,PC接收并保存为图片 更改。 一、例程说明 这个例程主要实现了以下功能: 1. OpenMV 端采集图像:使用OpenMV开发板上的摄像头采集实时图像数据。 2. 通过串口传输图像数据:将采集到的图像数据打包成字节流,…

智慧工地的5大系统是什么?SaaS化大型微服务架构(智慧工地云平台源码)可多端展示登录

智慧工地解决方案依托计算机技术、物联网、云计算、大数据、人工智能、VR&AR等技术相结合,为工程项目管理提供先进技术手段,构建工地现场智能监控和控制体系,弥补传统方法在监管中的缺陷,最终实现项目对人、机、料、法、环的全…

外企接受大龄程序员吗?

本人知乎账号同公众号:老胡聊Java,欢迎留言并咨询 亲身体会外企经历所见所闻,外企能接受大龄程序员。 1 大概是10年的时候,进一家知名外企,和我一起进的一位manager,后来听下来,年龄35&#xf…

html的标签

基础标签 标签描述<h1>-<h6>定义标题&#xff0c;h1最大&#xff0c;h6最小<font>定义文本的字体&#xff0c;字体尺寸&#xff0c;字体颜色<b>定义粗体文本<i>定义斜体文本<u>定义文本下划线<center>定义文本居中<p>定义段落…

俄罗斯国际消费类电子电器展ICEE:人潮如织,盛况空前

近日&#xff0c;备受全球瞩目的俄罗斯国际消费类电子电器展ICEE在莫斯科盛大落幕。本次展会为期四天&#xff0c;真的攒足了眼球&#xff0c;不仅俄罗斯这边的很多媒体和自媒体有报道&#xff0c;展会第一天&#xff0c;很多参展商通过短视频平台将展会的盛况传到了国内&#…

Ubuntu22.04下安装kafka_2.11-0.10.1.0并运行简单实例

目录 一、版本信息 二、安装Kafka 1.将Kafka安装包移到下载目录中 2.下载Spark并确保hadoop用户对Spark目录有操作权限 三、启动Kafka并测试Kafka是否正常工作 1.启动Kafka 2.测试Kafka是否正常工作 一、版本信息 虚拟机产品&#xff1a;VMware Workstation 17 Pro 虚…

AI PC,到底谁的梦想、谁的红利?

世界上第一台通用计算机是1946年诞生的埃尼阿克&#xff0c;世界上第一台便携电脑是1981年诞生的“奥斯本1号”&#xff0c;世界上第一部智能手机是1993年诞生的IBM Simon。 它们之间看起来毫无关系&#xff0c;但却暗含一种关于创新的微妙潜规则——随着时间推移&#xff0c;…

MM模块学习一(供应商创建,物料类型的定义及功能)

物料管理流程&#xff1a; 源头&#xff1a;采购需求->采购申请 MRP&#xff1a;物料需求计划。运行物料需求计划的结果&#xff0c;根据物料的性质来判断是外购&#xff08;采购申请&#xff09;或者是生产&#xff08;计划订单->生产订单&#xff09;。 采购申请&am…
最新文章