nn.init初始化函数参数: pytorch文档
1. 均匀分布
nn.init.uniform_(tensor, a=0, b=1)
- a,b: 均匀分布的下界和上界
下面举一个初始化时的例子
1 | class MyModel(nn.Module): |
可以看到初始化的结果在0-1之间,当初始化的数据足够多时服从均匀分布,之后的初始化方法与之相同,就不在举例了
持续更新中…
nn.init初始化函数参数: pytorch文档
nn.init.uniform_(tensor, a=0, b=1)
下面举一个初始化时的例子
1 | class MyModel(nn.Module): |
可以看到初始化的结果在0-1之间,当初始化的数据足够多时服从均匀分布,之后的初始化方法与之相同,就不在举例了
持续更新中…
1. 输出参数名字的一些操作 输出需要梯度的参数的名字 123for n,p in self.lm_head.named_parameters(): if p.requires_grad == True: print(n)
1. LLaMA源码解读 这里以Huggingface中的LLaMA源码为例,LLaMA是一个因果模型,不论是做下游任务(例如分类等)还是生成任务,我们都要使用其中的LlamaModel模型作为base模型,此模型的就是初始化词向量以及Transformer模块,下面我们从LlamaModel源码开
1. LoRA论文解读 这里先不解读了,直接看Microsoft的代码 2. LoRA代码解析 lora代码最初由微软GitHub提供,我对代码进行了精简,可以在这里下载lora,此代码主要为了学习使用,方便理解lora的整个流程。 这里以NLG任务中的e2e数据集为例 2.1 对数据的预处理 如下
1. pytorch获取网络结构 在写深度学习程序时,我们通常要将网络打印出来查看网络结构,一个最简单的方法就是直接print(model)来打印模型结构,这里我们以下面程序为例 1234567891011121314151617181920212223242526272829import torc
c Qwen-VL: A Versatile Vision-Language Model for Understanding, Localization, Text Reading, and Beyond. Alibaba Group 1.1 论文动机 本文是在Qwen-LM的基础上进行改的,本文的
— title: about date: 2022-07-30 17:05:33 layout: about —