nn.init

2023-02-27 torch.nn python 0 评论字数统计: 203(字) 阅读时长: 1(分)

nn.init初始化函数参数: pytorch文档

1. 均匀分布

nn.init.uniform_(tensor, a=0, b=1)

a,b: 均匀分布的下界和上界

下面举一个初始化时的例子

class MyModel(nn.Module):
    def __init__(self):
        super(MyModel, self).__init__()
        self.l1 = nn.Linear(3, 3)
        self._init_parameters()  # 对模型中的参数初始化

    def _init_parameters(self):
        for p in self.parameters():
            nn.init.uniform_(p, a=0, b=1)

    def forward(self, x):
            return x

model = MyModel()
for param in model.parameters():
    print(param)

'''
Parameter containing:
tensor([[0.0213, 0.8163, 0.0422],
        [0.9847, 0.6568, 0.3481],
        [0.1649, 0.3403, 0.9780]], requires_grad=True)
Parameter containing:
tensor([0.7987, 0.0152, 0.0960], requires_grad=True)
'''

可以看到初始化的结果在0-1之间，当初始化的数据足够多时服从均匀分布，之后的初始化方法与之相同，就不在举例了

持续更新中…

本文链接： https://harrytea.netlify.app/2023/02/27/nn-init/

版权声明： 本博客所有文章除特别声明外，均采用 CC BY 4.0 CN协议许可协议。转载请注明出处！

harryteaustc

computer vision

Error: Not Found

文章

pytorch中输出模型参数名和梯度的一些操作

1. 输出参数名字的一些操作输出需要梯度的参数的名字 123for n,p in self.lm_head.named_parameters(): if p.requires_grad == True: print(n)

LLaMA源码解读

1. LLaMA源码解读这里以Huggingface中的LLaMA源码为例，LLaMA是一个因果模型，不论是做下游任务（例如分类等）还是生成任务，我们都要使用其中的LlamaModel模型作为base模型，此模型的就是初始化词向量以及Transformer模块，下面我们从LlamaModel源码开

LoRA代码解析

1. LoRA论文解读这里先不解读了，直接看Microsoft的代码 2. LoRA代码解析 lora代码最初由微软GitHub提供，我对代码进行了精简，可以在这里下载lora，此代码主要为了学习使用，方便理解lora的整个流程。这里以NLG任务中的e2e数据集为例 2.1 对数据的预处理如下

pytorch获取网络中的模块和参数

1. pytorch获取网络结构在写深度学习程序时，我们通常要将网络打印出来查看网络结构，一个最简单的方法就是直接print(model)来打印模型结构，这里我们以下面程序为例 1234567891011121314151617181920212223242526272829import torc

Qwen-VL代码解析

c Qwen-VL: A Versatile Vision-Language Model for Understanding, Localization, Text Reading, and Beyond. Alibaba Group 1.1 论文动机本文是在Qwen-LM的基础上进行改的，本文的

页面

分类

Repositories

标签

(未命名)

— title: about date: 2022-07-30 17:05:33 layout: about —

分类

pytorchpytorch

paperreadingpaperreading

blogblog

huggingfacehuggingface

torch.nntorch-nn

标签

pythonpython

pytorchpytorch

原创原创

paperreadingpaperreading

计算机视觉计算机视觉