pytorch中输出模型参数名和梯度的一些操作

1月 17 pytorch python, pytorch 评论字数统计: 37(字) 阅读时长: 1(分)

LLaMA源码解读

12月 22 paperreading paperreading, 原创评论字数统计: 941(字) 阅读时长: 4(分)

LoRA代码解析

12月 21 paperreading paperreading, 原创评论字数统计: 631(字) 阅读时长: 2(分)

pytorch获取网络中的模块和参数

12月 21 pytorch python, pytorch, 计算机视觉评论字数统计: 633(字) 阅读时长: 3(分)

Qwen-VL代码解析

12月 20 paperreading paperreading, 原创评论字数统计: 1.2k(字) 阅读时长: 4(分)

Monkey论文阅读

12月 19 paperreading paperreading, 原创评论字数统计: 1.4k(字) 阅读时长: 5(分)

MiniGPT-v2代码解析

12月 18 paperreading paperreading, 原创评论字数统计: 1.6k(字) 阅读时长: 6(分)

MiniGPT-4代码解析

12月 18 paperreading paperreading, 原创评论字数统计: 1.3k(字) 阅读时长: 4(分)

Hexo基本设置

12月 14 blog git, github, 前端评论字数统计: 570(字) 阅读时长: 2(分)

BLIP-2代码解析

12月 13 paperreading paperreading, 原创评论字数统计: 299(字) 阅读时长: 1(分)

文章

pytorch中输出模型参数名和梯度的一些操作

1. 输出参数名字的一些操作输出需要梯度的参数的名字 123for n,p in self.lm_head.named_parameters(): if p.requires_grad == True: print(n)

LLaMA源码解读

1. LLaMA源码解读这里以Huggingface中的LLaMA源码为例，LLaMA是一个因果模型，不论是做下游任务（例如分类等）还是生成任务，我们都要使用其中的LlamaModel模型作为base模型，此模型的就是初始化词向量以及Transformer模块，下面我们从LlamaModel源码开

LoRA代码解析

1. LoRA论文解读这里先不解读了，直接看Microsoft的代码 2. LoRA代码解析 lora代码最初由微软GitHub提供，我对代码进行了精简，可以在这里下载lora，此代码主要为了学习使用，方便理解lora的整个流程。这里以NLG任务中的e2e数据集为例 2.1 对数据的预处理如下

pytorch获取网络中的模块和参数

1. pytorch获取网络结构在写深度学习程序时，我们通常要将网络打印出来查看网络结构，一个最简单的方法就是直接print(model)来打印模型结构，这里我们以下面程序为例 1234567891011121314151617181920212223242526272829import torc

Qwen-VL代码解析

c Qwen-VL: A Versatile Vision-Language Model for Understanding, Localization, Text Reading, and Beyond. Alibaba Group 1.1 论文动机本文是在Qwen-LM的基础上进行改的，本文的

页面

分类

Repositories

标签

(未命名)

— title: about date: 2022-07-30 17:05:33 layout: about —

分类

pytorchpytorch

paperreadingpaperreading

blogblog

huggingfacehuggingface

torch.nntorch-nn

标签

pythonpython

pytorchpytorch

原创原创

paperreadingpaperreading

计算机视觉计算机视觉