MNIST数据集一般有两种使用方法,其中一种在torchvision中已经包装好了,这里讲解手动加载MNIST数据集的方法
下载
首先在官网下载MNIST数据集,地址,一共有四个压缩包,下载后解压即可
读取数据
复制下面代码到readdata.py中,然后给定数据集路径读取即可
1 | import os |
MNIST数据集一般有两种使用方法,其中一种在torchvision中已经包装好了,这里讲解手动加载MNIST数据集的方法
首先在官网下载MNIST数据集,地址,一共有四个压缩包,下载后解压即可
复制下面代码到readdata.py中,然后给定数据集路径读取即可
1 | import os |
1. 输出参数名字的一些操作 输出需要梯度的参数的名字 123for n,p in self.lm_head.named_parameters(): if p.requires_grad == True: print(n)
1. LLaMA源码解读 这里以Huggingface中的LLaMA源码为例,LLaMA是一个因果模型,不论是做下游任务(例如分类等)还是生成任务,我们都要使用其中的LlamaModel模型作为base模型,此模型的就是初始化词向量以及Transformer模块,下面我们从LlamaModel源码开
1. LoRA论文解读 这里先不解读了,直接看Microsoft的代码 2. LoRA代码解析 lora代码最初由微软GitHub提供,我对代码进行了精简,可以在这里下载lora,此代码主要为了学习使用,方便理解lora的整个流程。 这里以NLG任务中的e2e数据集为例 2.1 对数据的预处理 如下
1. pytorch获取网络结构 在写深度学习程序时,我们通常要将网络打印出来查看网络结构,一个最简单的方法就是直接print(model)来打印模型结构,这里我们以下面程序为例 1234567891011121314151617181920212223242526272829import torc
c Qwen-VL: A Versatile Vision-Language Model for Understanding, Localization, Text Reading, and Beyond. Alibaba Group 1.1 论文动机 本文是在Qwen-LM的基础上进行改的,本文的
— title: about date: 2022-07-30 17:05:33 layout: about —