江西锐安建设工程有限公司网站,重庆没建网站的企业,wordpress文章标题源码插件,攸县网站定制Pytorch | 从零构建ParNet/Non-Deep Networks对CIFAR10进行分类 CIFAR10数据集ParNet架构特点优势应用 ParNet结构代码详解结构代码代码详解SSEParNetBlock 类DownsamplingBlock 类FusionBlock 类ParNet 类 训练过程和测试结果代码汇总parnet.pytrain.pytest.py 前面文章我们构… Pytorch | 从零构建ParNet/Non-Deep Networks对CIFAR10进行分类 CIFAR10数据集ParNet架构特点优势应用 ParNet结构代码详解结构代码代码详解SSEParNetBlock 类DownsamplingBlock 类FusionBlock 类ParNet 类 训练过程和测试结果代码汇总parnet.pytrain.pytest.py 前面文章我们构建了AlexNet、Vgg、GoogleNet、ResNet、MobileNet、EfficientNet对CIFAR10进行分类 Pytorch | 从零构建AlexNet对CIFAR10进行分类 Pytorch | 从零构建Vgg对CIFAR10进行分类 Pytorch | 从零构建GoogleNet对CIFAR10进行分类 Pytorch | 从零构建ResNet对CIFAR10进行分类 Pytorch | 从零构建MobileNet对CIFAR10进行分类 Pytorch | 从零构建EfficientNet对CIFAR10进行分类 这篇文章我们来构建ParNet(Non-Deep Networks).
CIFAR10数据集
CIFAR-10数据集是由加拿大高级研究所CIFAR收集整理的用于图像识别研究的常用数据集基本信息如下
数据规模该数据集包含60,000张彩色图像分为10个不同的类别每个类别有6,000张图像。通常将其中50,000张作为训练集用于模型的训练10,000张作为测试集用于评估模型的性能。图像尺寸所有图像的尺寸均为32×32像素这相对较小的尺寸使得模型在处理该数据集时能够相对快速地进行训练和推理但也增加了图像分类的难度。类别内容涵盖了飞机plane、汽车car、鸟bird、猫cat、鹿deer、狗dog、青蛙frog、马horse、船ship、卡车truck这10个不同的类别这些类别都是现实世界中常见的物体具有一定的代表性。
下面是一些示例样本
ParNet
ParNet是一种高效的深度学习网络架构由谷歌研究人员于2021年提出以下从其架构特点、优势及应用等方面进行详细介绍
架构特点
并行子结构ParNet的核心在于其并行的子结构设计。它由多个并行的分支组成每个分支都包含一系列的卷积层和池化层等操作。这些分支在网络中同时进行计算就像多条并行的道路同时运输信息一样大大提高了信息处理的效率。多尺度特征融合不同分支在不同的尺度上对输入图像进行处理然后将这些多尺度的特征进行融合。例如一个分支可能专注于提取图像中的局部细节特征而另一个分支则更擅长捕捉图像的全局上下文信息。通过融合这些不同尺度的特征ParNet能够更全面、更准确地理解图像内容。深度可分离卷积在网络的卷积操作中大量使用了深度可分离卷积。这种卷积方式将传统的卷积操作分解为深度卷积和逐点卷积两个步骤大大减少了计算量同时提高了模型的运行速度使其更适合在移动设备等资源受限的环境中应用。
优势
高效性由于其并行结构和深度可分离卷积的使用ParNet在计算效率上具有很大的优势。它可以在保证模型性能的前提下大大减少模型的参数量和计算量从而实现快速的推理和训练。灵活性ParNet的并行子结构和多尺度特征融合方式使其具有很强的灵活性。它可以根据不同的任务和数据集进行调整和优化轻松适应各种图像识别和处理任务。可扩展性该网络架构具有良好的可扩展性可以方便地增加或减少分支的数量和深度以满足不同的性能需求。
应用
图像分类在图像分类任务中ParNet能够快速准确地对图像中的物体进行分类。例如在CIFAR-10和ImageNet等标准图像分类数据集上ParNet取得了与现有先进模型相当的准确率同时具有更快的推理速度。目标检测在目标检测任务中ParNet可以有效地检测出图像中的目标物体并确定其位置和类别。通过对多尺度特征的融合和利用ParNet能够更好地处理不同大小和形状的目标物体提高检测的准确率和召回率。语义分割在语义分割任务中ParNet能够对图像中的每个像素进行分类将图像分割成不同的语义区域。其多尺度特征融合的特点使得它在处理复杂的场景和物体边界时具有更好的效果能够生成更准确的分割结果。
ParNet结构代码详解
结构代码
import torch
import torch.nn as nn
import torch.nn.functional as Fclass SSE(nn.Module):def __init__(self, in_channels):super(SSE, self).__init__()self.global_avgpool nn.AdaptiveAvgPool2d(1)self.fc nn.Linear(in_channels, in_channels)def forward(self, x):out self.global_avgpool(x)out out.view(out.size(0), -1)out self.fc(out)out torch.sigmoid(out)out out.view(out.size(0), out.size(1), 1, 1)return x * outclass ParNetBlock(nn.Module):def __init__(self, in_channels, out_channels):super(ParNetBlock, self).__init__()self.branch1x1 nn.Sequential(nn.Conv2d(in_channels, out_channels, kernel_size1, biasFalse),nn.BatchNorm2d(out_channels),nn.ReLU(inplaceTrue))self.branch3x3 nn.Sequential(nn.Conv2d(in_channels, out_channels, kernel_size3, padding1, biasFalse),nn.BatchNorm2d(out_channels),nn.ReLU(inplaceTrue))self.sse SSE(out_channels)def forward(self, x):branch1x1 self.branch1x1(x)branch3x3 self.branch3x3(x)out branch1x1 branch3x3out self.sse(out)out F.silu(out)return outclass DownsamplingBlock(nn.Module):def __init__(self, in_channels, out_channels):super(DownsamplingBlock, self).__init__()self.conv nn.Conv2d(in_channels, out_channels, kernel_size3, stride2, padding1, biasFalse)self.bn nn.BatchNorm2d(out_channels)self.relu nn.ReLU(inplaceTrue)self.se SSE(out_channels)def forward(self, x):out self.conv(x)out self.bn(out)out self.relu(out)out self.se(out)return outclass FusionBlock(nn.Module):def __init__(self, in_channels, out_channels):super(FusionBlock, self).__init__()self.conv1x1 nn.Conv2d(in_channels, out_channels, kernel_size1, stride2, biasFalse)self.bn nn.BatchNorm2d(out_channels)self.relu nn.ReLU(inplaceTrue)self.se SSE(out_channels)self.concat nn.Conv2d(out_channels * 2, out_channels, kernel_size1, biasFalse)def forward(self, x1, x2):x1, x2 self.conv1x1(x1), self.conv1x1(x2)x1, x2 self.bn(x1), self.bn(x2)x1, x2 self.relu(x1), self.relu(x2)x1, x2 self.se(x1), self.se(x2)out torch.cat([x1, x2], dim1)out self.concat(out)return outclass ParNet(nn.Module):def __init__(self, num_classes):super(ParNet, self).__init__()self.downsampling_blocks nn.ModuleList([DownsamplingBlock(3, 64),DownsamplingBlock(64, 128),DownsamplingBlock(128, 256),])self.streams nn.ModuleList([nn.Sequential(ParNetBlock(64, 64),ParNetBlock(64, 64),ParNetBlock(64, 64),DownsamplingBlock(64, 128)),nn.Sequential(ParNetBlock(128, 128),ParNetBlock(128, 128),ParNetBlock(128, 128),ParNetBlock(128, 128)),nn.Sequential(ParNetBlock(256, 256),ParNetBlock(256, 256),ParNetBlock(256, 256),ParNetBlock(256, 256))])self.fusion_blocks nn.ModuleList([FusionBlock(128, 256),FusionBlock(256, 256)])self.final_downsampling DownsamplingBlock(256, 1024)self.fc nn.Linear(1024, num_classes)def forward(self, x):downsampled_features []for i, downsampling_block in enumerate(self.downsampling_blocks):x downsampling_block(x)downsampled_features.append(x)stream_features []for i, stream in enumerate(self.streams):stream_feature stream(downsampled_features[i])stream_features.append(stream_feature)fused_features stream_features[0]for i in range(1, len(stream_features)):fused_features self.fusion_blocks[i - 1](fused_features, stream_features[i])x self.final_downsampling(fused_features)x F.adaptive_avg_pool2d(x, (1, 1))x x.view(x.size(0), -1)x self.fc(x)return x代码详解
以下是对上述提供的ParNet代码的详细解释这段代码使用PyTorch框架构建了一个名为ParNet的神经网络模型整体结构符合ParNet网络架构的特点下面从不同模块依次进行分析
SSE
class SSE(nn.Module):def __init__(self, in_channels):super(SSE, self).__init__()self.global_avgpool nn.AdaptiveAvgPool2d(1)self.fc nn.Linear(in_channels, in_channels)def forward(self, x):out self.global_avgpool(x)out out.view(out.size(0), -1)out self.fc(out)out torch.sigmoid(out)out out.view(out.size(0), out.size(1), 1, 1)return x * out功能概述 这个类实现了类似Squeeze-and-ExcitationSE模块的功能旨在对输入特征进行通道维度的重加权突出重要的通道特征抑制相对不重要的通道特征。 __init__方法 首先通过nn.AdaptiveAvgPool2d(1)创建了一个自适应平均池化层它可以将输入特征图在空间维度上压缩为大小为(1, 1)的特征图也就是将每个通道的特征进行全局平均池化得到通道维度上的统计信息无论输入特征图的尺寸是多少都可以自适应处理。接着创建了一个全连接层nn.Linear(in_channels, in_channels)其输入和输出维度都是in_channels目的是学习通道维度上的变换权重。 forward方法 先将输入x经过全局平均池化层得到压缩后的特征表示out然后通过view操作将其维度调整为二维形式批次大小通道数方便后续全连接层处理。接着将这个特征送入全连接层进行线性变换再经过sigmoid激活函数将输出值映射到(0, 1)区间得到每个通道对应的权重。最后将权重的维度调整回四维批次大小通道数11并与原始输入x进行逐元素相乘实现对不同通道特征的重加权。
ParNetBlock 类
class ParNetBlock(nn.Module):def __init__(self, in_channels, out_channels):super(ParNetBlock, self).__init__()self.branch1x1 nn.Sequential(nn.Conv2d(in_channels, out_channels, kernel_size1, biasFalse),nn.BatchNorm2d(out_channels),nn.ReLU(inplaceTrue))self.branch3x3 nn.Sequential(nn.Conv2d(in_channels, out_channels, kernel_size3, padding1, biasFalse),nn.BatchNorm2d(out_channels),nn.ReLU(inplaceTrue))self.sse SSE(out_channels)def forward(self, x):branch1x1 self.branch1x1(x)branch3x3 self.branch3x3(x)out branch1x1 branch3x3out self.sse(out)out F.silu(out)return out功能概述 该类定义了ParNet中的一个基础并行块结构包含两个并行分支1x1卷积分支和3x3卷积分支以及一个SSE模块用于提取和融合特征并进行通道重加权和非线性激活。 __init__方法 构建了两个并行分支branch1x1是一个由1x1卷积层、批归一化层和ReLU激活函数组成的序列1x1卷积主要用于调整通道维度同时可以融合不同通道间的信息且计算量相对较小。branch3x3同样是由3x3卷积层带有合适的填充保证特征图尺寸不变、批归一化层和ReLU激活函数组成3x3卷积能够捕捉局部空间特征信息。最后实例化了一个SSE模块用于后续对融合后的特征进行通道维度的重加权。 forward方法 首先将输入x分别送入两个并行分支进行处理得到两个分支的输出branch1x1和branch3x3然后将它们对应元素相加进行特征融合。接着把融合后的特征送入SSE模块进行通道重加权最后使用F.silu也就是swish函数激活函数对结果进行非线性激活并返回处理后的特征。
DownsamplingBlock 类
class DownsamplingBlock(nn.Module):def __init__(self, in_channels, out_channels):super(DownsamplingBlock, self).__init__()self.conv nn.Conv2d(in_channels, out_channels, kernel_size3, stride2, padding1, biasFalse)self.bn nn.BatchNorm2d(out_channels)self.relu nn.ReLU(inplaceTrue)self.se SSE(out_channels)def forward(self, x):out self.conv(x)out self.bn(out)out self.relu(out)out self.se(out)return out功能概述 用于对输入特征图进行下采样操作同时融合了批归一化、非线性激活以及类似SE的通道重加权功能以减少特征图的空间尺寸并提取更抽象的特征。 __init__方法 创建了一个3x3卷积层其步长设置为2配合合适的填充在进行卷积操作时可以实现特征图在空间维度上长宽各减半的下采样效果同时调整通道维度到out_channels。还定义了批归一化层、ReLU激活函数以及一个SSE模块。 forward方法 按照顺序依次将输入x经过卷积层、批归一化层、ReLU激活函数进行处理然后再通过SSE模块进行通道重加权最终返回下采样并处理后的特征图。
FusionBlock 类
class FusionBlock(nn.Module):def __init__(self, in_channels, out_channels):super(FusionBlock, self).__init__()self.conv1x1 nn.Conv2d(in_channels, out_channels, kernel_size1, stride2, biasFalse)self.bn nn.BatchNorm2d(out_channels)self.relu nn.ReLU(inplaceTrue)self.se SSE(out_channels)self.concat nn.Conv2d(out_channels * 2, out_channels, kernel_size1, biasFalse)def forward(self, x1, x2):x1, x2 self.conv1x1(x1), self.conv1x1(x2)x1, x2 self.bn(x1), self.bn(x2)x1, x2 self.relu(x1), self.relu(x2)x1, x2 self.se(x1), self.se(x2)out torch.cat([x1, x2], dim1)out self.concat(out)return out功能概述 该类用于融合不同分支或不同阶段的特征通过一系列操作包括调整通道维度、批归一化、激活以及通道重加权然后将两个特征在通道维度上进行拼接并进一步融合。 __init__方法 首先创建了1x1卷积层步长设置为2用于对输入的两个特征分别进行通道维度调整以及下采样操作特征图空间尺寸减半。接着定义了批归一化层、ReLU激活函数以及SSE模块用于对下采样后的特征进行处理。还创建了一个1x1卷积层concat用于将拼接后的特征进一步融合为指定的通道维度。 forward方法 分别对输入的两个特征x1和x2依次进行1x1卷积、批归一化、ReLU激活以及SSE模块的处理然后将它们在通道维度上进行拼接torch.cat操作维度dim1表示按通道维度拼接最后通过concat卷积层将拼接后的特征融合为指定的通道维度并返回融合后的特征。
ParNet 类
class ParNet(nn.Module):def __init__(self, num_classes):super(ParNet, self).__init__()self.downsampling_blocks nn.ModuleList([DownsamplingBlock(3, 64),DownsamplingBlock(64, 128),DownsamplingBlock(128, 256),])self.streams nn.ModuleList([nn.Sequential(ParNetBlock(64, 64),ParNetBlock(64, 64),ParNetBlock(64, 64),DownsamplingBlock(64, 128)),nn.Sequential(ParNetBlock(128, 128),ParNetBlock(128, 128),ParNetBlock(128, 128),ParNetBlock(128, 128)),nn.Sequential(ParNetBlock(256, 256),ParNetBlock(256, 256),ParNetBlock(256, 256),ParNetBlock(256, 256))])self.fusion_blocks nn.ModuleList([FusionBlock(128, 256),FusionBlock(256, 256)])self.final_downsampling DownsamplingBlock(256, 1024)self.fc nn.Linear(1024, num_classes)def forward(self, x):downsampled_features []for i, downsampling_block in enumerate(self.downsampling_blocks):x downsampling_block(x)downsampled_features.append(x)stream_features []for i, stream in enumerate(self.streams):stream_feature stream(downsampled_features[i])stream_features.append(stream_feature)fused_features stream_features[0]for i in range(1, len(stream_features)):fused_features self.fusion_blocks[i - 1](fused_features, stream_features[i])x self.final_downsampling(fused_features)x F.adaptive_avg_pool2d(x, (1, 1))x x.view(x.size(0), -1)x self.fc(x)return x功能概述 这是整个ParNet网络的定义类整合了前面定义的各个模块构建出完整的网络结构包括下采样、并行分支处理、特征融合以及最后的分类全连接层等部分能够接收输入图像数据并输出对应的分类预测结果。 __init__方法 downsampling_blocks通过nn.ModuleList创建了一个包含三个下采样块的列表用于对输入图像依次进行下采样将图像的空间尺寸逐步缩小同时增加通道数从最初的3通道对应RGB图像逐步变为64、128、256通道。streams同样是nn.ModuleList定义了三个并行的流stream每个流由多个ParNetBlock和一个DownsamplingBlock组成不同流在不同的特征图尺度和通道维度上进行特征提取和处理每个流内部的ParNetBlock用于提取和融合局部特征最后的DownsamplingBlock用于进一步下采样。fusion_blocks也是nn.ModuleList包含两个特征融合块用于融合不同流的特征将各个流提取到的不同层次的特征进行融合以综合利用多尺度信息。final_downsampling定义了一个下采样块用于对融合后的特征再进行一次下采样将通道数提升到1024进一步提取更抽象的全局特征。fc创建了一个全连接层用于将最终提取到的特征映射到指定的类别数量num_classes实现图像分类任务的输出。 forward方法 首先通过循环将输入x依次经过各个下采样块进行下采样并将每次下采样后的特征保存到downsampled_features列表中得到不同阶段下采样后的特征图。接着针对每个流将对应的下采样后的特征图送入流中进行处理每个流内部的模块会进一步提取和融合特征得到每个流输出的特征并保存在stream_features列表中。然后先取第一个流的特征作为初始的融合特征再通过循环依次使用特征融合块将其他流的特征与已有的融合特征进行融合不断更新融合特征。之后将融合后的特征送入最后的下采样块进行进一步下采样处理。再通过自适应平均池化F.adaptive_avg_pool2d将特征图在空间维度上压缩为(1, 1)大小然后使用view操作将其展平为二维向量。最后将展平后的特征送入全连接层进行分类预测返回最终的分类结果。
总体而言这段代码构建了一个符合ParNet架构特点的神经网络模型通过多个模块的组合实现了高效的特征提取、融合以及分类功能可应用于图像分类等相关任务。
训练过程和测试结果
训练过程损失函数变化曲线
训练过程准确率变化曲线
测试结果
代码汇总
项目github地址 项目结构
|--data
|--models|--__init__.py|-parnet.py|--...
|--results
|--weights
|--train.py
|--test.pyparnet.py
import torch
import torch.nn as nn
import torch.nn.functional as Fclass SSE(nn.Module):def __init__(self, in_channels):super(SSE, self).__init__()self.global_avgpool nn.AdaptiveAvgPool2d(1)self.fc nn.Linear(in_channels, in_channels)def forward(self, x):out self.global_avgpool(x)out out.view(out.size(0), -1)out self.fc(out)out torch.sigmoid(out)out out.view(out.size(0), out.size(1), 1, 1)return x * outclass ParNetBlock(nn.Module):def __init__(self, in_channels, out_channels):super(ParNetBlock, self).__init__()self.branch1x1 nn.Sequential(nn.Conv2d(in_channels, out_channels, kernel_size1, biasFalse),nn.BatchNorm2d(out_channels),nn.ReLU(inplaceTrue))self.branch3x3 nn.Sequential(nn.Conv2d(in_channels, out_channels, kernel_size3, padding1, biasFalse),nn.BatchNorm2d(out_channels),nn.ReLU(inplaceTrue))self.sse SSE(out_channels)def forward(self, x):branch1x1 self.branch1x1(x)branch3x3 self.branch3x3(x)out branch1x1 branch3x3out self.sse(out)out F.silu(out)return outclass DownsamplingBlock(nn.Module):def __init__(self, in_channels, out_channels):super(DownsamplingBlock, self).__init__()self.conv nn.Conv2d(in_channels, out_channels, kernel_size3, stride2, padding1, biasFalse)self.bn nn.BatchNorm2d(out_channels)self.relu nn.ReLU(inplaceTrue)self.se SSE(out_channels)def forward(self, x):out self.conv(x)out self.bn(out)out self.relu(out)out self.se(out)return outclass FusionBlock(nn.Module):def __init__(self, in_channels, out_channels):super(FusionBlock, self).__init__()self.conv1x1 nn.Conv2d(in_channels, out_channels, kernel_size1, stride2, biasFalse)self.bn nn.BatchNorm2d(out_channels)self.relu nn.ReLU(inplaceTrue)self.se SSE(out_channels)self.concat nn.Conv2d(out_channels * 2, out_channels, kernel_size1, biasFalse)def forward(self, x1, x2):x1, x2 self.conv1x1(x1), self.conv1x1(x2)x1, x2 self.bn(x1), self.bn(x2)x1, x2 self.relu(x1), self.relu(x2)x1, x2 self.se(x1), self.se(x2)out torch.cat([x1, x2], dim1)out self.concat(out)return outclass ParNet(nn.Module):def __init__(self, num_classes):super(ParNet, self).__init__()self.downsampling_blocks nn.ModuleList([DownsamplingBlock(3, 64),DownsamplingBlock(64, 128),DownsamplingBlock(128, 256),])self.streams nn.ModuleList([nn.Sequential(ParNetBlock(64, 64),ParNetBlock(64, 64),ParNetBlock(64, 64),DownsamplingBlock(64, 128)),nn.Sequential(ParNetBlock(128, 128),ParNetBlock(128, 128),ParNetBlock(128, 128),ParNetBlock(128, 128)),nn.Sequential(ParNetBlock(256, 256),ParNetBlock(256, 256),ParNetBlock(256, 256),ParNetBlock(256, 256))])self.fusion_blocks nn.ModuleList([FusionBlock(128, 256),FusionBlock(256, 256)])self.final_downsampling DownsamplingBlock(256, 1024)self.fc nn.Linear(1024, num_classes)def forward(self, x):downsampled_features []for i, downsampling_block in enumerate(self.downsampling_blocks):x downsampling_block(x)downsampled_features.append(x)stream_features []for i, stream in enumerate(self.streams):stream_feature stream(downsampled_features[i])stream_features.append(stream_feature)fused_features stream_features[0]for i in range(1, len(stream_features)):fused_features self.fusion_blocks[i - 1](fused_features, stream_features[i])x self.final_downsampling(fused_features)x F.adaptive_avg_pool2d(x, (1, 1))x x.view(x.size(0), -1)x self.fc(x)return xtrain.py test.py