上海大学学报(自然科学版)

基于联合对抗训练的鲁棒度量迁移

杨乾成, 罗勇, 胡晗, 周昕, 杜博, 陶大程

2023, 29(1): 1-9. doi:10.12066/j.issn.1007-2861.2460

摘要 ( 1379 )

HTML ( 302)

PDF (3162KB) ( 331 )

数据和表 | 参考文献 | 相关文章 | 多维度评价

迁移度量学习旨在从强大且可靠的距离度量中迁移知识来改善目标度量的效果, 这些度量往往来自于学习目标相关的任务. 现有的迁移度量学习算法仅关注于如何迁移知识, 而这些知识容易过拟合到源域中. 首先研究如何在源域中训练一个适合于迁移的源域度量, 然后设计了一种通用的深度异质迁移算法来进行高效的迁移学习. 值得注意的是, 将源域度量以联合对抗学习的方式进行训练, 再以深度神经网络的方式将其参数化表示并对其进行迁移. 迁移中通过表征模仿的方式来学习源域度量中的知识, 这种方式允许源域和目标域中的知识来自于异质域. 此外, 严格限制目标度量网络的大小, 使得目标网络更够进行高效的推理计算. 在人脸识别数据集上的实验展现了本方法的有效性.

抗深度取证的多粒度融合图像修复网络

窦立云, 冯国瑞, 钱振兴, 张新鹏

2023, 29(1): 10-23. doi:10.12066/j.issn.1007-2861.2456

摘要 ( 1617 )

HTML ( 247)

PDF (11465KB) ( 242 )

数据和表 | 参考文献 | 相关文章 | 多维度评价

数字图像的真伪判别是图像安全领域中的基础问题, 因数字媒体极易被攻击篡改, 针对图像的取证技术得到了广泛的研究. 另一方面, 对图像篡改反取证技术的研究, 不仅追求更逼真的图像篡改操作, 也从相反的方向促进了取证技术的发展. 图像修复作为基础的图像篡改操作, 一直是国内外学者的研究热点. 针对被修复篡改后的图像会被深度取证网络取证的问题, 提出了一种抗深度取证的多粒度融合图像修复(multi-granularity fusion-based image inpainting network resistant to deep forensics, MGFR) 网络. MGFR 网络包括编解码器、多粒度生成模块以及多粒度注意力模块. 首先, 输入的破损图像被编码器编码成深度特征, 深度特征通过多粒度生成模块生成3 个不同粒度中间特征; 然后, 采用多粒度注意力模块来计算不同粒度中间特征之间的相关性并将其融合; 最后, 融合特征通过解码器生成输出结果. 另外, 所提出的MGFR 网络被重建损失、模式噪声损失、深度取证损失以及对抗损失联合监督. 研究结果显示, 所提出的MGFR 网络在拥有较好的修复性能的同时能成功规避深度取证网络的取证.

基于增量方法的卷积语音情感识别网络

朱永华, 冯天宇, 张美贤, 张文俊

2023, 29(1): 24-40. doi:10.12066/j.issn.1007-2861.2332

摘要 ( 1649 )

HTML ( 236)

PDF (503KB) ( 313 )

数据和表 | 参考文献 | 相关文章 | 多维度评价

提出了一种新颖的语音情感识别结构, 从声音文件中提取梅尔频率倒谱系数(Mel-scale frequency cepstral coefficients, MFCCs)、线性预测倒谱系数(linear predictive cepstral coefficients, LPCCs)、色度图、梅尔尺度频谱图、Tonnetz 表示和频谱对比度特征, 并将其作为一维卷积神经网络(convolutional neural network, CNN) 的输入. 构建由一维卷积层、Dropout 层、批标准化层、权重池化层、全连接层和激活层组成的网络, 并使用Ryerson 情感说话/歌唱视听(Ryerson audio-visual database of emotional speech and song, RAVDESS) 数据集、柏林语音数据集(Berlin emotional database, EMO-DB)、交互式情绪二元运动捕捉 (interactive emotional dyadic motion capture, IEMOCAP) 数据集这3 个数据集的样本来识别情感. 为提高分类精度, 利用增量方法修改初始模型. 为解决网络自动处理情感信息在话语中分布不均匀的问题, 采用了一种基于注意力机制的加权池方法来生成更有效的话语级表征. 实验结果显示: 该模型在RAVDESS 和IEMOCAP 数据集上的性能都优于已有的方法; 对于EMO-DB, 该模型仅次于一种基线方法, 但其在通用性、简单性和适用性方面都具有优势.

MR中融合语义特征传播模型的前景对象感知定位算法

方哲, 张金艺, 姜玉稀

2023, 29(1): 41-55. doi:10.12066/j.issn.1007-2861.2413

摘要 ( 1377 )

HTML ( 8)

PDF (3293KB) ( 461 )

数据和表 | 参考文献 | 相关文章 | 多维度评价

移动主体获得准确的定位信息是构建稳定的混合现实(mixed reality, MR) 系统的关键, 然而MR 中的前景对象对传统定位算法的精度影响较大. 现阶段基于深度学习的定位算法可以通过识别前景对象来提升精度, 但深度学习模型耗时过高, 导致算法实时性下降. 针对该问题, 提出了一种MR 中融合语义特征传播模型的前景对象感知定位算法. 该算法依托语义分割网络与一种快速旋转的二进制独立稳定描述子特征(oriented fast and rotated binary robust independent elementary feature, ORB) 提取算法构建了语义特征传播模型, 实现高速语义特征提取; 融合该模型和几何特征检测方法实现算法中的前景对象感知层, 并依赖该感知层剔除MR 中前景对象的特征点, 构建了背景特征点集, 实现高精度、高实时性的定位. 实验结果表明: 在慕尼黑工业大学(Technical University of Munich, TUM) 公共数据集的高动态前景对象场景中, 相比动态语义视觉同步定位与建图(dynamic semantic visual simultaneous localization and mapping, DS-SLAM) 算法, 该算法相对位姿误差降低了60.5%, 定位实时性提升了39.5%, 可见该算法在MR 中具有较高的应用价值.

基于注意力和反馈机制的 HDR 视频重建

杨英杰, 王永芳, 张涵

2023, 29(1): 56-67. doi:10.12066/j.issn.1007-2861.2307

摘要 ( 2039 )

HTML ( 9)

PDF (13684KB) ( 206 )

数据和表 | 参考文献 | 相关文章 | 多维度评价

对基于深度学习的高动态范围(high dynamic range, HDR) 重建进行研究, 提出一种基于注意力和反馈机制的HDR 重建方法. 首先, 将时间上连续、循环曝光的3 张图像作为网络的输入, 通过引入注意力模块生成注意力图像, 对获取的特征进行自适应的加权, 以优化网络的特征提取和减少鬼影现象的出现; 然后, 将反馈机制引入到网络中, 进一步提高特征信息的利用率, 优化网络在特征融合和重建方面的性能; 最后, 在L1 损失函数的基础上, 考虑色彩相似度损失函数和VGG (Visual Geometry Group) 损失函数以增强重建后HDR 图像的色彩表现及高频细节. 实验结果表明, 本方法不仅可获得更好的主观和客观重建质量, 而且优于目前存在的主流算法.

基于损失加权的实时篮球裁判手势识别系统

李忠雨, 孙浩东, 李娇

2023, 29(1): 68-81. doi:10.12066/j.issn.1007-2861.2422

摘要 ( 1448 )

HTML ( 19)

PDF (7771KB) ( 1119 )

数据和表 | 参考文献 | 相关文章 | 多维度评价

为了方便观众更好地在观看比赛直播和录像时理解裁判手势的含义, 或帮助录像分析师分析比赛视频, 设计了一种实时篮球裁判手势检测与识别系统Yolov5-BR(Yolov5-Basketball Referee). 首先, 采用目标检测中的Yolov5 算法为基础模型, 对其边界框的交并比(intersection over union, IoU) 损失函数完全交并比(complete intersection over union, CIoU) 进行加权处理, 增强预测框的鲁棒性; 其次, 在C3 模块后加入注意力机制, 产生更具分辨性的特征表示, 从而提升网络识别性能; 此外, 在检测层头部融入自适应特征融合机制, 充分利用图像高层语义信息; 最后, 对目标置信度损失函数进行不对等加权处理, 从而提高对小目标检测的鲁棒性. 在自制的裁判手势数据集上, Yolov5-BR 取得了95.4% 的mAP 值, 本地视频检测速率为55.5 帧/s, 外接摄像头分辨率为$1 280\times 960$, 检测速率为25 帧/s. 实验结果表明, Yolov5-BR 相对于原始模型在检测裁判手势的性能上有所提升, 保持了较高的准确率、稳定性与实时性.

基于3次握手改进机制和SVM的无人机网络协作邻居发现协议

王涛, 陈银豪, 李平, 吴雅婷, 孙彦赞, 王瑞

2023, 29(1): 82-94. doi:10.12066/j.issn.1007-2861.2347

摘要 ( 1365 )

HTML ( 6)

PDF (1363KB) ( 306 )

数据和表 | 参考文献 | 相关文章 | 多维度评价

无人机在军事和民用领域都得到了广泛的应用, 无人机的组网也成为研究热点之一. 邻居发现作为组网完成的前提步骤, 发挥着至关重要的作用. 首先提出了基于3次握手改进机制的非协作邻居发现 (3-handshake non-cooperation neighbor discovery, 3-NCND) 协议; 然后融入支持向量机 (support vector machine, SVM) 算法, 提出了基于3次握手改进机制和SVM的协作邻居发现(3-handshake and SVM cooperative neighbor discovery, 3-SVMCND) 协议, SVM作为分类器加入到邻居协议中, 智能地将自身邻居节点信息发送给目标节点, 减少了邻居节点推荐的数量, 提高了邻居发现的速度. 通过仿真实验比较了邻居发现时隙数、邻居发现率和能量消耗这3个性能指标. 研究结果表明, 相较于3-NCND协议, SVM-CND协议具有更快的发现速度和更高的邻居发现率.

一种新型高效能量收集三频整流天线

刘久春, 杨雪霞

2023, 29(1): 95-104. doi:10.12066/j.issn.1007-2861.2356

摘要 ( 1508 )

HTML ( 9)

PDF (23120KB) ( 344 )

数据和表 | 参考文献 | 相关文章 | 多维度评价

提出了一种应用于能量收集的新型三频微带整流天线, 该接收天线为一种新型高增益三频贴片天线. 首先, 在贴片两侧刻蚀U字形槽, 延长表面电流路径, 使天线谐振频点向低频偏移, 从而使天线小型化; 其次, 在矩形贴片刻蚀H型槽和倒U型槽, 改变天线上的电流分布来产生2个新的谐振点; 最后, 合理调节H型槽和倒U型槽的长度, 灵活改变天线的谐振频率. 整流电路由阻抗匹配网络、整流二极管、直通滤波器和负载组成. $\Pi $型和T型二级阻抗匹配网络, 用于接收天线和整流二极管输入阻抗的匹配; 四分之一波长微带线和滤波电容组成的直通滤波器, 用于抑制二极管非线性产生的高次谐波, 以避免能量的损失. 将接收天线和整流电路集成为整流天线, 实验结果表明, 在接收功率为3 dBm左右时, 整流天线在3个频点2.06、3.43和5.25 GHz处的最大整流效率为54.1%、 43.9%和39.9%, 可用于物联网中的低功耗电子设备供电.

具有优先级的深度确定性策略梯度算法在自动驾驶中的应用

金彦亮, 刘千红, 季泽宇

2023, 29(1): 105-117. doi:10.12066/j.issn.1007-2861.2365

摘要 ( 1598 )

HTML ( 10)

PDF (27332KB) ( 181 )

数据和表 | 参考文献 | 相关文章 | 多维度评价

深度确定性策略梯度(deep deterministic policy gradient, DDPG)算法在自动驾驶领域中应用广泛, 但DDPG算法因采用均匀采样而导致低效率策略比例较高、训练效率低、收敛速度慢等. 提出了基于优先级的深度确定性策略梯度(priority-based DDPD, P-DDPG)算法, 通过优先级采样代替均匀采样来提升采样利用率、改善探索策略和提高神经网络训练效率, 并且提出新的奖励函数作为评价标准. 最后, 在开源赛车模拟(The Open Racing Car Simulator, TORCS) 平台上对P-DDPG算法的性能进行了测试, 结果表明相对于DDPG算法, P-DDPG算法的累积奖励在25回合之后就有明显提升而DDPG在100回合之后训练效果才逐渐显现, 提升约4倍. P-DDPG 算法不仅训练效率提升且收敛速度加快.

基于BERT 的金融文本情感分析模型

朱鹤, 陆小锋, 薛雷

2023, 29(1): 118-128. doi:10.12066/j.issn.1007-2861.2308

摘要 ( 2899 )

HTML ( 97)

PDF (365KB) ( 3990 )

数据和表 | 参考文献 | 相关文章 | 多维度评价

在金融领域, 越来越多的投资者选择在互联网平台上发表自己的见解. 这些评论文本作为舆情的载体, 可以充分反映投资者情绪, 影响投资决策和市场走势. 情感分析作为自然语言处理(natural language processing, NLP) 中重要的分支, 为分析海量的金融文本情感类型提供了有效的研究手段. 由于特定领域文本的专业性和大标签数据集的不适用性, 金融文本的情感分析是对传统情感分析模型的巨大挑战, 传统模型在准确率与召回率上表现较差. 为了克服这些挑战, 针对金融文本的情感分析任务, 从词表示模型出发, 提出了基于金融领域的全词覆盖与特征增强的BERT(bidirectional encoder representations from Transformers) 预处理模型.

基于改进蚁群算法的个性化学习路径推荐

夏瑞玲, 李国平, 王国中, 滕国伟

2023, 29(1): 129-139. doi:10.12066/j.issn.1007-2861.2342

摘要 ( 2003 )

HTML ( 25)

PDF (619KB) ( 1019 )

数据和表 | 参考文献 | 相关文章 | 多维度评价

目前已有的学习路径推荐领域多为学习资源推荐, 而课程知识图谱应用率较低, 与蚁群算法的结合普遍缺乏对学习者知识水平的精确建模. 因此, 提出将知识图谱技术、深度知识追踪模型以及蚁群算法三者相结合, 同时分类蚁群改进传统的蚁群算法: 首先, 抽象出课程知识点图谱作为路径基础, 将深度知识追踪应用于不同水平学习者的分类, 并与知识点难度权重相结合; 然后, 采用蚁群算法进行相应的路径规划, 将蚁群按照不同的学习者类别进行划分, 在保障相对最短学习路径的同时考虑不同学习群体客观知识水平情况, 从而得到个性化的高效率学习路径推荐; 最后, 在ASSISTment 数据集上验证了本方法的有效性.

压缩模量融合 CPT 数据的贝叶斯空间插值方法

董济涵, 王长虹

2023, 29(1): 140-154. doi:10.12066/j.issn.1007-2861.2272

摘要 ( 8473 )

HTML ( 11)

PDF (910KB) ( 1253 )

数据和表 | 参考文献 | 相关文章 | 多维度评价

大规模现代化展览场馆对基础不均匀沉降较为敏感, 持力层压缩模量的空间分布特征对于控制地基变形至关重要. 常规工程勘察钻孔仅提供少量精确的压缩模量土工试验值, 但原位测试可提供大量随机的静力触探值, 为了融合室内试验和原位测试的数据, 提出压缩模量的贝叶斯空间插值方法. 核心研究内容包括: 根据岩土工程勘察的数据精度, 将测试数据分为硬数据和软数据; 使用空间随机函数描述压缩模量的空间变异性; 利用最大熵理论分析软数据的不确定性, 基于贝叶斯理论, 建立随机场插值方法, 对未知点压缩模量的后验分布进行估计. 为了验证该方法的有效性, 将贝叶斯空间插值方法应用于上海国家会展中心浅部持力层 (粉质黏土层) 的压缩模量空间变异性分析. 与普通克里金插值方法比较, 贝叶斯方法能融合多源勘察数据进行空间插值, 精度更高.

换热直管内外流诱导振动频率漂移特性

张新, 李孝伟, 毛方赛, 李春欣

2023, 29(1): 155-165. doi:10.12066/j.issn.1007-2861.2322

摘要 ( 1478 )

HTML ( 6)

PDF (468KB) ( 283 )

数据和表 | 参考文献 | 相关文章 | 多维度评价

采用二维圆柱绕流模型, 得到换热直管在较大范围雷诺数的横掠外流场作用下的升力和阻力函数, 将其作为激励, 同时考虑管道在非定常流动中的附加质量, 建立了一种改进的内外流固耦合计算模型. 计算结果表明: 横掠外流带来的附加质量会导致管道固有频率的漂移, 雷诺数也会影响外部激励的频率. 由于内流雷诺数也会影响管道的固有频率, 因此在特定的内外流共同作用下管道可能发生共振. 本模型可以预测发生共振时内外流雷诺数的范围, 为合理设置内外流的安全运行工况提供理论依据.

四川乐山大佛地衣与苔藓群落中的微生物多样性

陈学萍, 白法妍, 余娟, 陆永生, 宋绍雷, 董海燕, 彭学艺, 黄继忠

2023, 29(1): 166-174. doi:10.12066/j.issn.1007-2861.2295

摘要 ( 1955 )

HTML ( 19)

PDF (3565KB) ( 1169 )

数据和表 | 参考文献 | 相关文章 | 多维度评价

为了探究生物侵蚀微生物的种类, 通过高通量测序手段对乐山大佛地衣(lichen, LI)和苔藓样本进行了微生物(细菌、古菌和真菌)多样性分析. 结果发现: 地衣、活苔藓(living moss, LM)和苔藓残体(dead moss residue, DM)样本中的细菌和真菌组成在组内样本之间能进行聚类, 组间差异也能良好区分; 在细菌群落中, 地衣与活苔藓样本中的细菌组成较为相似, 两个样本的优势细菌均为蓝细菌(Cyanobacteria)和醋酸菌(Acetobacteraceae); 在真菌群落中, 地衣样本的优势真菌是煤炱目(Capnodiales), 但其在活苔藓样本中含量较少, 活苔藓样本的优势真菌是子囊菌门(Ascomycota), 且其在地衣和苔藓残体样本中也有一定含量(7.47%$\sim $52.6%); 古菌群落的组内差异较大, 其中与氮转化相关的泉古菌(soil Crenarchaeotic group, SCG)总体丰度占比较高, 并发现了较多未归类古菌(unclassified-k-norank).

闵可夫斯基空间$ R^{{\bf 1\textbf{+}}\textbf{(}{\bf 1}\textbf{+}\ n\textbf{)}}$中的Faddeev模型

刘思杰, 刘见礼, 盛万成

2023, 29(1): 175-184. doi:10.12066/j.issn.1007-2861.2298

摘要 ( 1932 )

HTML ( 16)

PDF (297KB) ( 463 )

参考文献 | 相关文章 | 多维度评价

Faddeev模型是经典场论中用结状拓扑孤子来模拟重基本粒子的重要模型, 是粒子物理中经典非线性Sigma模型的推广, 与著名的Skyrme模型也有密切的关系. 给出了闵可夫斯基空间$R^{1+(1+n)}$中Faddeev模型的方程推导, 证明了方程具有一些重要的性质, 并给出了一些精确解.

当期目录