网刊加载中。。。

近年来，随着人工智能技术的快速发展，人机交互逐渐成为了当前科研人员研究的热点。情感分析作为人机交互的重要组成部分，也呈现出了模态多元化的趋势[1]，比如使用语音、文本、表情，甚至脑电等生理信号来进行情感分析。因此，如何处理和融合这些异构信息，实现对其准确的分析与判断，成为了当前需要解决的重点问题。在情感识别领域中，传统的机器学习方法如朴素贝叶斯(naive Bayes，NB)、支持向量机(support vector machine，SVM)等[2-3]被广泛应用。但随着深度学习技术的发展，以卷积神经网络(convolutional neural network，CNN)、循环神经网络(recurrent neural network，RNN)、深度卷积神经网络(deep convolutional neural network, DCNN)[4-6]为代表的数据驱动方法逐渐成为情感分析的主流。目前，研究人员已经在单模态情感识别领域取得了一定进展。在文本情感识别方面，Xu等人提出一种基于CNN的微博情绪分类模型CNN－Text－Word2vec，使模型的整体准确率比主流方法提高了7.0%[7]；在图像情感识别方面，郑剑等人提出了一种基于DCNN的FLF-TAWL网络，该网络能够自适应捕捉人脸重要区域，提高人脸识别的有效性[8]；在语音情感识别方面，部分研究将声学特征和RNN进行结合，如Dutta等人提出一种语音识别模型，利用RNN提取线性预测编码(linear predictive coding，LPC)和Mel频率倒谱系数(Mel-frequency cepstral coefficients，MFCC)特征，并在识别阿萨姆语上取得了一定效果[9]。近期的研究表明，多模态情感模型能够将来自不同感知模态的信息有效融合。由于充分利用了数据的多样性，多模态模型表现出比单模态模型更大的优势。针对多模态情感识别，国内外学者已经开展了深入的研究工作。如HOU等人提出一种早期融合模型EF-LSTM，通过拼接语音、文本和表情3种模态的特征并利用LSTM进行编码，有效提取了模态间的交互信息[10]。Zadeh等人设计一种张量融合网络(TFN)，通过采用多维张量的外积操作，较好地捕获了不同模态间的交互信息[11]。Liu等人设计一种低秩多模态融合算法(LMF)，在TFN的基础上进行低秩多模态张量融合，使网络效果得到一定的提升[12]。Zadeh等人提出一种记忆融合网络(MFN)，通过利用注意力机制和多视图门控网络，同步捕捉了时序序列和模态间的交互信息[13]。Tsai等人提出一种跨模态网络Transformer(MulT)，通过扩展多式Transformer结构，成功解决了不同模态数据的长期依赖性问题，进一步提高了模型性能[14]。Yu等人提出一种自监督多任务学习网络Self-MM，通过设计基于自监督学习策略的标签生成模块，并引入权重自调整策略，较好地实现了对情感的预测分类[15]。虽然研究者不断探索新的情感识别模型以提升多模态情感识别的准确率，但仍存在一些不足。在情感特征提取方面，上述多模态情感模型主要通过预训练模型实现对情感特征提取。但预训练模型往往需要进行微调或迁移学习来达到适应特定任务的目的，可能会导致在小样本数据集或特定应用中出现泛化性能力不足的问题。在特征融合方面，上述多模态模型虽然采用了一些改进型的融合方法，但在融合过程中没有很好地考虑模态特征间的相关性及模态的选择性问题，导致最终的识别准确率偏低。针对上述问题，本文在现有研究的基础上提出了一种基于语音、文本和表情的多模态情感识别算法。该算法利用Sfen网络和Pconv模块充分提取语音和文本情感特征；采用改进的Inception-ResnetV2网络[16]提取表情情感特征；通过交叉注意力融合(cross attention fusion，CAF)模块强化语音和文本特征的相关性；最后，利用BiLSTM-Attention模块获取关键信息，保持信息在时间上的连续性。1多模态情感识别模型构建多模态情感识别模型通常包括以下几个方面：多模态信息预处理、情感特征提取、情感识别模型的设计与选择、特征融合方案[17]。如何确定有效的模态组合方案，并实现有效的特征融合是本文需要研究的重点问题。本文利用语音(A)、文本(T)与表情(V)3种模态构建多模态情感识别模型，该模型主要是由Sfen网络、Pconv模块、BiLSTM-Attention模块和交叉注意力融合(CAF)模块组成，整体框架如图1所示。10.16152/j.cnki.xdxbzr.2024-02-004.F001图1三模态情感模型框架图Fig. 1Framework diagram of the trimodal emotion model在图1所示的模型框架中，首先利用Sfen网络和Pconv模块提取语音和文本的情感特征，并通过CAF模块实现2个模态间的信息互补，优化模态间的信息融合。对于基于视频的表情信息，该情感识别方法以图片识别分类常用的Inception-ResnetV2模型为基础进行改进，以提高在多种环境背景下的鲁棒性。在融合策略上，本文将语音－文本特征与表情特征进行特征级[18]融合，并通过BiLSTM-Attention模块后，利用Softmax实现对情感的识别分类。1.1数据预处理目前语音信号预处理的方法主要有傅里叶变换、神经网络、动态时间规划和梅尔频率倒谱系数(MFCC)[19]等，其中，梅尔频率倒谱系数提取到的特征参数更接近人耳感知的特点。本文利用MFCC对视频中的原始语音信号进行预处理，通过对提取到的语音数据进行预加重、分帧和加窗等操作，将原始语音信号转换为语音特征参数。针对原始文本数据，首先，采用文本分类中常用的jieba分词工具[20]对文本中的分词进行分类；然后，利用停止词数据库去除文本信息中的停止词，避免无用信息的干扰；最后，通过word2vec[7]模型将文本转换成词向量形式，构建词向量字典。针对研究中使用的文本数据量，使用了word2vec中的CBOW[21]作为本文的神经网络语言模型。数据集中原始视频片段的背景、光线和环境等因素[22]可能会导致从视频中提取到的连续帧无法被准确地识别为人脸。因此，本文首先将每个视频片段逐帧处理成连续的图片，利用MTCNN[23]模型和OpenCV库中的CascadeClassifier[24]人脸级联检测器实现对人脸的检测，提高对人脸的检测精度；然后，将检测到的人脸图像裁剪成149×149的统一尺寸大小；最后，经过归一化、灰度化后，输出处理后的图片序列。1.2语音文本特征提取在情感识别的过程中，浅层特征提取主要从输入的文本、语音或图像中提取有关情感的表层信息，是数据预处理后的一项关键步骤。针对语音和文本模态，本文设计了一种Sfen网络实现对2种模态浅层特征的提取，Sfen网络结构如图2所示。10.16152/j.cnki.xdxbzr.2024-02-004.F002图2Sfen网络结构图Fig. 2Sfen network structure diagram对于音频输入，语音特征参数经过Sfen1网络中一维卷积层和池化层的处理后得到语音浅层特征(卷积核大小为3×3)。类似地，对于文本输入，词向量字典通过Sfen2网络中的Embedding和BiLSTM层后得到文本浅层特征。其中，Embedding层增强了文本特征之间的相关性，在Embedding层之后引入BiLSTM能够捕获更丰富的上下文信息，同时保持文本间的序列关系。语音特征参数和词向量字典经过各自的Sfen网络处理后，其输出特征维度保持相同，确保了后续语音和文本特征融合的可行性。为获取深层次的情感特征，本文利用残差网络[25](residual network，ResNet)的思想将最大池化层与卷积层进行拼接，针对语音和文本2个模态设计了一种Pconv模块，其结构如图3所示。10.16152/j.cnki.xdxbzr.2024-02-004.F003图3Pconv模块结构Fig. 3Pconv module structure在图3中，Pconv模块由最大池化层、Bconv单元和Sconv单元3部分组成。其中，Bconv单元由3层组成：传统卷积层、LeakyReLU激活函数、批标准化(Batch Normalization)。Sconv单元与Bconv单元类似，但在输入环节使用了卷积核大小为3×3的深度可分离卷积层[26](Depth Separable Convolution)，进一步减少运算参数的数量，提高运算效率。在次级输出环节，本文将最大池化层的输出和Bconv单元的输出进行拼接，其输出再与Sconv单元的输出特征进行叠加。上述设计中的拼接环节可以增加最终输出特征的多样性，而叠加环节又可以在输出前对每个维度的特征进行增强和补充。该Pconv模块采用的残差连接的方法，避免了神经网络中的信息冗余和梯度爆炸[27]问题，使得网络能够更有效地学习到数据的特征表示，保证了特征提取的充分性。1.3表情特征提取目前处理视频序列中面部表情信息的方法主要是3D卷积和2D卷积，其中，3D卷积能够在时间维度上捕捉连续视频帧之间的动态信息，2D卷积能够在每个视频帧中提取空间特征。本文将3D卷积与2D卷积相结合，先利用2D卷积提取图像帧的空间特征，再使用3D卷积捕捉时间维度的特征，不仅可以形成更深层次的特征表示，还能够有效地提高面部表情的识别效率。Inception-ResnetV2神经网络模型具有良好的特征提取能力和泛化性能，常用于图像分类、目标检测等任务。本研究采用的表情情感识别模型是在Inception-ResnetV2模型的基础上进行的改进，利用3D卷积与2D卷积相结合的多尺度卷积核[28]处理表情数据信息。改进后的模型结构如图4所示。在传统的Inception-ResnetV2模型的基础上，将其前半部分的特征提取层由2D转换为3D，利用三维卷积核滑动提取相应特征。由于时间维度较小，当时间维度卷积为1时，再次通过压缩方式(squeeze)将3D卷积转换为2D卷积，减少训练参数的产生，降低运算难度。10.16152/j.cnki.xdxbzr.2024-02-004.F004图4表情特征提取网络结构图Fig. 4Expression feature extraction network structure diagram1.4交叉注意力融合模块模态特征的融合需要考虑不同模态间的耦合关系。目前的研究表明T(文本)和A(语言)2种模态之间存在紧密的时序与特征耦合关系[29]。本文改变了传统的特征融合方式，设计了一种基于交叉注意力的融合模块，在保留模态内特征的同时，有效地编码T和A模态间的信息。该融合模块结构如图5所示。10.16152/j.cnki.xdxbzr.2024-02-004.F005图5交叉注意力模块结构示意图Fig. 5Schematic diagram of the cross attention module structure在图5所示的交叉注意力融合模块中，Xt和Xa分别代表数据集中的视频序列X经过Pconv模块后提取出的T和A的深层特征。为使模态间的异质性最小化，设置了一个可学习的权重矩阵W∈Rk×k，相互计算的关系如式(1)所示，(1)式中：Y∈Rl×l；W代表文本和语音的相互关系权重；k代表文本和语音的特征维度。相关矩阵Y给出了T和A特征之间的相关性度量，较高的相关系数说明子序列对应的T和A特征之间具有较强的相关性。基于以上思路，分别利用YT和Y的softmax函数进一步计算T和A特征的交叉注意力权重Zt和Za。计算如式(2)和(3)所示。(2)(3)式中：i和j表示矩阵Y的第i行和第j列元素；Ts表示softmax系数。在上述计算中，权重矩阵W是基于T和A特征的相互关系学习的，即一种模式的注意力权重是由另一种模式确定的，从而有效地利用了T和A这2个模态的互补特性。在得到交叉注意力权重后，利用交叉注意力权重计算获得T和A的特征注意力图和，如式(4)和(5)所示。(4)(5)式中：Zt和Za分别代表T和A特征的交叉注意力权重。通过将重加权的注意力图添加到相应的特征上，可获得2种模态的深层特征表征Xatt，t与Xatt，a，如式(6)和(7)所示。(6)(7)将Xatt，t和Xatt，a拼接起来，得到T和A的特征表示，即。经过交叉注意力模块融合后的特征将再次输入到下一级Pconv模块中，通过其并行结构充分提取融合后的信息。1.5BiLSTM-Attention模块长短时记忆网络[30](long short term memory，LSTM)利用3个不同门结构，有效解决了序列数据的依赖性和语序问题，其结构如图6所示。10.16152/j.cnki.xdxbzr.2024-02-004.F006图6LSTM“门”结构Fig. 6LSTM “gate” structure在t时刻，将当前隐层状态记为ht，各门状态更新如下：(8)(9)(10)(11)(12)式中：xt表示当前输入单元状态；ft、Ct、it、ot分别表示当前遗忘门、存储单元、输入门、输出门；b*表示偏置项；W*表示权重矩阵；σ是激活函数。LSTM只能获取输出时刻前的信息，不能利用反向信息，本文利用了2个单向LSTM构成双向长短时记忆网络(BiLSTM)，同时处理前向与后向信息。此外，注意力机制[31](attention)能够在训练过程中根据特征序列信息的重要程度赋予权重值，选择性忽略非重要信息，最大化相关向量的贡献。为使模型更好获取输入序列中不同位置的重要性，在BiLSTM层的基础上添加注意力层提高网络对关键信息的感知和利用能力。BiLSTM-Attention模块结构如图7所示。10.16152/j.cnki.xdxbzr.2024-02-004.F007图7BiLSTM-Attention模块结构图Fig. 7BiLSTM-Attention module structure diagram2多模态情感识别实验2.1数据集实验数据集选用公开的多模态情感数据集CH-SIMS[32]和CMU-MOSI[33]。CH-SIMS数据集取材自60部电影、电视剧与综艺节目，包括2 281个视频片段。每个视频片段中的情感状态由5个人给予标注，以平均标注结果作为该片段的情绪状态。CMU-MOSI数据集包含YouTube上收集的90个视频，并将其人工划分为2 199个视频片段。其中，CH-SIMS数据集的情绪状态分为消极、中性和积极3种(对应标签0、1、2)，CMU-MOSI数据集的情绪状态分为消极和积极2种(对应标签0、1)。同时，将数据集划分训练集、验证集和测试集。数据集信息如表1所示。10.16152/j.cnki.xdxbzr.2024-02-004.T001表1数据集信息Tab. 1Datasets Information数据集CH-SIMSCMU-MOSI训练集1 5961 539验证集456440测试集229220总计2 2812 1992.2参数设置与评估指标实验基于TensorFlow深度学习框架进行模型搭建，在NF5468型24*GPU服务器上进行模型训练。训练中采用SGD作为网络优化函数，LeakRelu作为激活函数。训练时的Batch size设置为32，Epoch＝1 000，学习率为1e-4，LSTM层的隐藏层单元数量为128。为防止网络在训练中出现过拟合现象，在BiLSTM-Attention层后使用P＝0.5的Dropout作为补偿。本文采用了准确率(Accuracy，式中简记RAcc)和F1值(F1-score，式中简记F1)作为模型整体性能的评估指标。具体计算如式(13)和(14)所示。(13)(14)式中：NTP表示实际与预测均为正的样本数；NFP表示实际为负但预测为正的样本数；NTN表示实际与预测均为负的样本数；NFN表示实际为正但预测为负的样本数。2.3组合方案讨论为验证提出的多模态情感框架中采用的模态组合方式的有效性，本文共讨论了4种(AT-V、AV-T、TV-A、A-T-V)模态组合方案，如图8所示。10.16152/j.cnki.xdxbzr.2024-02-004.F008图8三模态组合方案Fig. 8Three modals combination schemes为保证实验的可靠度，4组实验均在CH-SIMS和CMU-MOSI数据集上进行验证且训练超参数保持一致，实验结果如表2所示。其中，Acc-2和Acc-3分别表示二分类和三分类的准确率。通过表2可以看出，方案1中的模态组合AT-V在2类数据集上都取得比另外3种方案更好的识别效果。其中，方案1在CH-SIMS上的Acc-3、F1分别达到了96.94%、96.67%；在CMU-MOSI上分别达到97.73%和97.52%。表明本文采用的语音和文本先进行特征融合是最优的三模态组合方式。10.16152/j.cnki.xdxbzr.2024-02-004.T002表2三模态组合方案结果比较Tab. 2Comparison of results of three modals combination schemes方案模态组合CH-SIMSCMU-MOSIAcc-3F1Acc-2F1方案1AT-V96.9496.6797.7397.52方案2AV-T96.5196.6397.7097.28方案3TV-A96.0795.6796.3696.41方案4A-V-T96.5195.9896.8296.86单位：%2.4消融实验2.4.1融合方式消融实验在确定2.3节中方案1为最优的三模态组合(AT-V)后，为验证本文提出的交叉注意力融合模块(CAF)的优势，进一步将方案1中的语音和文本特征融合的方式由Concat分别替换为Self-Attention[34]和CAF并进行消融实验。其中，Concat表示不添加注意力的简单特征拼接，Self-Attention表示自注意力融合方式，其强调相关特征的组成部分。实验结果如表3所示。10.16152/j.cnki.xdxbzr.2024-02-004.T003表3融合方式消融结果比较Tab. 3Comparison of ablation results of fusion methods融合方式CH-SIMSCMU-MOSIAcc-3F1Acc-2F1Concat96.9496.6797.7397.52Self-Attention97.2096.9797.9597.76CAF(Proposed)97.8297.3398.1897.87单位：%通过表3可以看出，在引入了交叉注意力后，该模型在2类数据集上的评估指标均得到了显著的提升。在CH-SIMS数据集上，Acc-3和F1值分别达到97.82%和97.33%；在CMU-MOSI数据集上，Acc-2和F1值分别达到98.18%和97.87%。相对于简单的特征拼接(Concat)的融合方式，自注意力(Self-Attention)融合方法虽在一定程度提高了系统的性能，凸显了相关的特征组成部分，但是其计算方式较为复杂，增加了模型的复杂性。相对于自注意力融合，由于交叉注意力融合(CAF)机制通过利用A-T特征之间的相互关联性，且计算方式更为简便，有效地捕获了2种模态的互补性，进一步提高了模型性能。以上结果符合本文的预期设想，证明了提出的交叉注意力能够更好地利用语音和文本间的特征互补关系，进一步提高特征融合的效果。2.4.2BiLSTM-Attention模块消融实验为验证本文利用的BiLSTM-Attention模块的作用，做了3组对比实验。①FC：语音、文本与表情3种模态进行特征融合后输入到全连接层输出；②LSTM：在特征融合后通过LSTM网络输出；③BiLSTM：特征融合后通过双向LSTM输出。实验结果如表4所示。10.16152/j.cnki.xdxbzr.2024-02-004.T004表4BiLSTM-Attention消融结果比较Tab. 4Comparison of BiLSTM-Attention ablation results模型CH-SIMSCMU-MOSIAcc-3F1Acc-2F1FC96.0796.1596.3696.32LSTM96.9496.9096.8296.78BiLSTM97.3797.1897.7397.65BiLSTM-Att(Ours)97.8297.3398.1897.87单位：%从表4可以看出，在以上4种模型对比实验结果中，本文的BiLSTM-Attention模块在Acc和F1值上均取得了最优。在CH-SIMS数据集上较其他3种模型至少高出了0.004 5和0.001 5；在CMU-MOSI数据集上至少高出了0.004 5和0.002 2。通过以上不同模型的对比实验结果可知，本文采用的BiLSTM与Attention相结合的方法有助于更好地实现对多模态情感的分析和预测，进一步表明了该网络模块对多模态情感模型的重要性。2.4.3模态消融实验为验证本文提出的网络模型的适用性，在CH-SIMS数据集分别进行了单模态、双模态及三模态7种组合的消融实验。具体的消融实验结果如表5所示。10.16152/j.cnki.xdxbzr.2024-02-004.T005表5CH-SIMS模态消融实验结果Tab. 5Results of the CH-SIMS modal ablation experiments模态组合Acc-3F1T77.1375.67A72.0571.83V87.8187.26T＋A(CAF)93.3893.33T＋V94.7694.28A＋V95.2094.64A＋T＋V(Proposed)97.8297.33单位：%通过表5可以观察到三模态的Acc-3和F1指标均优于单模态和双模态，效果最好。在单模态情感识别实验中，表情模态信息预测真实情感能力最强，Acc-3达到87.81%，F1达到87.26%。在双模态情感识别实验中，A＋V组合效果最好，Acc-3、F1分别达到95.20%、94.64%，T＋V和T＋A次之。心理学家Mehrabian的研究发现，人们在日常生活中的情感信息主要是通过表情与语言传达的[35]，这也与消融实验中A＋V模态组合的实验结果相符。以上的消融实验不仅验证了利用语音、文本和表情进行多模态情感识别的必要性，也证明了本文提出的引入CAF思想的多模态情感融合方法的可行性和有效性。2.5对比实验本节将提出的多模态模型与目前多种经典的情感模型进行对比，基线模型介绍如下。EF-LSTM[10]：早期融合的LSTM模型。首先拼接3种模态的特征向量，然后利用LSTM对拼接后的特征进行编码。LF-LSTM[10]：晚期融合的LSTM模型。首先LSTM编码3个模态特征向量，然后结合LSTM最后一层的隐层向量构成多模态的特征表示。MAG-BERT[36]：多模态自适应门模型。通过提出一种多模态自适应门机制(MAG)，使BERT和XLNet能够在微调过程中接受多模态数据的输入。MuIT[14]：多模态Transformer模型。通过考虑不同模态之间的时序依赖关系，实现在非对齐数据集上的跨模态交互。MMIM[37]：多模态分层互信息最大化框架。在多模态分析任务中引入互信息理论，最大化输入级和融合级特征表征的互信息。MISA[38]：模态不变和模态特定表征框架。针对不同模态学习模态不变和模态特定的特征表示，对不同种类的表示向量提出分布相似性损失、重建损失、正交损失及任务预测损失。Self-MM[15]：自监督多任务学习网络。通过一种基于自监督策略的标签生成模块获取单模态表征，并在训练阶段设计一种平衡不同任务损失的权重调整策略。CMFIB[39]：跨模态融合与信息瓶颈模型。利用互信息估计模块优化多模态表示向量与真实标签之间的互信息下限，最小化输入数据与多模态表示向量间的互信息。经过多次对比实验，在2类数据集上和其他基线模型的评估指标对比结果如表6所示。10.16152/j.cnki.xdxbzr.2024-02-004.T006表6各模型性能对比结果Tab. 6Performance comparison of each model融合方式CH-SIMSCMU-MOSIAcc-3F1Acc-2F1EF-LSTM57.3856.8976.6576.69LF-LSTM70.2065.2976.7376.82MuIT68.2764.2377.4177.20MAG-BERT76.3776.4284.1984.16MMIM77.9077.9284.1484.00MISA79.2178.5384.2084.24Self-MM79.8779.8784.3384.35CMFIB80.2880.2786.5686.50Ours97.8297.3398.1897.87单位：%由表6可知，本文提出的模型在Acc和F1值2类评估指标上要优于对比的基线模型，尤其在CMU-MOSI数据集上表现更好，Acc-2和F1指标比最优基线模型分别提升了0.116 2和0.113 7；在CH-SIMS数据集上，Acc-3和F1值比最优基线模型分别提升了0.175 4和0.170 6。该结果表明，本文设计的特征提取网络以及交叉注意力机制等组件能够有效地挖掘模态间的特征关系，增强模态间的相互依赖性。这对于多模态数据的融合和各项评估指标的提升产生了显著效果。在上述基线模型中，EF-LSTM和LF-LSTM效果表现最差。这是因为2种模型直接拼接3种特征，保留了大量噪声，无法筛选出重要信息。本文的注意力机制能够对关键信息进行加权处理，增强其显著性，进而提升模型的性能。与MuIT和MAG-BERT相比，本文的模型的Acc指标在CH-SIMS上至少提升了约21个百分点，在CMU-MOSI上至少提升了约14个百分点。MuIT在计算模态间的依赖关系时，未考虑上下文信息，且网络结构较为复杂。MAG-BERT虽较MuIT有一定的提升，但在预训练或微调过程中需要大量的多模态数据，可能会导致模型计算困难。本文模型在情感计算时通过利用多尺度卷积核和BiLSTM网络，降低了计算量并保持了上下文时序相关性，提高了计算效率。与MMIM和MISA相比，本文模型采用的交叉注意力融合机制更加适用于多模态识别任务，在有效利用不同模态互补特性的同时增强了模态间的相关性。与Self-MM和CMFIB相比，所提出的方法在2类数据集的评估指标上表现出色，取得了较好的效果。Self-MM在任务间特征共享方面容易过拟合某些任务，可能导致其性能的下降。CMFIB在情感分析时只能捕捉到变量之间的关联性，难以充分捕捉模态的深层情感特征。本文设计的Pconv模块利用并行架构和特定网络层降低了过拟合的风险，并有效提取了深层次的特征。3结语针对当前多模态情感模型存在识别精度低等问题，本文提出了一种基于语音、文本和表情的多模态情感识别算法。该模型由Sfen网络、Pconv模块和改进的Inception-ResnetV2网络提取多模态特征，利用交叉注意力融合机制强化语音-文本双模态的关联性，并通过BiLSTM-Attention模块实现对情感的预测和分类。在CH-SIMS和CMU-MOSI数据集上的实验表明，该模型可以更好地提取模态特征并进行特征融合，显著提高情感识别的精度。接下来本研究将进一步细化情感类别，并探讨在细粒度识别任务下的多模态融合算法的架构设计。