一、基于VQ的说话人识别系统的实现(论文文献综述)
徐文涛[1](2020)在《基于耳蜗倒谱系数特征的说话人识别研究》文中进行了进一步梳理在生物识别技术中,说话人识别技术是一种较为常见的识别技术,同时说话人识别技术的许多研究和应用也越来越多的被人们所关注。说话人识别技术就是让机器模拟人耳的特性,来对说话人进行识别和确认。人耳作为人的听觉器官在说话人识别过程中具有良好的抗噪性能和识别能力,因此更多的学者和研究人员都致力于对人耳的听觉特性进行研究。基于人耳听觉特性所提出的一些算法虽然识别性能都较好,但在噪声环境下识别效果仍然欠佳。针对这种问题,本文从人耳听觉特性算法进行研究,发现耳蜗倒谱系数(Cochlear Filter Cepstral Coefficient,CFCC)在噪声环境下识别效果相对较好。因此本文对CFCC进行进一步的研究,提高其算法的整体识别效果。论文的主要工作如下:1、提出融合非线性幂函数和维纳滤波的CFCC算法。首先,将语音信号经过维纳滤波算法,提高其语音信号的信噪比;然后,将CFCC融合非线性幂函数,得到新的CFCC(NCFCC),提高了高信噪比条件下算法的识别率;再将经过维纳滤波的语音信号作为NCFCC的输入语音信号;最后,对该算法进行说话人识别。试验结果表明,与梅尔频率倒谱系数、Gammatone频率倒谱系数和CFCC相比,所提出的算法提高了说话人整体识别率,同时在噪声条件下具有良好的鲁棒性。2、提出将Mel滤波器组融入到CFCC中得到新的特征算法MFCFCC。首先,将语音信号输入到Mel滤波器组中进行滤波,变成二维的语音信号;然后,通过加权求和方法将二维语音信号变为一维语音信号,再将得到的语音信号经过CFCC过程;最后,得到新的说话人识别特征MFCFCC。试验结果表明,MFCFCC与其它特征算法比较,其在噪声环境下,能显着提高说话人的识别率,在纯净语音条件下也能提高识别性能。
潘嘉[2](2020)在《深度学习语音识别系统中的自适应方法研究》文中提出语音是最快速、便捷的人机交互方式,语音识别技术是人工智能的重要组成部分。随着深度学习技术的进步,语音识别在多数场景中取得了接近人类的识别准确率,但是在说话人带有方言和口音、复杂环境噪声和专业领域等特殊场景下,语音识别的准确率会显着下降,影响用户的使用体验。语音识别自适应技术是提升特殊场景下语音识别准确率的有效手段之一,因此一直是语音识别领域的研究热点。相比传统语音识别系统中的自适应技术,深度学习语音识别系统中的自适应存在着模型参数庞大,而数据量相对较少等特点,这使得深度学习语音识别系统中的自适应成为一个研究难题。本文针对这些难题,在声学模型在线自适应、低资源下声学模型离线自适应、无监督声学模型离线自适应和语言模型自适应方面开展了研究工作,并将研究成果应用于实际语音识别系统中。本文的研究工作依托科大讯飞股份有限公司所承担的科技部国家重点研发计划重点专项课题《未知场景下的语音识别与意图理解》(课题编号:2018AAA0102204)进行。本文的具体研究内容包括:研究了声学模型在线自适应技术。针对声学模型在线自适应对于实时性要求极高,并且因缺乏自适应训练数据而导致自适应效果有限等问题,本文提出了基于注意力机制的声学模型在线自适应方法。利用预先训练好的说话人识别模型抽取海量说话人的特征表达并进行聚类,得到一组说话人特征基向量作为外部记忆单元;利用注意力机制实时快速的从记忆单元中挑选与当前语音段最相近的说话人基向量,并加权得到当前语音帧所对应的说话人特征表达,用于声学模型在线自适应。在此框架的基础之上,我们引入了固定大小顺序遗忘编码机制,同时提出了多级门控连接机制、说话人分类目标辅助训练和残差向量说话人特征表达,进一步的提升了声学模型在线自适应的效果。我们分别在中文和英文语音识别两个代表性数据集上进行了实验,实验结果证明了该方法能够在基本不增加语音识别计算复杂度的情况下,大幅提升声学模型在线自适应的效果。研究了低资源下声学模型离线自适应技术。针对低资源下声学模型离线自适应容易过拟合而导致泛化能力差的问题,本文提出了基于多任务学习的说话人编码方法,以及基于奇异值分解和矢量量化的自适应方法。首先,针对传统基于说话人编码的自适应方法进行了分析并指出了其中的不足;其次,针对性的引入了额外的说话人分类目标对说话人编码向量进行多任务学习,以提升该方法对于新说话人的泛化能力;然后,将说话人编码向量扩展成说话人编码矩阵以增强自适应的作用,并使用基于奇异值分解的自适应参数初始化。同时,为了能够充分压缩自适应的参数量,引入了矢量量化技术,并同步进行矢量量化训练与自适应,以减少矢量量化所带来的效果损失。在真实的语音识别数据集上,这两种方法在低资源情况下均取得了更好的自适应效果。研究了无监督声学模型离线自适应技术。针对无监督声学模型离线自适应相比有监督自适应效果损失严重的问题,本文首先提出了利用人机交互过程中的用户确认文本来帮助提高自适应数据机器标注准确率的方法;然后提出了一种基于确认模型的声学置信度方法,通过设计多种统计特征用于置信度模型的训练,直接判断当前词是否识别正确,从而显着增强了置信度与语音识别准确率之间的相关度,使得通过该置信度方法可以更好的进行自适应数据的挑选,提升机器自动标注的准确率;最后,本文跳出了传统无监督自适应方法的束缚,提出了一种基于元学习的无监督自适应方法,直接以无监督自适应后的模型在测试集上的效果为训练目标,来对通用模型进行调整,使得经过元学习后的通用模型按照预设的自适应方法能够在测试集上获取最优的效果。实验结果表明,本文提出的方法均能大幅提升无监督声学模型自适应的效果。研究了语言模型自适应技术。针对语言模型自适应数据稀疏、缺乏有效的自适应方法的问题,本文提出了基于用户修改词的N-gram语言模型自适应方法,通过从用户修改行为中挖掘用户关键词并在解码过程中进行动态激励,实现了N-gram语言模型高效快速的自适应。在保证低误触发率的前提下,该方法大幅提升了用户关键词的识别准确率。针对领域信息未知情况下的神经网络语言模型的自适应难题,本文提出了基于无监督聚类的神经网络语言模型自适应方法,通过无监督聚类对训练文本数据进行划分并训练类别专属语言模型,并利用隐层共享机制缓解类别专属语言模型训练数据稀疏的问题。在解码过程中,通过动态挑选多个类别专属语言模型的输出概率进行加权,达到提高语言模型输出概率可信度的目的。在真实的语音识别数据集上验证了本文提出的方法的有效性。在上述研究工作的基础上,介绍了自适应技术在真实深度学习语音识别系统中的应用情况。针对语音输入法场景,本文设计了语音识别云服务中声学模型自适应的服务架构,包括声学模型的自适应训练模块和自适应后声学模型的解码模块。同时,设计了“即修即改”的语言模型快速自适应功能,使得系统在语音识别错误被用户修正后可以迅速学习改进。
陈松[3](2019)在《基于VQ的室内说话人识别及FPGA实现研究》文中研究说明语音控制作为一种自然、高效的控制方式,随着智能家居的发展而受到的重视程度越来越高。在智能家居的应用中,说话人识别是关键的技术难题,直接影响人身和财物的安全性。目前,说话人识别系统的研究大多是基于电脑平台实现的,时效性较低,在实际应用中受到限制。本文利用FPGA高性能和低功耗的特点,研究了室内说话人识别算法和说话人识别的硬件实现。室内说话人识别由语音端点检测和矢量量化识别这两部分组成。语音端点检测是系统实现的基础,采用能量统计复杂度算法来实现,针对该算法不适合直接应用于硬件这个问题,在语音信号FFT变换后,本文只根据前半帧数据的谱线能量与其对数值即可计算出一帧数据的信息熵,省略了概率密度的计算过程,然后根据信息熵算出统计复杂度值,最后结合语音能量获得能量统计复杂度值。改进后的能量统计复杂度算法能够一帧一帧地对语音信号进行流水线操作,计算量减少,数据处理效率得到提高,更适合应用在硬件平台上。矢量量化识别的硬件实现过程由特征参数提取、欧氏距离计算、最小失真计算构成。特征参数选择24维梅尔频率倒谱系数,Mel滤波和离散余弦变换均通过查表法参与运算。计算每帧的特征参数与码本中各个码矢的欧氏距离平方误差值,通过时序控制将原本所需要的24个平方运算模块缩减到6个,节约了硬件资源。从每帧的欧氏距离平方误差中选出最小值,与上一帧的最小误差值叠加,在语音结束时用叠加的最小误差值除以有效帧数,获得语音的最小失真,将最小失真与预先设置的阈值比较,最终实现说话人识别。本文以ALTERA公司的EP4CE55F23C8芯片为核心,采用流水线技术在硬件平台上实现说话人识别,实验结果表明:系统的语音端点检测在高信噪比与低信噪比的环境中均有较好的检测效果,测出的有效语音帧数准确,系统响应时间96ms;在实验室环境中,对文本相关的指定说话人识别时,其正确识别率可达到94%;与只设置说话人识别的上限阈值相比,同时设置上限阈值和下限阈值后,可有效降低指定人对自己其他语音的误识率。系统具有效率高、响应快、适用性强的优点,在智能家居领域具有良好的应用前景。图[56]表[9]参[63]
耿姝雅[4](2019)在《基于深度学习的说话人识别算法研究》文中指出语音信号是人类生活工作中非常重要的交流手段之一。而每个人的声音都是具有自己的独特特征的,从理论上来说,声音就像人的指纹一样,很少会有两个人具有相同的声纹特征,所以通过不同人的声纹特质,我们可以区分出不同人的声音从而识别不同人的身份。说话人识别技术,就是根据语音信号中所反映的说话人生理和行为特征的特征参数,来自动识别说话人的身份,是一种生物特征识别技术。相比于指纹识别、人脸识别、瞳孔识别等方法,说话人识别技术应用在身份识别领域时具有易于被用户接受、设备所需成本较低、可扩展性好等优点。深度学习近几年来在模式识别、语音识别、图像处理等领域中都取得了令人瞩目的成绩。同传统的浅层学习相比,深度学习的不同之处在于强调了深度神经网络模型的深度,明确了特征学习在深度神经网络中的重要性,使得样本的分类或者识别更加简单、容易。将说话人识别和深度学习结合起来,可以大大增加说话人识别的准确率,从而推动说话人识别技术在身份认证领域的应用。本文的工作内容如下,录制了两个不同的的语音库。语音库1是由实验室内14名同学在安静无干扰的办公室内录制的。语音库2是由一个企业的五十名员工在工作的大房间内录制的。同时还选取了 Kaldi平台上的开源中文普通话数据库中的五十个人的语音数据作为语音库3。使用这三个语音库对后续的实验进行训练、测试。实现了以MFCC及其一二阶差分为特征参数,用VQLBG算法进行聚类的传统说话人识别算法。采用不同特征参数组合以及码本质心参数,研究了在不同参数条件下系统的性能变化情况。用三个语音库进行训练、测试,所得到的最高识别率分别为97.14%、73.12%和98.26%。设计并实现了基于DNN网络的说话人识别算法。选取语音库2,研究在不同特征参数以及隐藏层节点数的条件下,系统性能的变化情况。得到的最高识别率为80.3 1%。选取语音库3,在固定特征参数及网络层的情况下,进行多次训练、测试,研究系统性能的波动情况。得到的识别率范围在96.36%~98.07%内,平均识别率为97.36%。提出了一种基于性别的说话人识别算法,并进行具体实现。选取语音库3在固定的特征参数和网络层条件下,多次对系统进行训练测试,研究系统性能的变化情况。识别率范围在97.80%~98.56%内,平均识别率为98.07%。与基于DNN的说话人识别算法对比结果,发现基于性别的说话人识别算法提高了一部分识别率,并且识别率的波动范围明显更小。
周金傲[5](2019)在《基于SVM和深度学习的说话人识别研究》文中研究指明随着语音识别技术的不断发展,说话人识别技术作为一种重要的身份认证方法受到了越来越多的关注,传统的说话人识别技术通常以MFCC、LPCC等作为特征参数,识别算法采用隐马尔科夫模型、矢量量化和高斯模型等方法,但说话人识别技术在识别精度、可识别样本量及识别速度上还有待进一步提高。本文主要研究了以下几方面的内容:(1)详述了说话人识别的模型和原理对语音预处理阶段进行了详细的研究,论述了预处理阶段每一步的工作,针对MFCC等一系列参数的具体计算过程进行了介绍,然后对主流说话人识别方法进行了研究,探究四种不同的说话人识别模型,对主流方法所存在的局限性进行了证实。(2)提出了改进的基于支持向量机和梅尔倒谱系数的说话人识别方法在特征提取方法中采用Mel频率倒谱系数的同时,针对语音特征参量进行了改进,在传统特征量的基础上增加了四种改进的音频特征参数,然后对SVM模型进行核函数种类和参数的对比实验,并且通过实验仿真结果表明,本文改进过的说话人识别系统的识别率较之前提升了21%。(3)研究了基于深度学习和语谱图的说话人识别系统本文将说话人语音信息整体作为特征参量输入,保留最原始信息参数,将说话人的语音信号处理为二维的语谱图,规整格式后作为输入,并对语谱图进行处理得到不同的声纹图,将其与卷积神经网络连接,构建说话人识别系统,测试系统性能,识别率可达91.2%。
刘俊坤[6](2018)在《基于深度学习和矢量量化的说话人识别研究》文中认为说话人识别是用来进行身份确认的一种认证技术,通常也被称为声纹识别。它通过不同说话人语音中的个性特征来识别说话人身份,具有操作方便,设备成本低等优势,并被应用于证券银行、军事国防以及公安司法等领域。深度学习是近年来发展比较迅速的一种深层机器学习模型,其本质上是多层非线性的神经网络,可以对复杂的数据关系进行建模。本文将深度学习应用在说话人识别中,优化说话人语音个性特征,提高系统性能,主要工作如下:1.介绍了深度学习基本理论并总结了该网络在说话人识别中优势和应用深度神经网络是具有多个隐层的复杂网络模型,本文阐述了深度置信网络的基本原理,并与其他模型进行了对比,进一步分析了深度神经网络在说话人识别中的优势,总结了国内外研究者对深度置信网络的研究和应用。2.研究了基于Bottleneck-VQ的说话人识别方法说话人语音时长有限会导致模型学习不充分,进而影响系统的识别率。深度置信网络可以更好地在有限的语音中捕捉到说话人的个性特征。本文通过深度置信网络提取Bottleneck特征,然后结合矢量量化方法,构成基于Bottleneck-VQ的说话人识别系统。通过仿真实验,表明在说话人语音时长不超过10s的短时条件下,基于Bottleneck-VQ模型识别率比传统VQ有10%的提升。3.研究了基于Auto-Encoder DBN-VQ的说话人识别方法噪声环境下的语音对说话人识别系统性能影响非常大,本文采用深度置信网络构造深度自动编码置信网络,可以对说话人语音中的噪声进行有效过滤,然后结合VQ构成基于Auto-Encoder DBN-VQ的说话人识别系统。实验结果证明,基于Auto-Encoder DBN-VQ的说话人识别系统比VQ以及GMM等系统在噪声条件下识别率平均提升15%。
江文斌[7](2018)在《面向复杂场景的极低码率语音编解码和语音增强关键技术研究》文中提出近年来,随着信号处理技术的发展,语音通信系统和语音识别系统在理想条件下取得了良好的效果。然而,在面向宽带资源有限条件下的低码率语音通信、强噪声干扰条件下的语音识别等复杂应用场景,现有系统的性能会大大降低。低码率语音编码会由于量化误差导致语音可懂度的下降,并会随着码率的降低进一步恶化,这对高可懂度的低码率语音编解码提出了更高的要求。实际应用系统中的环境噪声干扰会使得通话质量和识别率大大降低,这对语音增强(或降噪)技术也提出了越来越高的要求。本文对复杂场景下低码率语音编解码和语音增强两大问题展开研究。针对极低码率语音编码问题,分析了语音信号不同感知层的表示方法及对应的编码方法,研究了只需要单一量化编码参数的参数层低码率语音编码方法,并以此为基础实现了语义层高可懂度编解码方法,具体研究内容如下:实现了采用梅尔倒谱系数的低码率语音编解码方法。该方法只需要一种参数表示语音信号,使得实现极低码率量化编码时不需要考虑参数间联合矢量量化的问题,从而极大地简化了量化器的设计。为了实现基于梅尔倒谱系数的高质量语音信号重建,在解码端实现了采用混合高斯模型的清浊分类和基音周期估计,并使用此信息实现了一种改进型幅度谱迭代逼近的方法重建时域信号。该重建方法充分利用了语音信号本身的特点,信号初始化为最小相位信号或者合成相位信号,从而实现了高质量语音的重建并加速了迭代算法的收敛速度。在基于梅尔倒谱系数编码方法的基础上,实现了一种采用深度神经网络的语义层低码率编解码方法,并对其中的基于语音参数重构信号和高维度数据量化两大关键技术问题展开研究。研究了受限波尔兹曼机结构的深度神经网络用于语音信号语义层的特征提取,实现了信号功率谱的语义层重构;研究了深度自动编码器用于高维度数据量化,实现了一种融合传统量化编码器和神经网络解码器的矢量量化方法。基于深度神经网络进行信号重构和高维度矢量量化,实现了语义层高可懂度的极低码率语音编解码器。针对复杂环境下的语音降噪问题,本文研究了单/多通道语音增强算法,实现了融合特定人信息的单通道语音增强方法,并实现了不依赖波达方向估计的噪声鲁棒性多通道空间滤波方法,具体内容如下:实现了一种融合特定人信息的单通道语音增强算法。该算法分别对噪声估计、噪声分类、噪声鲁棒的说话人识别、特定人信息的提取及融合进行了研究,实现了基于自适应混合高斯模型的噪声估计方法、采用参数域特征的噪声分类方法、针对典型的噪声环境分别建立对应说话人模型的话者识别方法、以及从说话人模型提取信息融合到语音增强算法的方法,从而减少了对噪声估计算法的依赖,有效提升了增强后语音信号的质量。研究了噪声鲁棒性阵列信号空间滤波算法,包括不依赖于波达方向估计的改进型最小方差无失真响应波束形成算法和基于广义特征值分解的盲波束形成算法,并分析得出噪声鲁棒性波束形成算法的关键是信号和噪声的时频掩膜估计。针对现有时频掩膜估计算法的种种不足,实现了一种功率谱域实高斯模型的时频掩膜估计算法,该算法较传统复高斯模型的时频掩膜估计方法大大降低了计算复杂度;实现了一种基于深度神经网络时频掩膜估计算法,该方法采用多目标训法并融合了阵列空间信息,较同类方法大大提高了时频掩膜的精度。综上所述,本文对复杂环境下的极低码率语音编码器和语音增强关键技术问题进行了深入研究和分析,研究了基于梅尔倒谱系数的语音编码方法并实现了语义层编解码器、研究了融合特定人信息的语音增强算法并实现了噪声鲁棒性空间降噪方法。本文为极低码率语音编码器和语音增强技术的应用提供了理论依据和实践参考。
刘俊坤,李燕萍,凌云志[8](2018)在《基于AutoEncoder DBN-VQ的说话人识别系统》文中研究表明基于矢量量化的说话人识别算法,通过描述说话人语音特征的不同分布进行说话人识别。在说话人数量较多,训练语音时长较短时,系统识别率不高。模型训练一般在纯净语音条件下进行,在实际有噪声环境下进行识别时,系统性能会急剧恶化。为改善系统识别性能,提出一种基于自动编码深度置信网络与矢量量化结合的说话人识别方法。该方法采用深度置信网络对说话人语音数据进行学习和挖掘,在语音时长较短时可以更好地捕获说话人的个性特征;同时采用自动编码器有去噪声的特点,构造自动编码深度置信网络,使网络模型可以对有噪语音数据进行有效地噪声过滤。实验结果证明,该方法在说话人训练语音时长有限时,以及对说话人有噪语音进行识别时,系统识别率都有很大提升。
陶定元[9](2016)在《电子伪装语音下的说话人识别方法研究》文中认为说话人识别技术因其独特的优势已经成为生物认证领域的主要技术之一,而且应用广泛。然而,随着手机变声软件的出现,其产生的电子伪装语音由于掩盖了语音本身的说话人个性特征,因此对现有的说话人识别技术来说是一种挑战,且一旦被违法犯罪分子利用,后果十分严重。因此,电子伪装语音下的说话人识别已经成为司法鉴定领域研究的热点之一。但是,从电子伪装语音中识别出说话人的身份仍然面临着三大挑战:对于电子伪装语音伪装程度的鉴定;针对电子伪装语音的说话人识别系统;电子伪装语音还原的算法。针对以上三个问题,本文的工作主要有:(1)提出了一种将DTW与VQ相结合的识别模型,实现从电子伪装语音中识别出说话人的身份。选取MFCC作为电子伪装语音的特征参数,并通过DTW对其特征参数进行动态规整,完成伪装程度的鉴定。然后利用VQ模型,在同一伪装程度层面上实现对说话人身份的确定。(2)针对语音中的性别特征在高伪装程度下缺失的现象,提出了一种可以区分电子伪装语音中的说话人性别的方法。当待测语音的说话人性别与模板语音的说话人相同或相异时,使用DTW进行伪装程度匹配的结果会存在明显差异,利用这一差异便可实现对待测语音的说话人性别的确定。(3)结合语音信号的重采样理论和基音同步叠接相加理论,通过对语音的基音频率和语速进行动态调整,实现从电子伪装语音中还原出说话人原始语音的方法。
李青龙[10](2016)在《基于码本聚类优化的VQ说话人识别SOPC设计》文中提出说话人识别技术具有准确性高、识别方便、设备成本低廉和非接触识别等优势,可广泛应用于身份识别领域。模式识别作为影响说话人识别性能的重要组成部分,成为说话人识别技术的研究焦点。其中,矢量量化算法(Vector Quantization,VQ)模型设计简单、系统快速有效,被广泛的应用于快速说话人识别系统中。随着移动互联网时代的到来,要求说话人识别技术能够快速准确地识别说话人,并且易于集成在便携的小型移动设备中。而基于FPGA(Field Programmable Gate Array)的片上可编程逻辑系统(System on a Programmable Chip,SOPC)具有功耗小、成本低、速度快、易集成等优势,能够充分的利用片上资源实现相关算法。因此,说话人识别系统的SOPC设计成为重要趋势。为了实现说话人声纹特征模式识别的SOPC设计,本文通过对已有模式识别算法进行分析,在综合考虑识别性能和算法复杂度的情况下,选择适合FPGA设计实现的矢量量化算法进行研究,并针对原算法匹配识别时全搜索计算量大的问题进行改进,提出基于码本聚类优化的矢量量化算法和相应的快速匹配识别算法。然后对改进算法过程中计算量大、消耗时间长的步骤进行硬件模块的设计,并借助SOPC Builder和NIOS II IDE平台完成说话人声纹特征模式识别系统的软硬件设计,实现说话人模式识别的SOPC系统。对于说话人识别系统的芯片化设计具有重要意义。论文主要包括以下几个方面的内容:1.对说话人声纹特征的模式识别算法进行研究,选择适合进行FPGA设计实现的VQ算法进行改进,针对原始算法匹配识别全搜索计算量大的问题,提出码本聚类矢量量化算法,并设计快速匹配算法。实验表明,优化算法在不影响识别准确率的前提下,获得了57.44%的匹配次数优化率。2.分析改进算法整体流程,针对算法中计算量大、消耗时间长的关键步骤进行基于FPGA的硬件模块设计,主要包括LBG算法模块、码本间距离计算模块、代表码本计算模块、特征参数与码本间距离计算模块等,并通过仿真验证了设计模块的有效性。3.将相关加速模块封装成适合进行SOPC设计的IP(Intellectual Property)核,并配合NIOS II处理器完成SOPC系统的软硬件设计,最终通过测试验证了本文设计系统的准确性、可靠性和高效性。
二、基于VQ的说话人识别系统的实现(论文开题报告)
(1)论文研究背景及目的
此处内容要求:
首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。
写法范例:
本文主要提出一款精简64位RISC处理器存储管理单元结构并详细分析其设计过程。在该MMU结构中,TLB采用叁个分离的TLB,TLB采用基于内容查找的相联存储器并行查找,支持粗粒度为64KB和细粒度为4KB两种页面大小,采用多级分层页表结构映射地址空间,并详细论述了四级页表转换过程,TLB结构组织等。该MMU结构将作为该处理器存储系统实现的一个重要组成部分。
(2)本文研究方法
调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。
观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。
实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。
文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。
实证研究法:依据现有的科学理论和实践的需要提出设计。
定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。
定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。
跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。
功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。
模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。
三、基于VQ的说话人识别系统的实现(论文提纲范文)
(1)基于耳蜗倒谱系数特征的说话人识别研究(论文提纲范文)
摘要 |
abstract |
第1章 绪论 |
1.1 研究背景及意义 |
1.2 说话人识别的发展历史与现状 |
1.3 说话人识别的主要困难 |
1.4 论文章节安排 |
第2章 说话人识别基础 |
2.1 系统模型 |
2.2 特征提取 |
2.2.1 MFCC特征参数的提取 |
2.2.2 GFCC特征参数的提取 |
2.3 分类器 |
2.3.1 VQ算法 |
2.3.2 GMM算法 |
2.3.3 SVM算法 |
2.3.4 GMM-SVM混合算法 |
2.4 本章小结 |
第3章 CFCC特征参数 |
3.1 小波变换的定义 |
3.2 CFCC实现过程 |
3.2.1 听觉变换 |
3.2.2 耳蜗滤波器组 |
3.2.3 毛细胞窗函数 |
3.2.4 非线性响度变换和DCT |
3.3 本章小结 |
第4章 融合非线性幂函数和维纳滤波的CFCC算法的说话人识别 |
4.1 维纳滤波 |
4.2 参数设置 |
4.3 融入非线性幂函数的NCFCC的选择 |
4.4 实验设计与结果分析 |
4.4.1 FFNW算法对比试验结果分析 |
4.4.2 不同分类器比较 |
4.5 本章小结 |
第5章 MFCC和 CFCC特征组合的说话人识别 |
5.1 特征组合提取的过程与方法 |
5.2 权重的选择 |
5.3 试验设计与结果分析 |
5.3.1 MFCFCC算法对比试验结果分析 |
5.3.2 Mel滤波器组融入NCFCC和 MFCFCC结果比较 |
5.3.3 不同分类器比较 |
5.4 本章小结 |
第6章 总结与展望 |
6.1 总结 |
6.2 展望 |
参考文献 |
致谢 |
附录 A 个人简历 |
附录 B 硕士期间发表的学术论文 |
附录 C 论文中的用图 |
附录 D 论文中的用表 |
(2)深度学习语音识别系统中的自适应方法研究(论文提纲范文)
摘要 |
ABSTRACT |
第1章 绪论 |
1.1 研究背景及意义 |
1.2 国内外研究现状 |
1.2.1 深度学习语音识别技术研究现状 |
1.2.2 声学模型自适应技术研究现状 |
1.2.3 语言模型自适应技术研究现状 |
1.3 本文主要内容及组织结构 |
第2章 声学模型在线自适应方法研究 |
2.1 引言 |
2.2 基于注意力机制的声学模型在线自适应方法的基本框架 |
2.2.1 主体神经网络 |
2.2.2 外部记忆单元 |
2.2.3 注意力模块 |
2.2.4 连接模块 |
2.3 基于注意力机制的声学模型在线自适应方法的改进方案 |
2.3.1 基于音素信息的记忆向量构建方式 |
2.3.2 基于变长编码的说话人信息收集方式 |
2.3.3 基于多级门控机制的说话人向量连接方式 |
2.3.4 基于辅助说话人分类任务的信息增强方式 |
2.4 实验结果及分析 |
2.4.1 实验数据及基线配置介绍 |
2.4.2 在线自适应方案的实验验证 |
2.5 本章小结 |
第3章 低资源下的声学模型离线自适应技术研究 |
3.1 引言 |
3.2 基于多任务学习的Speaker Code方法 |
3.2.1 SpeakerCode自适应方法介绍和分析 |
3.2.2 基于多任务学习的Speaker Code方法 |
3.3 基于SVD和VQ的自适应方法 |
3.3.1 基于SVD的模型自适应 |
3.3.2 矢量量化及训练 |
3.4 实验及分析 |
3.4.1 实验数据集及基线模型概述 |
3.4.2 基于多任务学习的Speaker Code方法实验 |
3.4.3 基于SVD和VQ的自适应方法实验 |
3.5 本章小结 |
第4章 无监督声学模型离线自适应技术研究 |
4.1 引言 |
4.2 机器自动标注准确率提升方法 |
4.2.1 基于用户确认文本的机器标注准确率提升方法 |
4.2.2 基于确认模型的声学置信度方法 |
4.3 基于元学习的自适应方法 |
4.3.1 MAML技术介绍 |
4.3.2 基于MAML的无监督说话人自适应 |
4.4 实验及分析 |
4.4.1 实验数据集及基线模型概述 |
4.4.2 基于用户确认文本的机器标注方法相关实验 |
4.4.3 基于确认模型的置信度方法相关实验 |
4.4.4 基于MAML的自适应方法相关实验 |
4.5 本章小结 |
第5章 语言模型自适应方法研究 |
5.1 引言 |
5.2 基于用户修改词的N-gram语言模型自适应 |
5.2.1 基于用户行为分析的用户词挖掘 |
5.2.2 用户词动态激励 |
5.3 基于聚类的神经网络语言模型自适应 |
5.3.1 无监督自聚类 |
5.3.2 多类联合语言模型 |
5.4 实验及分析 |
5.4.1 实验数据集及基线模型概述 |
5.4.2 基于用户修改词的N-gram语言模型自适应相关实验 |
5.4.3 基于聚类的神经网络语言模型自适应相关实验 |
5.5 本章小结 |
第6章 语音识别自适应的应用 |
6.1 引言 |
6.2 声学模型自适应的应用 |
6.3 语言模型自适应的应用 |
6.4 本章小结 |
第7章 总结 |
7.1 本文的主要贡献与创新点 |
7.2 后续的研究工作 |
参考文献 |
在读期间发表的学术论文与取得的研究成果 |
致谢 |
(3)基于VQ的室内说话人识别及FPGA实现研究(论文提纲范文)
摘要 |
Abstract |
1 绪论 |
1.1 研究意义 |
1.2 国内外发展状况 |
1.3 关键技术研究 |
1.3.1 特征参数提取 |
1.3.2 训练与识别算法 |
1.4 存在的问题 |
1.5 本文主要研究内容 |
2 说话人识别基础框架设计 |
2.1 说话人识别的框架设计 |
2.2 语音信号预处理 |
2.2.1 语音信号预加重 |
2.2.2 语音分帧 |
2.2.3 语音加窗 |
2.2.4 语音的短时能量 |
2.3 语音端点检测算法 |
2.4 说话人识别算法 |
2.5 研究平台和工具 |
2.6 基于FPGA的语音控制电路 |
2.7 室内环境信噪比分析 |
2.8 本章小结 |
3 基于ESC算法的语音端点检测 |
3.1 能量统计复杂度算法 |
3.2 ESC算法的改进 |
3.2.1 FFT性质 |
3.2.2 信息熵计算的改进 |
3.2.3 广延量计算的改进 |
3.2.4 改进的ESC算法 |
3.3 单参数双门限端点检测 |
3.4 本章小结 |
4 基于VQ的说话人识别研究 |
4.1 MFCC参数 |
4.1.1 Mel滤波能量 |
4.1.2 离散余弦变换 |
4.1.3 MFCC特征参数提取 |
4.2 VQ算法在语音中的研究应用 |
4.2.1 矢量量化原理 |
4.2.2 语音矢量量化 |
4.2.3 失真测度 |
4.2.4 矢量量化器和LGB算法 |
4.3 室内说话人识别设计 |
4.3.1 码本确定 |
4.3.2 判决依据 |
4.4 本章小结 |
5 基于FPGA的说话人识别实现 |
5.1 语音端点检测的实现 |
5.1.1 FFT变换 |
5.1.2 数据运算的实现 |
5.1.3 改进ESC算法的实现 |
5.1.4 端点检测的实现 |
5.1.5 基于FPGA的 VAD仿真 |
5.2 MFCC模块实现 |
5.2.1 Mel滤波的实现 |
5.2.2 DCT的实现 |
5.2.3 MFCC参数的实现 |
5.3 码本设计的实现 |
5.4 VQ识别模块的实现 |
5.4.1 欧氏距离的实现 |
5.4.2 最小失真计算的实现 |
5.5 系统仿真结果 |
5.6 系统的实验分析 |
5.7 本章总结 |
6 总结与展望 |
6.1 总结 |
6.2 展望 |
参考文献 |
致谢 |
作者简介及读研期间主要科研成果 |
(4)基于深度学习的说话人识别算法研究(论文提纲范文)
摘要 |
ABSTRACT |
符号对照表 |
缩略语对照表 |
第一章 绪论 |
1.1 说话人识别的研究目的及意义 |
1.2 说话人识别的发展历程及现状 |
1.3 说话人识别技术的难点 |
1.4 本文研究内容及章节安排 |
第二章 语音信号的预处理以及特征提取 |
2.1 声音的基本原理 |
2.1.1 发声器官 |
2.1.2 语音信号的数字模型 |
2.2 语音信号的预处理 |
2.2.1 采样与量化 |
2.2.2 分帧加窗 |
2.3 语音特征参数及其提取 |
2.3.1 线性预测系数 |
2.3.2 线性预测倒谱系数 |
2.3.3 梅尔频率倒谱系数 |
2.3.4 差分参数 |
第三章 传统说话人识别算法研究 |
3.1 经典的说话人识别算法概述 |
3.1.1 模版匹配法 |
3.1.2 统计概率模型法 |
3.1.3 判决模型法 |
3.2 基于矢量量化的说话人识别算法设计 |
3.2.1 矢量量化原理 |
3.2.2 矢量量化的失真测度 |
3.2.3 采用LBG方法设计矢量量化器 |
3.3 实验结果及分析 |
3.3.1 实验步骤 |
3.3.2 实验环境及语音数据 |
3.3.3 实验结果 |
3.3.4 类似算法实验结果 |
3.4 本章小结 |
第四章 基于DNN网络的说话人识别算法研究 |
4.1 神经网络概述 |
4.1.1 神经网络基础 |
4.1.2 神经网络模型 |
4.2 深度学习模型 |
4.2.1 卷积神经网络模型 |
4.2.2 循环神经网络模型 |
4.2.3 长短时记忆模型 |
4.3 基于DNN网络的说话人识别算法设计 |
4.4 实验结果与分析 |
4.4.1 语音库及实验环境 |
4.4.2 实验结果与分析 |
4.4.3 类似算法实验结果 |
4.5 本章小结 |
第五章 基于性别的说话人识别算法研究 |
5.1 基于性别的说话人识别算法 |
5.1.1 系统设计 |
5.1.2 实验数据 |
5.1.3 实验结果 |
5.1.4 类似算法实验结果 |
5.2 本章小结 |
第六章 总结与展望 |
6.1 论文完成工作 |
6.2 遗留问题及后续工作的考虑 |
参考文献 |
致谢 |
作者简介 |
(5)基于SVM和深度学习的说话人识别研究(论文提纲范文)
摘要 |
Abstract |
符号对照表 |
第一章 绪论 |
1.1 研究背景和意义 |
1.2 国内外研究现状 |
1.2.1 国外说话人识别研究情况 |
1.2.2 国内说话人识别研究情况 |
1.3 深度学习和神经网络的发展 |
1.4 本文主要研究内容及创新点 |
1.4.1 主要研究内容 |
1.4.2 创新点 |
1.5 本文章节安排 |
第二章 说话人识别模型和原理 |
2.1 说话人识别概述 |
2.2 说话人识别方法和系统架构 |
2.2.1 语音的声学模型 |
2.2.2 预处理 |
2.2.3 说话人识别的特征提取 |
2.2.4 模式匹配方法 |
2.2.5 说话人识别系统的评价 |
2.2.6 目前说话人识别系统存在的问题 |
2.3 主流的说话人识别系统 |
2.3.1 基于VQ(ector Quantization)的说话人识别系统 |
2.3.2 基于应用DTW(Dynamic Time Warping)的说话人识别系统 |
2.3.3 基于HMM(Hidden Markov model)的说话人识别系统 |
2.3.4 基于GMM(Gaussian Mixture Model)的说话人识别系统 |
2.3.5 主流说话人识别系统的问题 |
第三章 MFCC和SVM的说话人识别算法及改进 |
3.1 说话人系统的原理和架构 |
3.1.1 支持向量机的原理 |
3.1.2 传统的SVM算法 |
3.1.3 改进后的SVM算法 |
3.2 实验过程 |
3.2.1 语料库的建立和预处理 |
3.2.2 MFCC特征提取 |
3.2.3 其他特征提取 |
3.3 实验搭建和结果分析 |
3.3.1 提取特征参数 |
3.3.2 实验结果 |
3.3.3 实验分析 |
第四章 基于深度学习和语谱图的说话人识别算法 |
4.1 深度学习 |
4.1.1 深度学习的概念和特点 |
4.1.2 神经网络模型 |
4.2 CNN(卷积神经网络) |
4.2.1 卷积神经网络结构 |
4.2.2 卷积神经网络结构的改进 |
4.3 语谱图 |
4.3.1 语谱图的概念和识别原理 |
4.3.2 语谱图的处理和改进 |
4.4 基于深度学习和语谱图的说话人识别系统 |
4.4.1 系统流程 |
4.4.2 实验设置 |
4.4.3 实验结果 |
4.4.4 实验分析 |
4.4.5 两种实验的对比分析 |
第五章 总结展望 |
5.1 总结 |
5.2 展望 |
致谢 |
参考文献 |
附录A 个人成果 |
附录B 部分语谱图及特征量 |
附录C 论文核心代码 |
(6)基于深度学习和矢量量化的说话人识别研究(论文提纲范文)
摘要 |
Abstract |
第一章 绪论 |
1.1 研究背景和意义 |
1.2 说话人识别的发展及现状 |
1.3 说话人识别技术研究难点及热点 |
1.4 本文的主要研究与结构安排 |
第二章 说话人识别基本理论 |
2.1 语音产生机理与模型 |
2.2 说话人识别概述 |
2.2.1 说话人识别概念 |
2.2.2 说话人识别分类 |
2.3 说话人识别中的关键技术 |
2.3.1 语音信号预处理 |
2.3.2 语音特征提取 |
2.3.3 说话人识别模型 |
2.4 说话人识别性能评价指标 |
2.5 本章小结 |
第三章 深度学习基本理论 |
3.1 深度学习的优势 |
3.1.1 深度学习的特点 |
3.1.2 深度学习在说话人识别的优势 |
3.2 神经网络的学习方式 |
3.3 本文采用的深度学习模型 |
3.3.1 人工神经元模型 |
3.3.2 RBM模型 |
3.3.3 深度置信网络 |
3.4 深度置信网络在说话人识别方面的应用 |
3.5 本章小结 |
第四章 基于Bottleneck-VQ的说话人识别系统 |
4.1 基于矢量量化的说话人识别系统 |
4.2 Bottleneck特征 |
4.2.1 Bottleneck特征介绍 |
4.2.2 Bottleneck特征提取 |
4.3 基于Bottleneck-VQ的说话人识别系统 |
4.3.1 基于Bottleneck-VQ的说话人识别系统实现 |
4.3.2 实验仿真和结果分析 |
4.4 本章小结 |
第五章 基于Auto-Encoder DBN-VQ的说话人识别系统 |
5.1 Auto-Encoder DBN原理 |
5.2 基于Auto-Encoder DBN-VQ的说话人识别系统 |
5.3 实验仿真和结果分析 |
5.4 本章小结 |
第六章 总结与展望 |
参考文献 |
附录1 攻读硕士学位期间撰写的论文 |
附录2 攻读硕士学位期间申请的专利 |
附录3 攻读学位期间参加的科研项目 |
致谢 |
(7)面向复杂场景的极低码率语音编解码和语音增强关键技术研究(论文提纲范文)
摘要 |
ABSTRACT |
主要缩略语对照表 |
第一章 绪论 |
1.1 课题研究背景 |
1.1.1 高可懂度的极低码率语音编码 |
1.1.2 复杂环境下的语音增强 |
1.2 国内外研究现状分析 |
1.2.1 基于参数合成的低码率语音编码 |
1.2.2 语义层低码率编码 |
1.2.3 复杂环境下的语音增强技术 |
1.2.4 噪声鲁棒性波束形成技术 |
1.3 本文研究内容与创新 |
1.3.1 本文主要研究内容 |
1.3.2 本文主要贡献和创新 |
1.4 论文结构安排 |
第二章 基于语音参数合成的极低码率语音编解码算法 |
2.1 基于线性预测分析的极低码率语音编解码算法 |
2.1.1 语音信号生成的数学模型 |
2.1.2 语音信号的线性预测分析 |
2.1.3 混合激励线性预测语音编码器 |
2.1.4 基于MELP的300bps语音编解码器 |
2.2 采用梅尔倒谱系数的极低码率语音编解码算法 |
2.2.1 采用梅尔倒谱系数的低码率语音编解码框架 |
2.2.2 梅尔倒谱系数逆向重建信号幅度谱 |
2.2.3 基于混合高斯模型的清浊音分类和基音周期估计 |
2.2.4 采用清浊音分类的时域波形重建 |
2.2.5 实验结果 |
2.3 本章小结 |
第三章 采用深度神经网络的语义层低码率语音编解码 |
3.1 采用深度神经网络的语义层低码率语音编解码算法 |
3.1.1 深度神经网络 |
3.1.2 采用深度神经网络的低码率语音编解码关键技术 |
3.2 采用深度神经网络的梅尔倒谱系数重构语音算法 |
3.2.1 从梅尔倒谱系数重建语音信号 |
3.2.2 采用深度神经网络的语音信号重构算法框架 |
3.2.3 用于重构语音功率谱的神经网络结构 |
3.3 采用深度神经网络的高维度矢量量化算法 |
3.3.1 高维度矢量量化 |
3.3.2 采用深度神经网络的高维度矢量量化器结构 |
3.3.3 高维度矢量量化器的神经网络结构 |
3.4 实验结果 |
3.4.1 采用深度神经网络的梅尔倒谱重构语音实验 |
3.4.2 采用深度神经网络的高维度数据矢量量化实验 |
3.4.3 采用DNN的低码率语音编解码 |
3.5 本章小结 |
第四章 融合特定人信息的单通道语音增强算法 |
4.1 面向特定人的单通道语音增强算法框架 |
4.2 噪声估计及分类算法 |
4.2.1 基于自适应混合高斯模型的噪声估计算法 |
4.2.2 采用参数域特征的噪声分类算法 |
4.2.3 噪声估计及分类算法实验 |
4.3 噪声鲁棒的说话人识别方法 |
4.3.1 基于GMM-UBM的说话人识别系统 |
4.3.2 基于环境噪声感知的说话人识别系统 |
4.3.3 基于清浊音分类的特征提取 |
4.3.4 模型评估实验 |
4.4 融合特定人信息的语音增强算法 |
4.4.1 特定人信息的提取 |
4.4.2 特定人信息的融合 |
4.4.3 语音质量测评结果 |
4.5 本章小结 |
第五章 噪声鲁棒性阵列语音信号增强算法 |
5.1 噪声鲁棒性阵列语音信号增强算法框架 |
5.2 噪声鲁棒性波束形成算法 |
5.2.1 波束形成问题描述 |
5.2.2 延时求和波束形成算法 |
5.2.3 基于MVDR的改进型波束形成算法 |
5.2.4 基于广义特征值分解的盲源波束形成算法 |
5.3 基于实高斯模型的时频掩膜估计算法 |
5.3.1 语音信号的高斯模型 |
5.3.2 幅度谱域参数迭代估计算法 |
5.4 采用多任务深度神经网络的时频掩膜估计算法 |
5.4.1 融合阵列空间信息的时频掩膜 |
5.4.2 多任务深度神经网络 |
5.5 实验结果 |
5.5.1 实验数据集 |
5.5.2 噪声鲁棒性波束形成算法测试 |
5.5.3 采用高斯模型估计时频掩膜的阵列语音信号增强 |
5.5.4 采用神经网络估计时频掩膜的阵列语音信号增强 |
5.5.5 综合分析 |
5.6 本章小结 |
第六章 全文总结 |
6.1 本文主要工作 |
6.2 后续研究展望 |
参考文献 |
致谢 |
攻读学位论文期间发表的学术论文目录 |
(8)基于AutoEncoder DBN-VQ的说话人识别系统(论文提纲范文)
0 引言 |
1 基于矢量量化的说话人识别系统 |
2 Auto Encoder DBN-VQ说话人识别系统 |
2.1 深度置信网络 |
2.2 系统描述 |
3 实验结果与分析 |
3.1 纯净语音条件下的测试 |
3.2 有噪语音条件下的实验 |
4 结束语 |
(9)电子伪装语音下的说话人识别方法研究(论文提纲范文)
摘要 |
Abstract |
第一章 绪论 |
1.1 引言 |
1.2 说话人识别技术 |
1.2.1 说话人识别的研究历史及现状 |
1.2.2 说话人识别的应用 |
1.3 司法鉴定说话人识别的背景与发展 |
1.3.1 司法鉴定中的特殊语料 |
1.3.2 伪装语音对司法鉴定领域说话人识别的挑战 |
1.4 本文主要内容和结构安排 |
第二章 说话人识别技术概述 |
2.1 语音基础知识 |
2.1.1 语音的分类 |
2.1.2 语音的发音模型 |
2.2 说话人识别技术 |
2.2.1 说话人识别理论基础 |
2.2.2 说话人识别系统架构 |
2.2.3 说话人识别特征参数提取 |
2.2.4 说话人识别模式匹配 |
2.2.5 特殊语料下的说话人识别系统 |
2.2.6 说话人识别系统性能评价 |
2.3 本章小结 |
第三章 语音信号分析与特征参数提取 |
3.1 语音信号的预处理 |
3.2 语音信号的时域分析 |
3.2.1 短时能量和短时平均幅度 |
3.2.2 短时过零率 |
3.2.3 端点检测 |
3.3 语音信号的频域分析 |
3.3.1 短时傅里叶变换 |
3.3.2 语谱分析 |
3.3.3 倒谱分析与同态滤波处理 |
3.4 语音信号特征参数的提取 |
3.4.1 LPCC的提取 |
3.4.2 MFCC的提取 |
3.4.3 改进型的MFCC特征参数 |
3.4.4 GFCC |
3.5 电子伪装语音中特征参数的变化 |
3.6 本章小结 |
第四章 电子伪装语音下的说话人识别 |
4.1 DTW模型 |
4.1.1 DTW模型理论基础 |
4.1.2 DTW模型鉴定电子伪装语音伪装程度的原理及方法 |
4.1.3 DTW模型鉴定伪装程度的问题及模型改进 |
4.1.4 DTW改进算法的效率问题 |
4.2 电子伪装语音伪装程度鉴定实验 |
4.2.1 对待侧语音性别的判定 |
4.2.2 对待侧语音伪装程度的鉴定 |
4.2.3 待侧语音与模板语音语义相异对伪装程度鉴定的影响 |
4.3 VQ模型 |
4.3.1 VQ模型理论基础 |
4.3.2 VQ中的码书设计 |
4.3.3 电子伪装语音下的VQ识别模型 |
4.3.4 VQ识别模型对语音伪装程度的敏感度 |
4.4 DTW和VQ相结合的识别模型 |
4.5 本章小结 |
第五章 电子伪装语音的还原 |
5.1 电子伪装语音还原算法理论基础 |
5.1.1 语音信号重采样改变基音频率原理 |
5.1.2 几种基音频率提取方法的比较 |
5.1.3 动态确定重采样区间 |
5.1.4 基音同步叠接相加算法 |
5.2 电子伪装语音还原实验及分析 |
5.3 本章小结 |
第六章 总结与展望 |
参考文献 |
附录1 攻读硕士学位期间撰写的论文 |
附录2 攻读硕士学位期间参加的科研项目 |
致谢 |
(10)基于码本聚类优化的VQ说话人识别SOPC设计(论文提纲范文)
摘要 |
Abstract |
1 绪论 |
1.1 课题研究的背景与意义 |
1.2 国内外研究现状 |
1.2.1 说话人识别技术研究现状 |
1.2.2 说话人识别模式匹配算法研究现状 |
1.2.3 VQ算法的研究现状 |
1.2.4 基于SOPC的说话人识别研究现状 |
1.3 主要研究内容与难点 |
2 基于码本聚类优化的VQ说话人识别算法设计与验证 |
2.1 说话人识别关键技术 |
2.1.1 说话人识别基本工作原理 |
2.1.2 说话人语音特征参数 |
2.2 基于VQ算法的说话人识别关键技术 |
2.2.1 码本生成LBG算法 |
2.2.2 匹配识别算法 |
2.3 基于码本聚类优化的VQ算法设计 |
2.3.1 码本聚类算法相关参数定义 |
2.3.2 码本聚类算法 |
2.4 基于码本聚类优化的快速匹配算法设计 |
2.4.1 改进的匹配算法 |
2.4.2 算法性能指标 |
2.5 码本聚类优化VQ算法的仿真验证 |
2.5.1 语音库的建立 |
2.5.2 分类阈值对系统性能的影响 |
2.5.3 改进匹配识别算法性能测试 |
2.6 本章小结 |
3 基于FPGA的码本聚类VQ算法模块化设计 |
3.1 基本加速模块的设计 |
3.1.1 串入并出模块 |
3.1.2 并行欧氏距离测度计算模块 |
3.1.3 最小距离选择器模块 |
3.2 LBG算法加速模块设计 |
3.2.1 LBG算法加速模块设计方式 |
3.2.2 码本缓存模块 |
3.2.3 码本更新与失真计算模块 |
3.2.4 LBG加速模块整体设计 |
3.3 码本聚类算法加速模块设计 |
3.3.1 码本聚类算法加速模块设计方式 |
3.3.2 码本间距离计算模块 |
3.3.3 代表码本计算模块 |
3.4 匹配计算加速模块设计 |
3.4.1 匹配计算加速模块设计方式 |
3.4.2 特征参数与码本间距离计算模块 |
3.5 本章小结 |
4 码本聚类VQ算法说话人识别的SOPC设计 |
4.1 系统功能设计 |
4.2 系统组成 |
4.3 初级码本训练设计 |
4.3.1 码本的储存和标签设计 |
4.3.2 自定义LBG算法IP核 |
4.3.3 初级码本训练主程序 |
4.4 代表码本生成设计 |
4.4.1 自定义码本间距离计算模块IP核 |
4.4.2 自定义代表码本计算模块IP核 |
4.4.3 代表码本生成主程序 |
4.5 匹配识别设计 |
4.5.1 自定义特征参数与码本间距离计算模块IP核 |
4.5.2 匹配识别主程序 |
4.6 系统总体实现 |
4.6.1 SOPC硬件平台构建 |
4.6.2 系统主控程序 |
4.7 本章小结 |
5 系统验证与性能分析 |
5.1 编译与下载 |
5.2 系统识别准确率测试 |
5.3 系统运行时间测试 |
5.4 本章小结 |
结论 |
参考文献 |
攻读硕士学位期间发表学术论文情况 |
致谢 |
四、基于VQ的说话人识别系统的实现(论文参考文献)
- [1]基于耳蜗倒谱系数特征的说话人识别研究[D]. 徐文涛. 湘潭大学, 2020(02)
- [2]深度学习语音识别系统中的自适应方法研究[D]. 潘嘉. 中国科学技术大学, 2020(01)
- [3]基于VQ的室内说话人识别及FPGA实现研究[D]. 陈松. 安徽理工大学, 2019(01)
- [4]基于深度学习的说话人识别算法研究[D]. 耿姝雅. 西安电子科技大学, 2019(04)
- [5]基于SVM和深度学习的说话人识别研究[D]. 周金傲. 昆明理工大学, 2019(04)
- [6]基于深度学习和矢量量化的说话人识别研究[D]. 刘俊坤. 南京邮电大学, 2018(02)
- [7]面向复杂场景的极低码率语音编解码和语音增强关键技术研究[D]. 江文斌. 上海交通大学, 2018(01)
- [8]基于AutoEncoder DBN-VQ的说话人识别系统[J]. 刘俊坤,李燕萍,凌云志. 计算机技术与发展, 2018(02)
- [9]电子伪装语音下的说话人识别方法研究[D]. 陶定元. 南京邮电大学, 2016(02)
- [10]基于码本聚类优化的VQ说话人识别SOPC设计[D]. 李青龙. 齐齐哈尔大学, 2016(05)