一、一个中文新词识别特征的研究(论文文献综述)
普晟昱[1](2021)在《中文新词发现算法改进及其在微博舆情分析中的应用》文中研究表明
王丽[2](2021)在《面向新闻文本的中文分词方法研究》文中提出
张爽[3](2021)在《中文短文本情感分析关键问题研究》文中指出在网络媒体时代,人们通过微博、短视频等社交平台对各类热点事件发表相关言论和看法,这些文本内容简短、表达幽默,能充分反映人们的内心情绪。挖掘这些短文本的潜在情感倾向性,分析和预测用户行为,可以为各个领域的舆情监管工作提供辅助支持。目前,面向网络短文本的情感分析算法研究已取得了一定的成果,但仍存在一些问题,例如,网络新词的不断涌现造成分词效果较差;短文本表现形式的复杂导致传统特征选择结果不佳;特征学习不充分造成情感分类准确率较低等。针对上述问题,本文主要对短文本中新词发现、基于信息增益的特征选择及情感分析算法等关键问题展开研究。本文主要研究内容包括:1.针对传统新词发现算法忽略了单字新词和句法语义信息对识别结果的影响等问题,提出一种基于统计量与相似性的网络新词发现算法。该算法以字为粒度,依次计算词频、最大增强互信息等统计量,获取具有高成词概率的候选新词集;利用基于句法和语义的改进相似性计算模型过滤无效新词,得到最终新词集合。实验结果表明该算法能有效识别网络新词,改善分词效果。2.针对传统信息增益未考虑特征词的类别词频分布差异性及情感倾向性等问题,提出一种基于改进信息增益的文本特征选择算法。该算法在计算信息增益时引入词频调节因子和类分布情况因子,均衡各类别词频分布情况;加入基于扩充情感词典的情感极性因子,将特征情感信息融入特征选择算法中。实验结果表明该算法提升了情感分类精度,在不均衡数据集上效果更优。3.针对基于统计的特征选择忽略了特征的语义信息、基于深度学习的特征提取不包含特征的统计和情感信息等问题,提出一种基于特征融合的双向长短时记忆网络(Bi-directional Long-Short Term Memory,Bi LSTM)短文本情感分析算法。该算法利用改进的特征权重计算得到包含统计权值和情感信息的词汇特征;基于词向量技术获取具有上下文信息的语义特征;最后融合两类特征训练Bi LSTM模型。实验结果表明在短文本情感分类任务中,该算法可行且有效。
曹敏[4](2021)在《科研成果隐性知识刻画方法与应用研究》文中认为近年来随着中国科学技术的迅猛发展,科研成果的数量出现爆发式增长。为了从科研成果中更高效获取隐性知识,并对科研人员进行针对性推荐,在多种类型的科研成果中选择中文科研论文为主要研究对象,做了以下几方面的工作:(1)对科研论文进行主题词提取。论文的主题词有别于其作者自定义的关键词。利用自然语言处理技术对科研论文数据进行清洗及归一化的处理,基于规则提取论文中的结构化数据,基于TF-IDF算法抽取论文的主题词,得到相关标签数据,最终用于构成知识图谱中的实体。(2)完成科研论文中的新词发现和筛选过滤。基于汉字的成词模式规则和Ngram算法进行滑动窗格扫描,提取得到论文词语的集合。由于不是所有得到的候选新词均为目前新词,所以需要对候选新词进行处理。计算词语的边界自由度和内部凝固度,设置阈值对不符合目标新词的词语进行过滤与筛选,最后得到目标新词集合。(3)发现论文词语之间的关系。研究得到了目标新词的集合,构建词向量矩阵计算词语之间的相似度,再利用人工进行上下位词汇关系的筛选,从而以半自动化方式实现了词语之间层次关系抽取;使用关联分析的方法对论文技术点间的非层次关系进行了探讨发现。(4)知识图谱的构建及应用推荐。基于NEO4J图数据库构建出科研论文成果图谱,确定了科研论文中的各类实体、以及实体具有的属性值类型和不同类型实体之间的关系类型,可视化展示科研论文的知识图谱。基于科研论文知识图谱,采用协同和社交推荐算法对科研人员进行针对性的知识推荐。
潘韦[5](2021)在《专业领域新词发现及向量化问题研究》文中研究表明文本数据的分词及单词向量化,是目前大多数中文自然语言处理任务的必要任务。词汇是最小的能够独立运用的语义单位,能够表达基础的含义。而新词的不断涌现是语言的自然规律,尤其是在专业领域,新概念和实体名称经常作为关键词在句子中承担重要角色和功能。专业领域新词难以正确划分以及新词词向量的缺失一直是影响实际任务效果的重要因素之一,因而本文主要研究如何更好的发现专业领域词汇及其语义向量生成的问题。新词发现与其向量化问题面临着许多挑战,目前的分词方法主要是基于词库规则和统计以及神经网络的方法,然而这些方法很难确定新词的边界信息,导致大部分领域新词都会被错误拆分,无法表达新词本身的真实含义。即使部分领域新词被正确划分,但由于专业领域词汇出现频率较少或以往并没有出现过,现有的可复用的预训练词向量学习方法无法对该类型词向量学习进行适配。针对以上困难挑战,本文主要贡献如下:(1)针对专业领域文本新词发现问题,提出了融合自编码器和对抗训练的中文新词发现模型,采用字符级别的自编码器,通过无监督自学习的方式进行预训练,可以有效提取语义信息,不受分词结果影响,从而适用于不同领域的文本;为了引入通用领域的语言学知识,添加了先验句法分析结果,可以提升歧义词的划分准确性;通过共享编码器,不仅融合了语义和语法信息,而且学习到跨源域和目标域的数据特征,进行新词发现;最后采用对抗训练的机制,以提取领域无关特征,减少对于人工标注语料的依赖。我们选择六个不同的专业领域数据集评估新词发现任务,结果显示在准确率等评价指标上优于现有其他方法,通过模型析构实验,详细验证了各个模块的有效性。针对少量标注数据和差异化特征数据的情况,选择不同类型的源域数据和不同数量的目标域数据,进行了对比实验,验证了对抗框架在模型鲁棒性方面的成效,并以可视化的方式对比了自编码器和共享编码器针对不同领域数据的编码结果,显示了对抗训练方法能够有效地提取两者之间的相关性和差异性信息。(2)针对专业领域新词词向量缺失问题,提出了基于概念性文本的领域新词词向量快速学习模型。领域新词通常都是由专业概念描述,相比日常用语,可以包含更多的语义信息。本模型首先对单词字符信息以及文本进行语义信息编码,设计双层注意力机制,更加符合中文文本的表达方式,生成现有语义空间的词向量。其次,在多文本聚合部分,采用卷积神经网络对多个已经生成好的语义词向量进行聚合,使其最终词向量能够包含多方面语义信息。在七个公开的数据集上进行了广泛的实验来对模型效果验证。在单词相似性任务和下游自然语言处理任务中,均优于现有方法。同时也在文本数量和文本类型的不同影响下进行实验,证明了概念性文本的有效效果及快速生成向量的最少文本训练量,最后在生物学领域进行可视化分析模型生成的词向量语义。
刘昱彤[6](2021)在《面向古汉语语义理解的自然语言处理技术研究与实现》文中认为随着数字人文的发展,利用计算机对人文学科进行辅助研究已经逐渐成为一种趋势。而古汉语领域,诗词曲赋、散文、戏曲、小说等文学作品,《三国志》、《史记》、《汉书》等史学作品,记载着中华五千年的文明,对这世界上唯一从未间断传承的古老文明累积的大量古籍进行自动的、有条理的研究对于整个人类文明的发展有重要意义和价值。随着计算语言学和知识图谱领域的发展,面向现代汉语领域的自然语言处理技术日趋成熟,以知识辅助现代汉语的语义理解成为研究热点。然而,关于古汉语领域的研究却十分稀少。若能够利用计算语言学的技术,对古汉语进行自动分词、词性标注、命名实体识别、句法解析,实现对古汉语的语法分析;利用知识图谱的技术,实现对古汉语的语义分析,则能够以规范统一的流程对大量的电子化古籍进行研究,避免了大量重复的人工劳动,从一种新的角度来辅助古汉语领域的研究。因此,本文研究面向古汉语的自然语言处理和知识图谱的技术,从而辅助古汉语语料的语义理解。具体地,主要包含以下几个方面的工作:(1)提出了一种针对古汉语语料的、高效的两步新词发现算法AP-LSTM-CRF,融合了并行化的Apriori算法和Bi-LSTM-CRF切分概率模型,利用数据挖掘的关联规则算法和深度学习的方法有效地挖掘古汉语语料中的新词。实验证明AP-LSTM-CRF在宋词和宋史数据集上均优于多个对比算法。(2)提出了一种古诗词知识图谱的构建方法,并利用该方法构建了一个内容覆盖全面、包含多层词语语义联系的古诗词图谱。古诗词图谱可以从语义的角度对诗词进行各种不同维度的分析研究。此外,古诗词图谱还适用于各种关于古诗词的推理和分析任务。(3)构建了古诗词数据挖掘和知识图谱展示的可视化系统。主要功能包括,对古诗词分词的效果进行展示,对古诗词图谱进行展示,基于古诗词分词和古诗词图谱对各朝代诗词进行数据分析并将结果以交互性图表的形式展示,基于古诗词图谱对诗词题材、情感进行自动分类并将分类结果可视化展示。
吴进发[7](2021)在《电子病历搜索引擎中的新词发现和排序技术研究》文中认为电子病历(Electronic Medical Record,EMR)贯穿患者的整个医疗活动,包含患者的诊疗信息,对医生的诊断和决策起着关键作用。然而早期积累的大量非结构化中文电子病历文档(Xml格式)却给医生的病历检索和科研带来阻碍,如何快速准确地从电子病历中检索有用信息已经变得越来越迫切。因此本文研究了使用Elasticsearch(实时搜索引擎,ES)搜索引擎工具来构建电子病历全文检索系统,从而提高电子病历的检索效率。本文的研究主要包括以下三个方面:(1)本文提出了一种基于互信息与左右信息熵的中文新词发现改进算法用于电子病历搜索引擎。本文基于中文电子病历的文本特征和医学术语的词法,主要对预处理和算法结构两点进行改进。预处理上,本文基于中文医学主题词表和ICD-10疾病编码构建了医学词典,还参照电子病历文本中的医学词汇特点选取了部分停用词用于更新前置分词器的停用词表,用于提高中文新词发现算法中的前置分词效果,从而发现更多的新词。结构上,将算法中点互信息计算的改为点互信息均值,将左右信息熵的计算进行拆分,最终将两个分支的结果合并取交集。实验结果表明,本文提出的改进算法的新词发现效果优于改进前的新词发现效果。(2)本文提出了一种基于Ada Rank的电子病历搜索引擎搜索结果排序算法。传统的检索模型需要依靠人工设置排序公式,并在迭代过程中不断优化排序参数,手动调试参数工作量较大。近年来使用机器学习排序模型的排序学习算法开始在各领域大规模应用。在电子病历领域,使用排序学习的研究非常少,因此,本文将排序学习中的Ada Rank算法应用于电子病历,来对搜索引擎排序结果进行优化。本文通过人工标注心血管疾病电子病历文档,选取关键词对每个文档进行文档-查询词对标注,最后使用传统检索模型BM25,学习排序Rank Net、Lambda Rank、List Net、Lambda MART来进行对比实验,实验表明,本文提出的电子病历搜索算法对比传统的BM25算法和其他四种排序学习算法对电子病历的搜索结果排序优化效果更佳。(3)电子病历搜索引擎系统的设计与实现。基于(1)和(2)的研究,本文构建的病历搜索系统除了具有电子病历全文检索功能,还提供了用户管理功能,新词发现功能,电子病历查看功能。电子病历全文检索功能的应用使得电子病历的全文检索变得更加简便快速。
郝苗[8](2020)在《扩展词典与规则结合的微博情感分类研究》文中进行了进一步梳理随着互联网技术和社交网络服务的迅速发展,我国微博用户数量越来越多,尤其以新浪微博为主。加之web2.0的提出与兴起,互联网赋予网民更多主动,微博凭借其简洁、灵活的特点渗透到广大网民的生活中,成为用户获取、分享、发表信息的平台,这使得互联网中蕴含情感的文本数量迅速增长。这些文本在舆情控制、市场预测等方面有极大的研究价值,因此挖掘微博情感信息技术应运而生。准确识别微博文本包含的情感,实现面向微博的情感分类,在理论研究和应用层面上都有重要意义。目前情感分类研究中存在情感词典不完善、情感分类准确度不高的问题。为了解决这个问题,本文以语义相似度为基础,面向微博情感分类问题提出基于点互信息和语义相似度的扩展词典构建方法,并归纳情感表达的六种情感单元组合形式。然后将该词典与语义规则相结合完成情感分类任务,有效识别微博文本所蕴含的情感。主要研究工作有:首先,进行词典扩展的研究,整理现有情感词典资源,提出构建面向微博情感分类专用词典的方法。将二分类词典和多分类词典按照词语相似度进行合并,按照七分类情感划分体系整理情感词典;收集网络词汇和表情符号,利用点互信息进行情感判定构建网络词词典和表情符号词典,并详细说明各部词典构建规则。然后,综合考虑情感词典扩充时,情感词规模和情感词识别准确度对微博文本情感分类的影响,对比词典合并过程中相似度阈值对情感识别有效性和准确性的影响,确定合适的相似度取值范围,使其提高微博情感识别率。最后,进行情感分类方法研究,基于微博文本表达特点,分析基于情感词典进行情感分类方法的不足,归纳出微博文本情感单元组合形式,提出词典与规则结合的情感分类方法。将扩展词典与文本语义规则结合,通过计算情感单元的情感强度值得到文本情感类别。针对扩充词典和将词典与规则结合用于情感分类这两个研究主题,设计相应的对比试验。通过实验证明本文提出的方法,在手动获取以及公开测评数据集上有良好表现。
吴杰胜[9](2020)在《基于多部情感词典和深度学习的中文微博情感分析研究》文中研究表明近年来,以微博为代表的中文媒体平台正在不断融入人们的生活,人们每天都在这些平台上发表自己的观点、感受等其他主观信息,如何从这些信息中提取有价值的情感信息并加以利用就称作情感分析。本文以中文微博为研究对象,分别从基于情感词典的方法和基于深度学习的方法对中文微博进行情感分析研究,研究结果证明了两种方法对中文微博的情感分析均具有很好的作用,主要研究内容如下:(1)首先根据目前已有的情感词典和微博特性,可以发现目前已有的情感词典无法满足微博情感分析,因此本文专门开发扩建了六部情感词典,包括原始情感词典、否定词与双重否定词典、副词词典、连词词典、表情符号词典和中文微博新词情感词典,其中构造中文微博新词情感词典是该方法的一个关键点,它基于改进的PMI算法来进行构造。其次对每个词典中的每一个词赋予一个情感值,然后进一步分析中文微博文本之间的语义规则集,将句间分析规则和句型分析规则引入到中文微博的情感分析中,进一步提高了中文微博情感分析的准确性。最后,基于多部情感词典和语义规则集的方法,本文提出了一种从复句到单句,再从单句到词,并结合表情符号的中文微博情感计算算法。根据此算法将微博数据集分为正面、负面和中性三种类别,然后通过三组对比实验:基于原始情感词典的方法、基于多部情感词典的方法、基于多部情感词典和规则集的方法对微博进行情感分析,结果表明本文提出的基于多部情感词典和规则集的方法在准确率、召回率和F值三个层面上均优于前两种方法。(2)本文为了研究利用深度学习的方法对微博进行情感分析的有效性,分别针对基于卷积神经网络CNN和基于长短期记忆网络LSTM的方法的优点和缺点,提出一种将两者结合的模型即CNN-LSTM模型,该模型首先利用卷积神经网络CNN对微博进行特征提取,然后利用长短期记忆网络LSTM对微博进行情感预测。通过实验对比发现,该模型对微博的情感分析相比于单一的CNN模型和LSTM模型在准确率、召回率和F值三个层面上均有很大提高。图31 表6 参80
李宁[10](2020)在《面向图文混排数据的多模态信息融合标注系统研究与实现》文中提出数字智能网络时代下大量文化数字化资源被汇聚,急需新手段新方法对文化资源进行有效合理的组织与管理。目前文化领域已经积累了大量专业的图文混排数据,即包含图像及其关联文本的数据,其特点是图像文本互关联,对图像的自动标注具有重要意义。本文将研究内容聚焦于文化领域专业的人文艺术书籍,以纹饰图像为研究载体,实现了对图文混排数据的数字图文处理与多模态标注。主要研究内容包括:(1)针对文化大数据对多模态数据的需求,提出了一种基于版面分析的自适应图文分离算法。以文化领域专业的图文混排书籍为数据源,结构化的提取出由图像、标题和描述文本组成的图文信息对,形成多模态数据标本库。(2)提出了一种面向领域词库构建的新词发现算法。算法以文化领域专业书籍文本为数据源,结合多种统计特征对基于信息熵和互信息的新词发现算法进行改进,完成了领域词库的扩展与更新,改善了通用分词工具对文化领域专业词汇切分正确率较低的问题,为后续图像标注算法奠定了基础。(3)基于图文分离算法、新词发现算法和领域词库提出了一种多模态信息融合的图像标注算法。算法采用基于PageRank的多模态信息决策融合的思路对图文两种模态的标注信息进行融合,在一定程度上保证了图像标签的丰富性与可靠性。(4)搭建了一个人文艺术书籍标注系统,对本文提出的图文分离算法、新词发现算法和多模态信息融合图像标注算法进行整合,具有一定的实用价值。本文围绕图文多模态数据集,提出一套合理组织文化资源的数字图文处理方法,并验证了所提面向图文混排数据的多模态信息融合标注方法的有效性。
二、一个中文新词识别特征的研究(论文开题报告)
(1)论文研究背景及目的
此处内容要求:
首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。
写法范例:
本文主要提出一款精简64位RISC处理器存储管理单元结构并详细分析其设计过程。在该MMU结构中,TLB采用叁个分离的TLB,TLB采用基于内容查找的相联存储器并行查找,支持粗粒度为64KB和细粒度为4KB两种页面大小,采用多级分层页表结构映射地址空间,并详细论述了四级页表转换过程,TLB结构组织等。该MMU结构将作为该处理器存储系统实现的一个重要组成部分。
(2)本文研究方法
调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。
观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。
实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。
文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。
实证研究法:依据现有的科学理论和实践的需要提出设计。
定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。
定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。
跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。
功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。
模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。
三、一个中文新词识别特征的研究(论文提纲范文)
(3)中文短文本情感分析关键问题研究(论文提纲范文)
摘要 |
ABSTRACT |
第一章 绪论 |
1.1 选题背景与意义 |
1.2 短文本情感分析国内外研究现状 |
1.3 论文的主要研究内容及结构安排 |
1.4 本章小结 |
第二章 相关理论与关键技术 |
2.1 数据预处理 |
2.1.1 中文分词 |
2.1.2 去停用词 |
2.1.3 文本表示 |
2.2 文本特征选择 |
2.2.1 文档频率 |
2.2.2 互信息 |
2.2.3 卡方检验 |
2.2.4 信息增益 |
2.3 情感分类模型 |
2.3.1 基于机器学习的分类模型 |
2.3.2 基于深度学习的分类模型 |
2.4 本章小结 |
第三章 基于统计量与相似性的网络新词发现算法 |
3.1 问题的提出 |
3.2 基于统计量的候选新词发现 |
3.2.1 最大增强互信息 |
3.2.2 加权左右邻接熵 |
3.2.3 基于统计量的候选新词发现算法 |
3.3 融合相似性判断的新词发现 |
3.3.1 相似性计算模型 |
3.3.2 融合相似性判断的新词发现算法 |
3.4 实验结果与分析 |
3.4.1 实验设置与评价指标 |
3.4.2 实验结果及分析 |
3.5 本章小结 |
第四章 基于改进信息增益的文本特征选择算法 |
4.1 问题的提出 |
4.2 融合网络新词的情感词典扩充 |
4.3 基于改进信息增益的文本特征选择算法 |
4.3.1 词频调节因子 |
4.3.2 类分布情况因子 |
4.3.3 情感极性因子 |
4.3.4 WFEIG特征选择算法 |
4.4 实验结果与分析 |
4.4.1 实验设置与评价指标 |
4.4.2 实验结果及分析 |
4.5 本章小结 |
第五章 基于特征融合的短文本情感分析算法 |
5.1 问题的提出 |
5.2 基于特征融合的Bi LSTM短文本情感分析算法 |
5.2.1 基于改进TF-IDF的词汇特征 |
5.2.2 基于Word2Vec的语义特征 |
5.2.3 基于全连接神经网络的特征融合 |
5.2.4 FF-Bi LSTM情感分析算法 |
5.3 实验结果与分析 |
5.3.1 实验设置与评价指标 |
5.3.2 实验结果及分析 |
5.4 本章小结 |
总结与展望 |
参考文献 |
攻读硕士学位期间取得的科研成果 |
致谢 |
(4)科研成果隐性知识刻画方法与应用研究(论文提纲范文)
摘要 |
Abstract |
第1章 绪论 |
1.1 课题背景及研究意义 |
1.1.1 研究对象的选择 |
1.1.2 存在的问题 |
1.2 国内外研究现状 |
1.2.1 知识传播与隐性知识 |
1.2.2 成果刻画技术 |
1.2.3 知识图谱及推荐系统 |
1.3 本文研究内容 |
1.4 论文的组织结构 |
第2章 科研论文刻画体系设计 |
2.1 论文刻画的定义 |
2.2 论文标签设计原则 |
2.3 论文标签设计 |
2.4 论文主题词提取 |
2.4.1 基于TF-IDF的主题词抽取 |
2.4.2 实验及结果 |
2.5 本章小节 |
第3章 科研论文新词抽取 |
3.1 论文的新词的定义 |
3.2 新词抽取方法 |
3.3 论文新词提取 |
3.3.1 论文数据集预处理 |
3.3.2 新词发现 |
3.3.3 新词筛选与过滤 |
3.3.4 新词筛选评价标准 |
3.3.5 实验结果分析 |
3.4 本章小结 |
第4章 论文词语实体关系发现 |
4.1 层次关系发现 |
4.2 非层次关系发现 |
4.3 本章小结 |
第5章 知识图谱构建及应用 |
5.1 知识图谱的架构 |
5.2 知识图谱构建技术 |
5.3 知识图谱展示 |
5.3.1 实验环境 |
5.3.2 知识图谱可视化 |
5.4 基于知识图谱的推荐 |
5.5 工作小结 |
第6章 总结与展望 |
6.1 工作总结 |
6.2 展望 |
参考文献 |
攻读硕士学位期间发表的论文及科研成果 |
(5)专业领域新词发现及向量化问题研究(论文提纲范文)
摘要 |
ABSTRACT |
第1章 绪论 |
1.1 课题背景 |
1.2 问题描述 |
1.3 本文贡献 |
1.4 论文组织结构 |
第2章 相关工作 |
2.1 中文分词方法 |
2.1.1 基于规则和统计的分词方法 |
2.1.2 基于神经网络的分词方法 |
2.1.3 新词发现的相关方法 |
2.2 单词语义向量化方法 |
2.2.1 基于概率统计的词向量化方法 |
2.2.2 基于预训练的词向量化方法 |
2.2.3 基于字形态学的词向量化方法 |
2.2.4 表外词词向量快速生成方法 |
第3章 专业文本新词发现 |
3.1 问题描述 |
3.2 模型框架 |
3.3 融合自编码器和对抗训练的新词发现模型 |
3.3.1 预训练文本重构自编码器 |
3.3.2 先验依存句法知识 |
3.3.3 领域对抗训练 |
3.3.4 条件随机场分词 |
3.4 模型训练 |
3.4.1 微调文本重构自编码器 |
3.4.2 联合损失函数 |
3.5 实验设计与分析 |
3.5.1 数据集与评价指标 |
3.5.2 对比方法 |
3.5.3 模型性能比较 |
3.5.4 模型析构分析 |
3.5.5 模型鲁棒性分析 |
3.5.6 模型特征分布可视化分析 |
3.6 小结 |
第4章 新词语义向量学习 |
4.1 问题描述 |
4.2 模型框架 |
4.3 向量生成模块 |
4.4 语义聚合模块 |
4.5 实验设计与分析 |
4.5.1 数据集与实验设置 |
4.5.2 对比方法 |
4.5.3 语义相似性实验分析 |
4.5.4 下游任务词向量分析 |
4.5.5 模型析构分析 |
4.5.6 模型鲁棒性分析 |
4.5.7 专业领域可视化分析 |
4.6 小结 |
第5章 结论与展望 |
5.1 结论 |
5.2 展望 |
参考文献 |
致谢 |
攻读学位期间发表的主要学术论文 |
攻读学位期间参与的科研项目 |
学位论文评阅及答辩情况表 |
(6)面向古汉语语义理解的自然语言处理技术研究与实现(论文提纲范文)
摘要 |
ABSTRACT |
第一章 绪论 |
1.1 研究背景 |
1.2 研究意义 |
1.3 研究内容 |
1.4 论文结构 |
第二章 相关概念及相关工作 |
2.1 新词发现相关概念及相关工作 |
2.1.1 新词发现相关概念 |
2.1.2 新词发现相关工作 |
2.2 知识图谱相关工作 |
2.3 可视化系统相关工作 |
2.4 深度学习技术相关介绍 |
2.4.1 循环神经网络 |
2.4.2 卷积神经网络 |
2.4.3 注意力机制 |
2.5 本章小结 |
第三章 基于古汉语语料的新词发现方法 |
3.1 模型部分 |
3.1.1 改进的Apriori算法 |
3.1.2 Bi-LSTM-CRF切分概率模型 |
3.1.3 过滤规则 |
3.2 实验部分 |
3.2.1 数据集介绍 |
3.2.2 实验结果 |
3.3 本章小结 |
第四章 古诗词图谱的构建及分析研究 |
4.1 古诗词图谱 |
4.1.1 古诗词图谱的形式化定义 |
4.1.2 古诗词图谱的构建 |
4.1.3 古诗词图谱构建的评测 |
4.2 利用古诗词图谱对诗词进行分析 |
4.2.1 不同因素对诗人情感的影响 |
4.2.2 不同时期对诗人写作风格相似度的影响 |
4.3 古诗词图谱用于推理和分析任务 |
4.3.1 分类模型 |
4.3.2 实验设置 |
4.3.3 实验结果与分析 |
4.4 本章小结 |
第五章 古诗词数据挖掘和知识图谱展示的可视化系统 |
5.1 系统需求分析 |
5.2 系统框架搭建 |
5.2.1 系统环境 |
5.2.2 系统技术视图 |
5.2.3 系统架构设计 |
5.3 系统实现 |
5.3.1 数据存储及数据规模 |
5.3.2 算法模型的集成 |
5.4 系统展示 |
5.5 本章小结 |
第六章 总结与展望 |
6.1 本文总结 |
6.2 未来展望 |
参考文献 |
致谢 |
攻读学位期间发表的学术论文目录 |
(7)电子病历搜索引擎中的新词发现和排序技术研究(论文提纲范文)
摘要 |
abstract |
第一章 绪论 |
1.1 研究的背景及意义 |
1.2 国内外研究历史与现状 |
1.2.1 搜索引擎技术在电子病历中的应用 |
1.2.2 现有研究工作的不足之处 |
1.3 论文的主要研究内容 |
1.4 论文的结构安排 |
第二章 基于词语互信息和左右熵的新词发现改进算法研究 |
2.1 引言 |
2.2 背景技术及解决问题分析 |
2.2.1 相关技术介绍 |
2.2.2 传统中文新词发现算法的缺点 |
2.2.3 基于词语互信息和左右熵的新词发现算法原理介绍 |
2.3 基于词语互信息和左右熵的新词发现改进算法研究 |
2.3.1 预处理改进 |
2.3.2 算法结构改进 |
2.4 实验设计及结果分析 |
2.4.1 实验环境 |
2.4.2 数据集以及预处理 |
2.4.3 实验设计及实验过程 |
2.4.4 实验结果及分析 |
2.5 本章小结 |
第三章 基于AdaRank的电子病历搜索引擎排序算法研究 |
3.1 引言 |
3.2 排序算法问题分析 |
3.2.1 TF-IDF算法 |
3.2.2 BM25 算法 |
3.3 本文用于电子病历搜索的AdaRank算法及实现 |
3.3.1 AdaRank算法原理及优势 |
3.3.2 AdaRank算法在Elasticsearch中的实现 |
3.4 实验设计与结果分析 |
3.4.1 数据集 |
3.4.2 数据标注 |
3.4.3 评估指标 |
3.4.4 对比实验 |
3.4.5 实验结果分析 |
3.5 本章小节 |
第四章 电子病历搜索引擎系统设计与实现 |
4.1 系统需求分析 |
4.2 系统逻辑架构设计 |
4.3 系统设计 |
4.3.1 系统架构设计 |
4.3.2 系统数据库设计 |
4.3.3 Web接口设计 |
4.3.4 算法服务器设计 |
4.4 系统实现 |
4.4.1 硬件环境 |
4.4.2 软件环境 |
4.4.3 Elasticsearch环境的搭建 |
4.4.4 Elasticsearch中插件的安装 |
4.4.5 电子病历部分字段的结构化 |
4.5 系统测试 |
4.6 本章小结 |
第五章 总结与展望 |
5.1 总结 |
5.2 展望 |
致谢 |
参考文献 |
(8)扩展词典与规则结合的微博情感分类研究(论文提纲范文)
摘要 |
ABSTRACT |
第一章 绪论 |
1.1 研究背景及意义 |
1.2 国内外研究现状 |
1.3 本文研究内容及章节安排 |
第二章 相关理论技术 |
2.1 文本情感分类相关研究 |
2.2 微博文本预处理 |
2.2.1 中文柔性匹配算法 |
2.2.2 中文分词以及词性标注 |
2.2.3 情感分类特征选择 |
2.3 情感词典构造方法 |
2.4 微博文本情感分类方法 |
2.4.1 基于词典的情感分类方法 |
2.4.2 基于机器学习的情感分类方法 |
2.5 本章小结 |
第三章 微博情感分类词典构建 |
3.1 情感词典概述 |
3.2 微博专用情感词典构建流程 |
3.2.1 基础情感词典构建 |
3.2.2 表情符号情感词典构建 |
3.2.3 网络情感词典构建 |
3.2.4 程度副词和否定词词典 |
3.3 基于PMI与 Hownet相似度结合的情感词典扩充方法 |
3.3.1 利用PMI扩展情感词典 |
3.3.2 利用Hownet相似度合并词典 |
3.4 实验结果分析 |
3.4.1 数据准备 |
3.4.2 性能评估指标 |
3.4.3 实验与分析 |
3.5 本章小结 |
第四章 情感词典与规则结合的情感分类方法 |
4.1 词典与规则结合方法概述 |
4.2 微博文本语义规则分析 |
4.2.1 情感单元组合类型分析 |
4.2.2 情感单元情感判定规则分析 |
4.2.3 情感单元情感值计算规则 |
4.2.4 微博文本情感分类 |
4.3 基于机器学习的分类方法 |
4.3.1 情感分类特征选择 |
4.3.2 朴素贝叶斯分类方法 |
4.3.3 基于KNN分类方法 |
4.3.4 基于SVM分类方法 |
4.4 实验结果与分析 |
4.4.1 实验数据准备 |
4.4.2 性能评估指标 |
4.4.3 实验结果与分析 |
4.5 本章小结 |
第五章 总结与展望 |
5.1 总结 |
5.2 展望 |
参考文献 |
附录 作者在读期间发表的学术论文及参加的科研项目 |
致谢 |
(9)基于多部情感词典和深度学习的中文微博情感分析研究(论文提纲范文)
摘要 |
Abstract |
1 绪论 |
1.1 研究背景和意义 |
1.2 国内外研究现状 |
1.2.1 基于词典的方法进行情感分析发展现状 |
1.2.2 基于机器学习的方法进行情感分析发展现状 |
1.2.3 其他的方法进行情感分析发展现状 |
1.3 主要研究内容 |
1.4 本文章节结构 |
2 情感分析相关理论介绍 |
2.1 情感分析概述 |
2.2 文本预处理 |
2.2.1 微博数据处理 |
2.2.2 中文分词 |
2.2.3 删除停用词 |
2.2.4 词性标注 |
2.3 文本表示方法 |
2.3.1 向量空间模型 |
2.3.2 主题模型 |
2.3.3 布尔模型 |
2.4 文本特征提取 |
2.4.1 卡方统计量 |
2.4.2 信息增益 |
2.5 情感分析方法 |
2.5.1 基于情感词典的方法 |
2.5.2 基于机器学习的方法 |
2.5.3 基于深度学习的方法 |
2.6 本章小结 |
3 基于多部情感词典与规则集的中文微博情感分析 |
3.1 多部情感词典的构造 |
3.1.1 原始情感词典 |
3.1.2 否定词和双重否定词词典 |
3.1.3 副词词典 |
3.1.4 连词词典 |
3.1.5 微博表情符号词典 |
3.2 微博新词情感词典的构造 |
3.2.1 微博新词的挖掘 |
3.2.2 改进的PMI算法和微博新词情感判断 |
3.3 微博文本语义规则集的情感分析 |
3.3.1 句间分析规则 |
3.3.2 句型分析规则 |
3.4 微博情感计算的算法 |
3.5 实验与分析 |
3.5.1 实验数据 |
3.5.2 实验设置 |
3.5.3 实验结果和分析 |
3.6 本章小结 |
4 基于深度学习的中文微博情感分析 |
4.1 深度学习模型流程 |
4.1.1 数据获取与预处理 |
4.1.2 文本向量化表示 |
4.2 CNN-LSTM情感分类模型 |
4.2.1 CNN分类模型 |
4.2.2 LSTM分类模型 |
4.2.3 CNN-LSTM分类模型 |
4.3 实验与分析 |
4.3.1 实验数据 |
4.3.2 实验设置 |
4.3.3 实验结果与分析 |
4.4 本章小结 |
5 总结与展望 |
5.1 本文工作 |
5.2 未来工作展望 |
参考文献 |
致谢 |
作者简介及读研期间主要科研成果 |
(10)面向图文混排数据的多模态信息融合标注系统研究与实现(论文提纲范文)
摘要 |
abstract |
第一章 绪论 |
1.1 研究背景与研究意义 |
1.2 国内外研究现状 |
1.2.1 人工图像标注 |
1.2.2 图像自动标注 |
1.2.3 图文混排信息图像标注 |
1.3 论文的主要工作 |
1.4 本文的组织结构 |
1.5 本章小结 |
第二章 图文混排数据的多模态标注方法原理 |
2.1 印刷体文档版面分析 |
2.1.1 自顶向下的方法 |
2.1.2 自底向上的方法 |
2.1.3 混合型版面分析方法 |
2.2 多特征提取 |
2.2.1 多尺度图像特征 |
2.2.2 词袋模型 |
2.2.3 Word2vec |
2.3 多模态信息融合标注 |
2.3.1 特征融合标注 |
2.3.2 决策融合标注 |
2.4 本章小结 |
第三章 基于版面分析的自适应图文分离 |
3.1 引言 |
3.2 图文混排书籍的采集与数字化 |
3.3 图文混排书籍的版面分析 |
3.3.1 图像预处理 |
3.3.2 图像区域检测 |
3.3.3 文本区域检测 |
3.4 基于CRNN的文本识别 |
3.5 本章小结 |
第四章 面向领域词库构建的新词发现算法 |
4.1 引言 |
4.2 领域词库构建 |
4.3 基于混合策略的新词发现算法 |
4.3.1 文本预处理 |
4.3.2 基于混合策略的新词发现 |
4.4 实验结果与分析 |
4.4.1 数据集 |
4.4.2 评价指标 |
4.4.3 实验结果 |
4.5 本章小结 |
第五章 多模态信息融合的图像标注 |
5.1 引言 |
5.2 文本关键词标注 |
5.2.1 文本预处理 |
5.2.2 基于位置和语义信息的文本关键词提取 |
5.3 基于ML-KNN图像多标签标注 |
5.4 多模态标注信息融合 |
5.4.1 PageRank基本原理 |
5.4.2 基于PageRank的标注信息融合 |
5.5 实验结果与分析 |
5.5.1 数据集 |
5.5.2 评价指标 |
5.5.3 实验结果 |
5.6 本章小结 |
第六章 人文艺术书籍标注系统设计与实现 |
6.1 人文艺术书籍标注系统需求分析 |
6.2 人文艺术书籍标注系统概要设计 |
6.2.1 标注系统架构 |
6.2.2 系统环境配置 |
6.3 人文艺术书籍标注系统详细设计与实现 |
6.3.1 数据处理模块 |
6.3.2 数据存储模块 |
6.3.3 数据展示模块 |
6.4 人文艺术书籍标注系统测试 |
6.5 本章小结 |
第七章 总结与展望 |
参考文献 |
致谢 |
攻读学位期间发表的学术论文目录 |
四、一个中文新词识别特征的研究(论文参考文献)
- [1]中文新词发现算法改进及其在微博舆情分析中的应用[D]. 普晟昱. 南京信息工程大学, 2021
- [2]面向新闻文本的中文分词方法研究[D]. 王丽. 长江大学, 2021
- [3]中文短文本情感分析关键问题研究[D]. 张爽. 西北大学, 2021(12)
- [4]科研成果隐性知识刻画方法与应用研究[D]. 曹敏. 江汉大学, 2021(01)
- [5]专业领域新词发现及向量化问题研究[D]. 潘韦. 山东大学, 2021(12)
- [6]面向古汉语语义理解的自然语言处理技术研究与实现[D]. 刘昱彤. 北京邮电大学, 2021(01)
- [7]电子病历搜索引擎中的新词发现和排序技术研究[D]. 吴进发. 电子科技大学, 2021(01)
- [8]扩展词典与规则结合的微博情感分类研究[D]. 郝苗. 杭州电子科技大学, 2020(04)
- [9]基于多部情感词典和深度学习的中文微博情感分析研究[D]. 吴杰胜. 安徽理工大学, 2020(04)
- [10]面向图文混排数据的多模态信息融合标注系统研究与实现[D]. 李宁. 北京邮电大学, 2020(05)