一、全信息理论在自动文摘系统中的应用(论文文献综述)
孙月萍[1](2014)在《基于全信息的社区问答系统研究》文中认为随着Web2.0技术的迅速发展,人们在网络上进行交互越来越便利。越来越多的用户在遇到问题时,会在各种社区网络中用自然语句提出问题寻求答案,同时也有越来越多的用户回答这些问题。当用户提出一个问题时,需要耐心等待他人的回答,但其实有不少问题可能在此之前已有其他用户以某种方式提出过,并已经有了答案。那么,如何有效利用社区中已有的问题-答案偶对数据,快速为用户新提出的问题推荐合适的答案,即所谓社区问答,成为一个非常有价值的应用,得到越来越多的关注。本文针对现有社区问答系统研究中的一些不足,基于全信息理论发展社区问答中的问题相似度计算以及候选答案排序等关键技术,并基于此构建社区问答系统。具体而言,本文的主要研究工作和成果包括:提出了一种结合相似性转移假设的问题相似度计算模型。所谓相似性转移假设是指“问题相似则答案相似”。已有的问题相似度计算模型一般将此假设作为隐含的前提,并不考察具体的相似度计算模型是否真的满足此假设。本文首次将此假设作为一个寻找好的相似度计算模型的约束,并定义了一个基于皮尔逊相关系数的平均相关度度量来衡量相似度模型满足该假设的好坏程度。实验结果表明,平均相关度较高的相似度计算模型所推荐的答案的准确率也较高,最大性能提高可达16.79%。这表明通过将“问题相似则答案相似”作为约束条件,可以有助于找到较优的问题相似度度量。-提出了一种基于全信息的问题相似度计算模型。该模型综合利用语法信息、语义信息以及语用信息等多种信息进行问题相似度计算。在此基础上,为了简化整合模型的参数训练过程,依据各类特征的重要性,进一步提出了一个简化的相似度计算模型——基于word2vec扩展的VSM模型。实验结果显示,在基于全信息的整合模型中,最优模型平均准确率(avgP@1)达到0.4586,比基础模型VSM提高了8.986%,表明在词汇特征的基础上加入词汇语义信息以及部分句法分析结果中的信息,会取得较好的效果。其中,基于词汇语义的信息助益较大。简化模型与VSM模型相比其avgP@3提高了33.60%。提出了一种基于语用信息的候选答案排序模型。在社区问答中,一方面,由于答案都是由社区用户提供的,因此答案提供者的权威性直接影响答案质量;另一方面,其他用户对答案提供者所提供的答案也会进行评价,这种评价信息对于评价答案质量显然也是有直接帮助的。这两类信息都是与用户相关的语用信息。本模型将这两类语用信息与其他已有特征相结合,进行候选答案的排序。在Yahoo!Answer数据集上的实验结果表明,在基于文本内容相似模型的基础上,引入语用信息会显着提高答案排序的性能。通过调整参数加强语用信息的影响时,会逐步提高排序的准确率,且候选答案数量N越大,提高越为显着。同时加入两类语用信息的模型的性能优于单独加入某一类语用信息的模型。当N=9时,最优模型比两个基础模型分别提高了50.00%和40.00%。设计并实现了一个基于全信息的社区问答原型系统。该系统综合应用了上述的问题相似度计算以及候选答案排序模型为用户新提问题推荐合适的答案。而在不能找到相似问题时,需要借助于外部信息寻求其答案,即需要把封闭的基于全信息的社区问答系统发展为开放式问答系统。此时需要对问题进行意图解析。本文为此提出了一种基于全信息的问题意图解析方法,将抽象的问题意图表达为具体的四个要素,即:问题类型,问题关键,问题焦点和问题领域,并对四要素获取的方法提出了建议。
张瑞玲[2](2014)在《教学资源自动文摘系统的研究与设计》文中提出随着教育信息化的迅速发展,网络成为获取教学资源越来越重要的途径,电子格式学习资源的数量也越来越庞大。然而,庞大的资料数目为学习者提供宽广选择范围的同时也降低了筛选效率。从海量信息中快速选择出所需资源变得越来越重要。自动文摘技术能够对文档内容进行压缩和筛选,提炼出原始文档的核心内容,帮助用户快速了解文章主要内容,进而对文章进行筛选。本文在现有自动文摘技术基本概念和方法的基础上,通过对国内外研究成果的分析梳理,对汉语特征词提取算法以及文章主题句抽取多种方法进行了分析研究。在关键词抽取和文摘句提取的算法选择方面,本文主要采用了基于词频的计算方法对文章进行关键词提取,并使用综合词权、位置、句型等多种特征的方法计算文章中每个句子的权重。最后,本文以思源网络教学平台为依托实现了一个实验性质的自动文摘系统,该系统能够生成效果较好的自动文摘。系统首先对获取的教学资源文档进行文本格式转换,提取出其中的纯文本内容以备后续分析使用。对于符合条件且需要生成自动文摘的文档资源,系统会对其篇章结构进行浅层分析。分词是自动文摘技术的重要前提,本文选用分词效果较好的中科院汉语分词系统,并使用人工语料库进行文章关键词和候选文摘句的提取。然后通过基于语义词典的语义相似度计算方法降低同义句造成的冗余,并根据预定义的简单关联词规则对所生成自动文摘进行连贯性处理,提高其可读性。系统最后能够实现关键词和自动文摘的双重呈现。
陈劲光[3](2011)在《基于云模型的中文面向查询多文档自动文摘研究》文中研究表明随着互联网的普及,互联网上包含着海量的并且时刻在增加的信息。针对用户输入的一个简单查询,搜索引擎一般会返回用户可能需要的一系列经过排序的网页,其中有大量不相关的、重复的数据,需要用户耗费很多精力来自己查找有用的结果。面向查询的多文档自动文摘技术将大量的查询相关文档中的内容提炼、重组为一定长度的简短摘要,加速用户的信息获取,通常要求摘要的内容简洁、组织良好、冗余低、满足个性化需求。面向查询的多文档自动文摘技术能够减小从海量数据中获取信息的难度,提高信息获取及理解的速度,进而提高用户获取以及利用信息的效率,提高使用者在信息社会中的竞争实力。云模型是李德毅院士提出的一种处理不确定性概念中模糊性、随机性及其关联性的定性定量转换模型。云模型从研究自然语言概念的不确定性入手,展开对不确定性人工智能的研究。虽然云模型发端于自然语言中的概念,但遗憾的是,就目前搜集到的论文情况看来,将云模型直接应用在自然语言处理领域本身的工作还比较少见。本论文针对中文语料中的面向查询多文档自动文摘展开了研究。首先构建可以用于公开评测的评测语料、人工摘要;在此基础上利用云模型进行文摘内容选取、句子修剪、句子排序,力图生成满足用户需求的聚焦度高、内容精练、可读性好的连贯摘要;最后采用修改后的ROUGE工具进行中文文摘自动评测。本文主要研究工作和研究成果概括如下:一、提出了一种基于云模型的文摘单元选取方法,利用云模型,全面考虑文摘单元的随机性和模糊性,提高面向查询的多文档自动文摘系统的性能。首先计算文摘单元和查询条件的相关性,将文摘单元和各个查询词的相关度看成云滴,通过对云的不确定性的计算,找出与查询条件真正意义相关的文摘单元。随后利用文档集合重要度对查询相关的结果进行修正,将文摘句和其他各文摘句的相似度看成云滴,利用云的数字特征计算句子重要度,找出能够概括尽可能多的文档集合内容的句子,避免片面地只从某一个方面回答查询问题。为了证明文摘单元选取方法的有效性,在英文大规模公开语料上进行了实验,并参加了国际自动文摘公开评测,取得了较好的成绩。二、构建了中文自动文摘评测语料库及中文自动评测工具,并以此为基础,构建了一种基于云模型的中文面向查询多文档自动文摘系统。中文自动文摘评测语料库由1000篇文档、100个文档集合和查询条件、400篇人工摘要构成。通过修改英文文摘评测工具ROUGE的源程序,实现了中文自动文摘的ROUGE自动评测。首先将50个文档集合作为训练语料,采用哈工大最新共享的语言技术平台进行句子切分、分词;随后利用中文自动评测工具,在测试语料中进行参数训练;最后采用基于云模型的文摘单元选取方法生成中文摘要,就此搭建了中文云摘要系统。三、提出了一种基于多维云和依存分析的中文句子修剪方法,进一步提高文摘质量。首先制定基于依存分析的句子修剪规则,对每个候选文摘句进行句子修剪,从而产生多候选句;随后利用多维云,综合考虑词语在句子、文档集合中的分布以及和查询条件的相关性,对各修剪句进行打分,在云的叠加过程中实现了不确定性的有效传递;最后选取那些包含信息量最大、长度最短的修剪句替换候选文摘句,构成自动摘要,从而使文摘包含更多的有效信息。四、提出了一种基于云模板的文摘句排序方法,使生成的中文云摘要更加连贯。云模板的方法将文档集合中的每一篇文档都看成模板,利用云模型将各篇文档的排序结果综合到一起,既避免了单一模板方法对于单个文档的依赖,也避免了多数次序方法只能两两排序的缺点。首先利用基于复杂网络的自适应增量聚类方法对文档集合进行聚类,找出那些包含有一个或多个文摘句的子主题;随后将文档集合中的每一篇文档都看作模板,利用这些模板构成的云确定子主题和文摘句在模板中的相对位置;最后依次对子主题以及对子主题内部的句子进行排序,从而生成连贯性更好、可读性更强的自动摘要。
朱慧[4](2011)在《基于舆情分析研判的突发事件预警平台的设计与实现》文中进行了进一步梳理目前,互联网上的信息迅速增长,舆情分析研判已成为人们获取信息最经济快捷的方式之一。但传统舆情分析研判存在返回结果量大、准确度不太高的缺陷,耗费了用户的时间和精力。舆情分析研判的质量受很多因素影响,从数据源的角度看,网页舆情分析研判的突发群体性事件预警噪声会影响对网页舆情分析研判的突发群体性事件预警主题的索引,降低搜索准确性;从搜索返回结果看,链接注释对用户选择点击链接起关键提示作用,低质量的注释很可能会误导用户。本文从Web页面解析去噪和网页舆情分析研判的突发群体性事件预警自动文摘技术两方面来探索提高舆情分析研判质量的途径。本文设计并实现了一种改进型的网页舆情分析研判的突发群体性事件预警DOM树剪裁去噪方法。该算法通过对互联网主流新闻网站的网页舆情分析研判的突发群体性事件预警源信息流进行统计、分析,将半结构化的HTML源代码解析成一棵精简的DOM树。然后依据噪声与有用信息的差异性构建出DOM树的剪裁去噪策略。该策略在对后续数百万网页舆情分析研判的突发群体性事件预警的实时处理中不断修正,完善,并逐渐将网页舆情分析研判的突发群体性事件预警去噪范围扩展到整个互联网。该去噪方式,不受网页舆情分析研判的突发群体性事件预警风格的限制,具有比较高的质量和效率。上述去噪技术有三个特点:①双重网页舆情分析研判的突发群体性事件预警类型判断策略,其判断正确率为95.20%。②双重网页舆情分析研判的突发群体性事件预警正文定位机制,其正文准确召回率为95.048%。③提出了八项网页舆情分析研判的突发群体性事件预警去噪质量评估指标,使得质量评估更准确、全面。在网页舆情分析研判的突发群体性事件预警去噪的基础上,本文设计并实现了一种基于自动摘录和篇章结构相结合的网页舆情分析研判的突发群体性事件预警自动文摘技术。该技术具有领域不受限和高效的优点。用类似于提取网页舆情分析研判的突发群体性事件预警全文摘要的方式,本文提取了网页舆情分析研判的突发群体性事件预警多主题摘要,并提出将其作为舆情分析研判返回结果链接注释的特色应用。该注释方式与传统的链接注释相比能更好的吻合用户的搜索意念。
蒋昌金[5](2010)在《基于关键词提取的中文网页自动文摘方法研究》文中提出自动文摘是指由计算机将文本的中心思想或用户所需要的内容,用相同于或不同于原文的句子自动提取出来。自动文摘的生成过程,可分为文本的分析与理解、主题信息的获得和选取以及摘要的生成三个主要步骤。自动文摘的大致发展历程为:早期的基于统计的机械式自动文摘时期(如词频统计法,句子位置法);七、八十年代的基于知识表示的(如脚本、框架、模板或一阶谓词)理解型自动文摘时期;九十年代的基于信息检索的自动文摘时期;进入二十一世纪以来,融合自然语言理解与人工智能方法的综合型自动文摘时期。从自动文摘的发展历程可知:使用某种单一技术的自动文摘,信息的全面性和准确性都不高。本文主要综合利用文本浅层信息、文本语义信息、知识库方法以及人工智能技术等来获取中文网页的自动文摘。本文首先分析了文本中表达主题的词汇的本质特征,利用这些特征提出了一个词语权重计算方法,该方法能使表达主题的词汇权重更高;在此基础之上,提出了一种对问句进行分析的方法;在分析文本主题信息、语义信息等的基础上,提出了一种发现文本中最能表达主题的重要句子的方法,并运用该方法来生成自动文摘;最后提出一种毗邻段落聚类算法来提高自动文摘的质量。本文的主要创新点如下:1、针对现有的中文关键词提取方法准确率不高的现状,通过分析分词系统的影响、同义词现象和一词多义现象等因素,提出了一种能使表达主题的关键词汇或短语有着更高权值的方法。该方法首先通过组合词提取算法识别文本中的组合词和新词,然后利用构造的有着上下文的同义词集,合并同义词的词频,避免同义词在输出结果中同现,最后利用词频、词性、词长、词的位置等综合信息来计算文本中词语的权值。实验结果表明,此方法能够较好地识别文本中的关键词,与基于改进的TF-IDF方法相比,本方法具有一定的优势。2、提出了一种基于领域词典和问题类别对照表的中文问句分析方法。该方法在对问句进行分词、词性标注之后,提取出其中的名词、动词、形容词等实词成分,去掉虚词成分,组成一个初始查询向量。然后对初始查询向量进行同义词扩展,该扩展能使得查询返回更多的结果。最后对扩展查询向量进行问句类型关联词扩展,以限制返回结果必须含有该问句所在类型的词汇,以提高查询的准确率。实验表明,对查询向量的两次扩展确实能提高查询返回结果的质量。3、针对现有中文自动文摘系统过于依赖标题信息的缺陷以及用户对多样化文摘的旺盛需求这一现状,提出了一种基于主题词权重和句子特征的句子权重计算方法。该方法首先使用词语权重计算公式计算词语权重,然后根据标题的类型信息以及代表用户偏好的词汇信息等修改词语的权重。再利用修改的词语权重和各种句子特征来计算句子基于内容、位置、线索词和用户偏好的权值,最后通过一个拟合函数对这四种权值进行拟合来获得句子的最终权值。实验数据证明,用该方法计算句子权重获取的文摘要优于基于改进的TF-ISF方法的文摘。4、针对现行的基于准确率、召回率的文摘评价方法只能从句子的粒度对文摘进行评价的缺陷,提出了一种基于词粒度的文摘评价方法。该方法首先定义了广义多重集的“交”和“并”的运算,然后将人工文摘和机器文摘表示成为一个广义多重集。在此基础之上,重新定义了准确率、召回率和F值计算公式,并用它来进行文摘的评估。由于该方法可以避免内容基本相同但是句子不同的两篇文摘评估结果悬殊的问题,因而用改进的公式计算文摘的准确率和召回率更加合理。5、针对现有的文本聚类算法计算量大、算法复杂度高、对初始类的选取过于敏感等缺陷,提出了一种毗邻段落聚类算法。该算法的思想是:首先选取文本的第一个段落作为第一个聚类;对于以后的段落,计算其跟与之相邻的前一段落的相似度,若该相似度大于某一阈值,则将该段归入它的前一段所在的类;否则,创建一个新的类,将该段加入其中,直至处理完所有段落。实验数据表明,毗邻段落聚类算法不但算法复杂度低、易于操作,而且能取得和着名的K-Means算法相当的段落聚类质量。
乔小斐[6](2010)在《中文自动文摘关键技术的研究与实现》文中提出现有中文自动文摘技术存在原文内容覆盖不全面以及信息冗余的问题。针对上述问题,本文开展了相关的研究工作。结合已有的“统计全切分中文分词系统”,本文首先提出了基于通用分词词典的最长组合模式逆向匹配算法来修正通用分词词典分词粒度过细的问题,并在分词的基础上进行特征计算与筛选,将文本以特征词表示。此后设计了基于形式特征的语句加权函数应用于分句过程,并且结合最大边缘相关(Maximal Marginal Relevance, MMR)思想提出了应用于自动文摘的MMR公式以降低文摘的冗余,并将该公式作为语句评价标准,据此给出了一种新的文摘句选取算法。最后本文阐述了一个中文自动文摘系统的设计与实现,并通过实验证明由本系统抽取的文摘具有良好的完备性和低冗余性。
张元虹[7](2009)在《基于主题划分的中文单文档自动文摘系统的研究》文中研究指明自动文摘作为自然语言处理领域的一个重要应用,也是一项极具难度和挑战性的工作,在信息检索、信息管理、数字图书馆等领域有着广泛的应用。因此,对自动文摘的研究具有很大的理论意义和实际意义。基于统计的自动文摘是一种研究较早、并被广泛使用的文摘方法。这种方法的一大优点就是领域不受限制,不同领域的文章都可以使用此种方法进行文摘。但是这种方法的文摘又存在着不全面、不简洁和不连贯三个方面的缺点,使得摘要的结果不太尽人意。本文以统计的自动文摘方法为基础,将主题划分和摘要句优化两部分技术溶入基于统计的自动文摘方法中,使生成的摘要更全面、简洁、连贯。本文的研究内容主要包括以下几个方面:1.提出了使用改进的K-means算法来划分文本的主题,使抽取出的摘要句更加全面。2.在生成粗摘要句的基础上对粗摘要句进行优化处理,使输出的摘要句更简洁、连贯。3.在以上两步的基础上,开发一个中文单文档自动文摘原型系统。对该系统,运用内部评测手段评估系统的性能,包括与“理想”摘要对比和与机械式自动文摘以及Word2003自动摘要系统进行了比较,试验结果证明,本系统性能指标优于机械式自动文摘和Word2003自动文摘系统。
李艳梅[8](2009)在《基于文本相似度的中文文本聚类的研究》文中认为文本聚类是文本挖掘和信息检索领域的重要研究课题,而中文自动分词、特征选择和相似度计算等是中文文本聚类研究的关键技术。本文详细综述了文本聚类技术的相关研究;研究了中文未登录词识别和歧义消解;研究和分析比较了常用的特征选择方法和特征抽取方法;研究并改进了TF-IDF算法,并通过实验证明改进后的算法能够取得更好的效果;研究并分析了文本聚类的常用方法以及效果评价方法,并利用文本相似度矩阵进行文本聚类,实验证明改进的算法能够有效地改进文本聚类的准确性,尤其是文本集合比较小的时候;最后,深入分析了多文档文摘的关键技术,以及在文本聚类中的应用。本文的研究对中文文本聚类技术的具体应用诸如文本挖掘、信息检索等都具有借鉴意义。
赵林[9](2008)在《面向查询的多文档自动文摘关键技术研究》文中研究表明随着互联网的迅速发展和文本信息的日益增多,从大量信息中快速查找和获取有用信息的迫切需求使得自动文摘技术日益重要。自动文摘是指由计算机自动从一篇或多篇文本中概括出主要内容,从而把大量原来需要用户来完成的工作都交给计算机自动完成,节省了用户浏览信息的时间,减轻了用户负担。这个任务涉及到文本理解、文本生成等自然语言处理领域的多个方面,对于计算机具有很大的挑战性。本文正是在这种前提下,对自动文摘技术进行了探索性研究。本文在面向查询的多文档自动文摘方面以及文摘连贯性的自动评价方面做了深入的研究工作。我们在这两年参加文摘方面的国际评测会议DUC的基础上,研究并实现了多种面向查询的多文档自动文摘技术。我们采用了最大熵模型来实现基于机器学习的自动文摘系统。为了进一步找出文档句之间以及句子与查询之间的语义关联,我们提出了一种在文摘系统中进行语义扩展的方法,该方法通过WordNet中定义的同义词集以及词与词之间的语义关系,对传统的基于词的句子向量进行语义扩展,从而将语义信息融入到句子中,使得系统性能比起语义扩展前得到了显着提高。本文还提出了一种基于图排序算法的查询扩展方法,将其结合到面向查询的自动文摘系统中,可以很好的解决原始查询中通常包含信息量不足的问题。该扩展方法在句一句关系以及句一词关系的基础上利用上下文信息对查询进行扩展,能够以较少的噪声获取到更多相关信息。加入了查询扩展后的文摘系统在性能上比扩展前有明显的提高,在DUC标准评测语料上达到了目前的最好结果,充分表明了该查询扩展方法的有效性。自动文摘研究的另一个主要方面是文摘的评测。当前对文摘的自动评测主要在于考察文摘的内容覆盖率,对文摘语言质量如可读性、连贯性等方面的评测则由人工完成,由于需要消耗大量人力而且缺乏客观性,使得人工评测方法不能普及,所以如何能对文摘的语言质量进行自动评测是一个重要研究问题。本文提出了一种对文摘连贯性的自动评价模型。在文摘连贯性的自动评价上,我们对基于实体的连贯性基本模型从特征和实体选取等方面做了深入研究,通过考虑网格中的邻居以及非相邻句等信息对原有实体转移特征进行了细化;分析了实体选择在模型中的重要性,并且通过潜在语义分析重新建立了实体网格,从而对原有模型进行了改进,在实验中获得了更高的准确率。
朱荷香[10](2008)在《中文自动文摘系统的研究与实现》文中研究表明自动文摘是自然语言处理领域里一项重要的研究课题。近年来,随着Intemet的蓬勃发展,信息量激增,文献数量呈指数级增长。作为解决信息过载问题的一种辅助手段,自动文摘的价值得到越来越充分的体现,它能够帮助用户提高信息检索的速度,节省重要信息的浏览时间。自动文摘和语义密切相关,而传统的机械文摘方法通过建立基于词频统计的向量空间模型进行文摘句的抽取。向量空间模型的最基本假设是向量各义项之间正交,而在真实文本中,由于语言表达形式的多样性,即使同一概念,往往有多种不同的表达方式,所以作为各义项的词语之间往往有很大的相关性,并不是完全独立的。另外,一篇文章一般包含一个总的主旨,而作者往往会从多个侧面来说明这一主旨。如果只根据句子在全文中的重要性从高到低抽取文摘,往往只能提取出文章中分布密度比较大的主题,而忽略了其它主题的存在,完整性不高。致力于上述问题的解决,本文采用统计信息和语义知识相结合的方法,提出了基于概念统计和文本结构划分相结合的自动文摘方法,并实现了原型系统。具体工作内容如下:首先,对国内外自动文摘研究的历史与现状进行了回顾和总结,介绍了向量空间模型、中文词法分析和自动文摘系统评测等相关理论。然后,基于哈工大信息检索研究室《同义词词林扩展版》将概念统计引入自动文摘的研究,利用最大匹配算法初步解决了概念获取过程中一词多义的问题。为使文摘能够更全面地覆盖原文的主要内容,提出了一种利用综合考察相邻段落相似度和连续段落平均相似度进行意义段划分的方法,对文本结构划分进行研究。最后,实现了基于概念统计和文本结构划分相结合的自动文摘系统。在对文摘系统进行评测时,为使评测方案更加客观公平合理,设计了针对评测语料特点的评测指标。为了验证基于概念统计和文本结构划分相结合的自动文摘方法的有效性和可行性,分别对传统的自动文摘方法、基于概念统计的自动文摘方法和本文方法进行了对比实验。实验结果显示,本文方法能有效地反映文章的内容结构,在所有文章上的效果均好于传统的文摘方法,特别是随着文摘长度的增加,本文方法的效果更加明显;对长文章和短文章均适用。另外,通过与现有的其他文摘工具进行对比,表明本文方法接近于哈工大信息检索研究室开发的IRLab-NLPML系统的自动文摘功能,且优于WORD中嵌入的自动编写摘要功能。
二、全信息理论在自动文摘系统中的应用(论文开题报告)
(1)论文研究背景及目的
此处内容要求:
首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。
写法范例:
本文主要提出一款精简64位RISC处理器存储管理单元结构并详细分析其设计过程。在该MMU结构中,TLB采用叁个分离的TLB,TLB采用基于内容查找的相联存储器并行查找,支持粗粒度为64KB和细粒度为4KB两种页面大小,采用多级分层页表结构映射地址空间,并详细论述了四级页表转换过程,TLB结构组织等。该MMU结构将作为该处理器存储系统实现的一个重要组成部分。
(2)本文研究方法
调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。
观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。
实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。
文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。
实证研究法:依据现有的科学理论和实践的需要提出设计。
定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。
定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。
跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。
功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。
模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。
三、全信息理论在自动文摘系统中的应用(论文提纲范文)
(1)基于全信息的社区问答系统研究(论文提纲范文)
摘要 |
ABSTRACT |
第一章 绪论 |
1.1 研究背景及意义 |
1.2 研究现状及问题 |
1.2.1 CQA主要研究任务 |
1.2.2 问题相似度分析的研究现状 |
1.2.3 候选答案排序的研究现状 |
1.2.4 研究问题 |
1.3 全信息理论与CQA |
1.3.1 全信息理论简介 |
1.3.2 全信息理论应用于CQA |
1.4 研究内容与章节安排 |
第二章 基础模型 |
2.1 文本表示模型 |
2.1.1 向量空间模型 |
2.1.2 词表示模型 |
2.2 文本相似度计算方法 |
2.2.1 语言模型 |
2.2.2 基于句法分析的模型 |
2.2.3 BM25模型 |
2.2.4 语言模型与翻译模型的结合模型 |
2.2.6 主题模型 |
2.3 本章小结 |
第三章 结合相似性转移假设的问题相似度建模 |
3.1 背景与动机 |
3.2 结合相似性转移假设的问题相似度模型 |
3.2.1 模型分析 |
3.2.2 算法流程 |
3.3 实验 |
3.3.1 实验数据 |
3.3.2 实验设计 |
3.4 实验结果及分析 |
3.4.1 基础模型平均相关度 |
3.4.2 整合模型平均相关度 |
3.4.3 整合模型准确率 |
3.5 本章小结 |
第四章 基于全信息的问题相似度模型 |
4.1 背景与动机 |
4.2 基于全信息的问题相似度模型 |
4.2.1 基于全信息的整合模型 |
4.2.2 基于全信息的简化模型 |
4.3 实验 |
4.3.1 实验数据 |
4.3.2 实验设计 |
4.4 实验结果及分析 |
4.4.1 基于全信息的整合模型 |
4.4.2 基于全信息的简化模型 |
4.5 本章小结 |
第五章 基于语用信息的候选答案排序模型 |
5.1 背景与动机 |
5.2 基于语用信息的候选答案排序模型 |
5.2.1 BM25算法 |
5.2.2 基于全信息的改进BM25算法 |
5.3 实验 |
5.3.1 实验数据 |
5.3.2 实验设计 |
5.4 实验结果及分析 |
5.4.1 基础实验 |
5.4.2 加入第一类语用信息——用户反馈 |
5.4.3 加入第二类语用信息——问题专家 |
5.4.4 同时加入第一类和第二类语用信息 |
5.5 本章小结 |
第六章 基于全信息的CQA系统 |
6.1 CQA系统的设计与实现 |
6.1.1 系统设计 |
6.1.2 系统实现 |
6.1.3 系统展示 |
6.2 开放式CQA系统设计 |
6.2.1 开放式CQA系统设计 |
6.2.2 问题意图解析 |
6.3 本章小结 |
第七章 总结与展望 |
7.1 本文工作总结 |
7.2 下一步研究展望 |
7.2.1 寻找新的异质特征整合策略 |
7.2.2 进一步拓展语用信息在答案排序工作中的应用 |
7.2.3 结合问题意图解析任务建立一体化查询系统 |
参考文献 |
附录 缩略词表 |
致谢 |
攻读学位期间发表的学术论文目录 |
(2)教学资源自动文摘系统的研究与设计(论文提纲范文)
致谢 |
摘要 |
ABSTRACT |
1 绪论 |
1.1 课题的研究背景和研究意义 |
1.2 国内外研究现状 |
1.2.1 国外研究现状 |
1.2.2 国内研究现状 |
1.3 本课题的主要研究内容 |
1.4 论文组织结构 |
2 自动文摘综述 |
2.1 自动文摘简介 |
2.2 自动文摘方法分类 |
2.2.1 基于特征分析方法 |
2.2.2 基于篇章结构方法 |
2.2.3 基于知识理解方法 |
2.2.4 基于框架抽取方法 |
2.3 自动文摘评价 |
2.3.1 内部评价法(Intrinsic methods) |
2.3.2 外部评价法(Extrinsic methods) |
2.3.3 评价方法的选择 |
3 文本预处理及中文分词技术 |
3.1 文本获取 |
3.2 文本结构分析 |
3.3 中文分词技术 |
3.3.1 中文分词算法 |
3.3.2 IKAnalyser分词系统 |
3.3.3 ICTCLAS汉语分词系统 |
4 自动文摘生成技术 |
4.1 特征词提取 |
4.1.1 去高频无意词 |
4.1.2 特征选择算法 |
4.2 主题句抽取 |
4.2.1 主题句抽取方法 |
4.2.2 基于多种因素的句子权重计算方法 |
4.3 相似度处理 |
4.3.1 相似度计算方法 |
4.3.2 常用语义词典 |
4.4 关键词及文摘句输出 |
5 教学资源自动文摘系统的设计与实现 |
5.1 系统总体设计 |
5.2 开发环境 |
5.3 详细设计和实现 |
5.4 实验结果分析 |
5.4.1 关键词抽取实验分析 |
5.4.2 自动文摘结果实验分析 |
6 总结和展望 |
参考文献 |
作者简历 |
学位论文数据集 |
(3)基于云模型的中文面向查询多文档自动文摘研究(论文提纲范文)
摘要 |
Abstract |
第1章 绪论 |
1.1 研究目的与意义 |
1.2 主要内容与基本架构 |
1.3 论文的组织结构 |
第2章 相关研究工作概述 |
2.1 面向查询的自动文摘相关研究概述 |
2.1.1 单文档自动文摘 |
2.1.2 多文档自动文摘 |
2.1.3 面向查询的多文档自动文摘 |
2.1.4 中文面向查询的多文档自动文摘 |
2.2 云模型相关研究概述 |
2.2.1 云模型的理论背景 |
2.2.2 云理论发展历史概述 |
2.2.3 云模型在自然语言处理中的应用 |
2.3 小结 |
第3章 基于云模型的文摘单元选取 |
3.1 文摘单元选取相关研究概述 |
3.1.1 信息抽取与内容融合 |
3.1.2 基于词频的方法 |
3.1.3 基于质心的方法 |
3.1.4 基于图的方法 |
3.1.5 基于潜在语义索引的方法 |
3.2 原型方法——多特征融合的文摘单元选取方法 |
3.2.1 句子的查询独立特征 |
3.2.2 句子的查询相关特征 |
3.2.3 特征融合 |
3.3 改进的方法——基于云模型的文摘单元选取 |
3.3.1 云模型相关理论 |
3.3.2 查询独立云 |
3.3.3 查询相关云 |
3.4 云摘要方法的参数训练过程 |
3.4.1 训练语料和测试语料 |
3.4.2 参数预设 |
3.4.3 训练流程 |
3.4.4 参数训练结果 |
3.5 实验结果 |
3.5.1 云摘要系统整体架构 |
3.5.2 实验过程 |
3.5.3 实验结果 |
3.5.4 参加TAC 2010评测的情况 |
3.6 小结 |
第4章 中文面向查询的多文档自动文摘语料库建设及云摘要系统构建 |
4.1 面向查询的多文档自动文摘语料库建设 |
4.1.1 自动文摘语料相关工作 |
4.1.2 中文面向查询的多文档自动文摘语料库的建立 |
4.2 中文自动文摘评价工具的构建 |
4.2.1 自动文摘评测相关研究 |
4.2.2 中文自动文摘评价工具构建 |
4.3 中文云摘要系统的构建 |
4.3.1 基本架构 |
4.3.2 预处理 |
4.3.3 参数训练过程 |
4.4 实验结果 |
4.4.1 基准系统Coverage-Baseline |
4.4.2 基准系统SumFocus |
4.4.3 实验结果 |
4.5 小结 |
第5章 基于依存分析与多维云的中文句子修剪 |
5.1 句子修剪相关研究工作 |
5.1.1 句子修剪的概念 |
5.1.2 句子修剪相关研究工作 |
5.1.3 自动文摘中的句子修剪相关工作 |
5.1.4 中文句子修剪系统基本架构 |
5.2 基于依存分析的多候选句生成方法 |
5.2.1 依存分析概述 |
5.2.2 多候选句生成过程 |
5.2.3 基于依存分析的人工规则 |
5.2.4 候选句子集合的获得 |
5.3 基于多维云的候选句选取 |
5.3.1 多维云理论概述 |
5.3.2 词语多维云 |
5.3.3 词语云到句子云的跃升 |
5.3.4 基于云相似度和信息密度的候选句选取 |
5.4 实验结果 |
5.4.1 实验过程 |
5.4.2 修剪句质量的人工评价结果 |
5.4.3 文摘质量的自动评价结果 |
5.5 小结 |
第6章 基于云模板的面向查询多文档自动文摘句子排序 |
6.1 句子排序的相关研究 |
6.1.1 句子排序的概念 |
6.1.2 国外相关工作 |
6.1.3 国内相关研究 |
6.2 基本思想和整体架构 |
6.2.1 云模板与多数次序方法的比较 |
6.2.2 云模板方法的基本思想 |
6.2.3 云模板方法的基本架构 |
6.3 基于复杂网络抱团发现的自适应聚类 |
6.3.1 相关研究概述 |
6.3.2 自适应聚类方法 |
6.3.3 自适应聚类结果 |
6.4 基于云模板的句子排序 |
6.4.1 句子相对位置云 |
6.4.2 主题相对位置云 |
6.4.3 文摘句顺序的确定 |
6.5 实验结果 |
6.5.1 实验过程 |
6.5.2 自动评测 |
6.5.3 人工评测 |
6.5.4 句子排序的结果 |
6.6 小结 |
第7章 结论与展望 |
7.1 本文结论 |
7.2 展望 |
参考文献 |
攻读学位期间所发表的论文 |
专利申请情况 |
攻读学位期间参与的项目 |
致谢 |
(4)基于舆情分析研判的突发事件预警平台的设计与实现(论文提纲范文)
摘要 |
Abstract |
第一章 绪论 |
1.1 论文研究背景与意义 |
1.2 信息抽取技术的发展状况 |
1.3 网页舆情分析研判的突发群体性事件预警去噪技术的发展状况 |
1.4 自动文摘技术的发展状况 |
1.4.1 国外自动摘要研究现状 |
1.4.2 国内自动摘要研究现状 |
1.5 本论文的主要研究内容 |
1.6 本论文的章节组织 |
第二章 相关技术基础 |
2.1 引言 |
2.2 标记语言的发展状况 |
2.2.1 标记语言的发展历程 |
2.2.2 HTML 标准简介 |
2.2.3 HTML 与XML 语言的区别 |
2.3 信息抽取的技术现状 |
2.3.1 信息抽取技术的发展状况 |
2.3.2 Web 信息抽取技术的典型步骤 |
2.4 网页舆情分析研判的突发群体性事件预警去噪的技术现状 |
2.4.1 网页舆情分析研判的突发群体性事件预警的模板去噪技术 |
2.4.2 网页舆情分析研判的突发群体性事件预警的可视化去噪技术 |
2.4.3 网页舆情分析研判的突发群体性事件预警的DOM 树剪裁去噪技术 |
2.5 本章小结 |
第三章 突发群体性事件预警去噪的设计与实现 |
3.1 引言 |
3.2 突发群体性事件预警去噪系统需求 |
3.3 HTML 语言的特点及其结构化抽取 |
3.3.1 HTML 标签的分类 |
3.3.2 突发群体性事件预警的结构化抽取 |
3.4 突发群体性事件预警去噪系统设计 |
3.5 建立table 树前的页面预处理 |
3.5.1 统一网页舆情分析研判的突发群体性事件预警编码 |
3.5.2 滤除注释性内容 |
3.5.3 HTML 标签的大小写统一 |
3.5.4 滤除JAVA SCRIPT 标签 |
3.5.5 滤除STYLE 标签 |
3.5.6 突发群体性事件预警标题 |
3.5.7 突发群体性事件预警内容所属领域 |
3.6 突发群体性事件预警类型粗判 |
3.7 突发群体性事件预警系统实现 |
3.7.1 构建table 树 |
3.7.2 table 标签的家族编号 |
3.7.3 table 容器的内容归属 |
3.7.4 突发群体性事件预警类型细判 |
3.7.5 突发群体性事件预警正文相关链接的定义 |
3.7.6 突发群体性事件预警标题剪裁table 树 |
3.7.7 突发群体性事件预警相关超级链接提取 |
第四章 突发群体性事件预警去噪的质量评估 |
4.1 引言 |
4.2 突发群体性事件预警去噪质量的评估方式 |
4.2.1 目前的几种评估方式 |
4.2.2 突发群体性事件预警去噪评估指标 |
4.3 突发群体性事件预警去噪质量的评估结果 |
4.4 突发群体性事件预警去噪模块在项目系统中的应用 |
4.5 本章小结 |
第五章 结论与展望 |
5.1 结论 |
5.2 展望 |
致谢 |
参考文献 |
(5)基于关键词提取的中文网页自动文摘方法研究(论文提纲范文)
摘要 |
ABSTRACT |
第一章 绪论 |
1.1 研究背景及意义 |
1.2 自动文摘的定义及分类 |
1.2.1 自动文摘的定义 |
1.2.2 自动文摘的分类 |
1.3 国内外自动文摘研究的历史与现状 |
1.3.1 国外自动文摘的研究 |
1.3.2 国内自动文摘的研究现状 |
1.4 自动摘要基本方法 |
1.5 自动文摘的相关基础工作 |
1.5.1 文本的向量表示 |
1.5.2 中文分词 |
1.5.3 文本聚类算法 |
1.5.3.1 层次方法 |
1.5.3.2 划分方法 |
1.5.3.3 基于密度的方法 |
1.6 自动文摘的评价 |
1.6.1 评价方法分类 |
1.6.2 基于准确率和召回率的方法 |
1.6.3 基于一致性评价的方法 |
1.6.4 基于内容相似度判别的方法 |
1.7 本文研究内容和组织结构 |
1.7.1 本文的研究内容 |
1.7.2 本文的组织结构 |
第二章 基于组合词和同义词集的中文网页关键词提取算法 |
2.1 概述 |
2.1.1 引言 |
2.1.2 相关工作 |
2.2 相关概念 |
2.3 CWKEACS算法核心技术 |
2.3.1 中文网页的预处理 |
2.3.2 中文组合词提取算法与中文分词修正 |
2.3.3 同义词现象和词形相同、词义不同现象的解决 |
2.3.4 候选关键词综合加权评分 |
2.4 CWKEACS算法 |
2.4.1 CWKEACS算法步骤 |
2.4.2 CWKEACS算法相关变量及函数说明 |
2.5 实验设计和分析 |
2.5.1 语料库的选取 |
2.5.2 CWKEACS算法与KEA5.0 算法的对比实验 |
2.5.3 CWKEACS算法与改进的TF-IDF算法的对比实验 |
2.5.4 CWKEACS算法抽取实例 |
2.6 本章小结 |
第三章 基于关键词提取的问句分析研究 |
3.1 概述 |
3.2 相关研究工作 |
3.3 问句分析系统设计及实现 |
3.3.1 敬语过滤 |
3.3.2 命名实体的识别 |
3.3.3 分词以及词性标注 |
3.3.4 关键词提取 |
3.3.5 问句类别的识别 |
3.3.6 查询关键词的扩展 |
3.3.7 问句分析系统的实现 |
3.4 实验设计及结果分析 |
3.5 讨论 |
3.6 本章小结 |
第四章 基于主题词权重和句子特征的中文网页自动文摘 |
4.1 引言 |
4.2 相关研究工作 |
4.3 关键技术 |
4.3.1 组合词的识别与分词修正 |
4.3.2 词的权重计算 |
4.3.3 句子的权重计算 |
4.3.3.1 基于内容的句子权重 |
4.3.3.2 基于位置的句子权重 |
4.3.3.3 基于线索词的句子权重 |
4.3.3.4 基于用户偏好的句子权重 |
4.3.3.5 句子权重计算 |
4.3.4 文摘的评估方法的改进 |
4.3.4.1 基于准确率和召回率的方法 |
4.3.4.2 基于词粒度的准确率和召回率的方法 |
4.4 系统的实现 |
4.4.1 文档结构初始化 |
4.4.2 分词和分词修正 |
4.4.3 标题类型的研判 |
4.4.4 词语和句子的权重计算 |
4.4.5 粗文摘的形成 |
4.4.6 文摘的后处理 |
4.5 系统的评估 |
4.5.1 数据集的选取及实验结果 |
4.5.2 实验结果分析 |
4.5.3 对比实验 |
4.5.4 中文网页自动文摘抽取实例 |
4.6 讨论 |
4.7 本章小结 |
第五章 基于段落聚类的中文网页自动文摘 |
5.1 引言 |
5.2 相关工作 |
5.3 算法设计 |
5.3.1 分词和词性标注 |
5.3.2 组合词识别和分词修正 |
5.3.3 标题类型研判 |
5.3.4 词语权重计算 |
5.3.5 句子权重计算 |
5.3.6 段落聚类 |
5.3.7 粗文摘形成 |
5.3.8 文摘后处理 |
5.3.8.1 已有的处理方法 |
5.3.8.2 句子结构优化 |
5.3.8.3 指代消解 |
5.3.8.4 文摘的最终形成 |
5.4 系统评估 |
5.4.1 数据集的选取和实验设计 |
5.4.2 实验结果及分析 |
5.4.3 PCAS系统和TWSFAS系统性能对比 |
5.4.4 毗邻段落聚类算法和K-means算法对比实验 |
5.5 讨论 |
5.6 本章小结 |
结论和展望 |
结论 |
展望 |
参考文献 |
攻读博士学位期间取得的研究成果 |
致谢 |
(6)中文自动文摘关键技术的研究与实现(论文提纲范文)
摘要 |
Abstract |
第一章 绪论 |
1.1 研究背景和意义 |
1.2 研究目标与关键技术 |
1.2.1 研究目标 |
1.2.2 关键技术 |
1.3 国内外研究现状 |
1.3.1 国外研究现状 |
1.3.2 国内研究现状 |
1.4 本文工作和组织结构 |
第二章 自动文摘的理论和技术 |
2.1 自动文摘概述 |
2.2 自动文摘技术分类及基本思想 |
2.2.1 自动摘录式文摘生成技术 |
2.2.2 基于理解的文摘生成技术 |
2.3 自动文摘的关键技术 |
2.3.1 文本表示技术 |
2.3.2 语句评价技术 |
第三章 文本特征表示及特征计算技术 |
3.1 特征定义 |
3.2 特征表示 |
3.2.1 通用分词词典及问题 |
3.2.2 基于通用分词词典的分词结果改进算法 |
3.3 特征计算与筛选 |
3.3.1 高频低义词语的删除 |
3.3.2 特征词加权函数的设计 |
3.3.3 特征词计算及筛选算法 |
3.4 本章小结 |
第四章 基于最大边缘相关的语句评价技术 |
4.1 语句加权函数设计 |
4.2 基于MMR的文摘句选取算法 |
4.2.1 MMR公式与信息量衡量标准的设计 |
4.2.2 文摘句选取算法 |
4.3 本章小结 |
第五章 中文自动文摘系统的设计与实现 |
5.1 系统总体设计 |
5.1.1 设计原则 |
5.1.2 总体结构 |
5.2 系统详细设计与实现 |
5.2.1 自然语言自动分词模块的设计与实现 |
5.2.2 特征词抽取模块的设计与实现 |
5.2.3 分句模块的设计与实现 |
5.2.4 文摘句抽取和文摘生成模块的设计与实现 |
5.2.5 外部接口设计 |
5.2.6 系统总体设计及逻辑结构 |
5.3 实验分析 |
5.3.1 实验设计 |
5.3.2 实验结果和分析 |
5.4 本章小结 |
第六章 结论与展望 |
致谢 |
参考文献 |
在读期间研究成果 |
(7)基于主题划分的中文单文档自动文摘系统的研究(论文提纲范文)
摘要 |
Abstract |
第一章 绪论 |
1.1 研究背景及意义 |
1.2 国内外研究现状 |
1.2.1 国外研究现状 |
1.2.2 国内研究现状 |
1.3 自动文摘的研究方法 |
1.3.1 基于统计的方法 |
1.3.2 基于理解的方法 |
1.3.3 基于信息抽取的方法 |
1.3.4 基于结构的方法 |
1.4 单文档自动文摘研究存在的问题 |
1.5 本文的主要工作及内容组织 |
1.5.1 本文的主要工作 |
1.5.2 本文的内容组织 |
第二章 文本的表示 |
2.1 段落表示 |
2.2 句子表示 |
2.2.1 分句 |
2.2.2 句子权值的计算 |
2.3 词语表示 |
2.3.1 分词 |
2.3.2 去停用词(stop words) |
2.3.3 词语权值的计算 |
第三章 文本主题的划分 |
3.1 主题划分的必要性 |
3.2 主题划分的相关研究 |
3.2.1 基于相邻段落相似度的方法 |
3.2.2 基于TextTiling算法的主题划分 |
3.3 聚类算法简介 |
3.3.1 层次聚类方法 |
3.3.2 划分聚类方法 |
3.4 改进K-means算法 |
3.4.1 K值的确定 |
3.4.2 初始聚类中心的选择 |
3.5 基于改进K-means算法的文本主题划分 |
3.5.1 段落向量空间模型的建立 |
3.5.2 文本主题的划分 |
第四章 摘要的生成 |
4.1 粗摘要句的抽取 |
4.2 粗摘要句的优化 |
4.2.1 使用规则对文本进行连贯性加工 |
4.2.2 去除冗余句 |
4.2.3 去除非陈述性句子 |
4.2.4 去除特殊词语 |
4.2.5 对句子进行排序 |
4.3 摘要生成算法 |
第五章 系统的实现及实验分析 |
5.1 系统总体结构 |
5.2 部分代码实现 |
5.3 实例 |
5.4 实验结果及分析 |
5.4.1 主题划分的结果及分析 |
5.4.2 摘要生成的结果及分析 |
第六章 结束语 |
6.1 结论 |
6.2 下一步工作 |
致谢 |
参考文献 |
附录1 攻读学位期间发表论文及参与项目 |
附录2 摘要文本正文 |
(8)基于文本相似度的中文文本聚类的研究(论文提纲范文)
摘要 |
Abstract |
第一章 绪论 |
1.1 研究背景和意义 |
1.2 本文工作 |
1.3 论文组织 |
第二章 中文自动分词 |
2.1 引言 |
2.2 中文未登录词的识别 |
2.2.1 未登录词的研究现状 |
2.2.2 基于统计的中文姓名识别 |
2.2.3 实验结果及分析 |
2.3 歧义消解 |
2.3.1 歧义产生的根源 |
2.3.2 歧义的类型 |
2.3.2.1 交集型歧义消解 |
2.3.2.2 多义组合型歧义消解 |
2.4 本章小结 |
第三章 降维技术相关研究 |
3.1 文档表示 |
3.2 特征项类别选择 |
3.2.1 字特征 |
3.2.2 词特征 |
3.2.3 n-gram特征 |
3.3 特征选择主要方法的分析选择 |
3.3.1 信息增益(IG) |
3.3.2 x~2统计(CHI) |
3.3.3 互信息(MI) |
3.3.4 文档频率(DF) |
3.3.5 特征增强(TS) |
3.3.6 基于熵的特征排序(En) |
3.3.7 特征贡献(TC) |
3.4 常用特征选择方法在中文文本聚类中的应用实验研究 |
3.5 特征抽取比较分析 |
3.5.1 主成分分析法(PCA) |
3.5.2 隐含语义标引(LSI) |
3.5.3 多维标度法(MDS) |
3.5.4 局部线性嵌入(LLE) |
3.5.5 词聚类 |
3.6 本章小结 |
第四章 中文文本相似度计算 |
4.1 引言 |
4.2 向量空间模型 |
4.3 中文文本相似度计算的主要方法 |
4.3.1 基于VSM的TF-IDF算法 |
4.3.2 改进的TF-IDF算法 |
4.4 相似度计算 |
4.5 实验结果及分析 |
4.6 本章小结 |
第五章 基于VSM的文本聚类 |
5.1 主要文本聚类算法比较 |
5.1.1 层次聚类算法 |
5.1.2 划分聚类算法 |
5.1.3 基于密度的聚类算法 |
5.1.4 基于网格的聚类算法 |
5.1.5 基于模型的聚类算法 |
5.1.6 模糊聚类算法 |
5.2 聚类效果评定 |
5.3 实验设计及结果分析 |
5.3.1 研究资源 |
5.3.2 总体设计 |
5.3.3 组织聚类 |
5.3.3.1 文本预处理 |
5.3.3.2 相似度计算 |
5.3.3.3 基于编网法的模糊文本聚类 |
5.3.4 实验结果及其分析 |
5.4 本章小结 |
第六章 文本聚类在多文档自动文摘中应用 |
6.1 引言 |
6.2 关键技术 |
6.2.1 句子相似度 |
6.2.1.1 基于词权重的相似度计算 |
6.2.1.2 基于潜在语义分析的句子相似度计算 |
6.2.1.3 基于词义距离的句子相似度计算 |
6.2.1.4 基于语义依存的句子相似度计算 |
6.2.2 文摘句抽取 |
6.2.3 文摘句排序 |
6.3 评价技术 |
6.4 实现过程及效果分析 |
6.4.1 多文档自动文摘的实现 |
6.4.2 实验结果及分析 |
6.5 本章小结 |
第七章 总结与展望 |
7.1 本文总结 |
7.2 进一步的工作 |
参考文献 |
致谢 |
在学期间发表的学术论文和参加科研情况 |
(9)面向查询的多文档自动文摘关键技术研究(论文提纲范文)
摘要 |
Abstract |
第一章 自动文摘介绍 |
1.1 自动文摘的背景和意义 |
1.1.1 文本理解会议简介 |
1.2 自动文摘概述 |
1.2.1 文摘的基本概念 |
1.2.2 自动文摘系统的基本框架 |
1.2.3 自动文摘的主要技术 |
1.2.4 自动文摘的研究历史和现状 |
1.3 自动文摘系统评价 |
1.3.1 内部评价和外部评价 |
1.3.2 人工评价和自动评价 |
1.4 自动文摘与自然语言处理领域其它一些任务的关系 |
1.5 本文组织结构 |
第二章 面向查询的多文档自动文摘中多策略的研究 |
2.1 介绍 |
2.1.1 面向查询的多文档自动文摘任务 |
2.1.2 相关工作 |
2.2 基于机器学习方法的文摘系统 |
2.2.1 特征介绍 |
2.2.2 句子相似度计算 |
2.2.2.1 WordNet简介 |
2.2.2.2 基于WordNet的句子相似度计算 |
2.2.3 用最大熵模型对句子评分 |
2.2.3.1 最大熵模型简介 |
2.2.3.2 最大熵模型的训练和应用 |
2.2.4 冗余去除模块 |
2.2.5 文摘粒度分析 |
2.2.6 实验结果及分析 |
2.3 基于语义扩展的文摘系统 |
2.3.1 基于WordNet的语义扩展方法 |
2.3.2 词义消歧 |
2.3.3 系统流程 |
2.3.4 实验结果及分析 |
2.4 基于查询扩展的文摘系统 |
2.4.1 图排序算法及相关工作 |
2.4.1.1 PageRank算法简介 |
2.4.1.2 图排序算法在自动文摘中的相关工作 |
2.4.2 基于查询扩展的文摘系统 |
2.4.2.1 系统框架 |
2.4.2.2 基于图模型的句子排序 |
2.4.2.3 查询扩展算法描述 |
2.4.2.4 句子重新排序 |
2.4.2.5 去除冗余算法 |
2.4.3 实验结果及分析 |
2.5 本章小结 |
第三章 文摘连贯性自动评价技术的研究 |
3.1 介绍 |
3.1.1 文摘合成 |
3.1.2 文摘连贯性研究的意义 |
3.2 连贯性相关工作 |
3.3 基于实体的连贯性评价基本模型 |
3.4 连贯性评价模型改进 |
3.4.1 指代消解的作用 |
3.4.2 特征计算 |
3.4.2.1 用邻居信息进行特征细化 |
3.4.2.2 非相邻句间转移特征 |
3.4.2.3 实验结果 |
3.4.3 实体网格的重建 |
3.4.3.1 实体选择的重要性分析 |
3.4.3.2 基于潜在语义分析的实体网格重建 |
3.4.3.3 实验结果 |
3.5 本章小结 |
第四章 总结与展望 |
4.1 工作总结 |
4.2 未来展望 |
参考文献 |
攻读博士期间主要工作 |
致谢 |
(10)中文自动文摘系统的研究与实现(论文提纲范文)
目录 |
图表目录 |
摘要 |
ABSTRACT |
第一章 绪论 |
1.1 自动文摘研究的意义 |
1.2 自动文摘的定义及分类 |
1.2.1 文摘的定义 |
1.2.2 自动文摘的定义 |
1.2.3 自动文摘的分类 |
1.3 自动文摘研究的历史与现状 |
1.3.1 国外自动文摘的研究 |
1.3.2 国内自动文摘的研究 |
1.4 本文的主要工作 |
1.5 本文的组织结构 |
第二章 自动文摘的相关理论基础 |
2.1 向量空间模型 |
2.1.1 义项的选取 |
2.1.2 义项的权重计算 |
2.2 中文词法分析 |
2.2.1 自动分词 |
2.2.2 汉语自动分词的难点 |
2.2.3 词性标注 |
2.2.4 词法分析器ICTCLAS |
2.3 自动文摘系统的评测 |
2.3.1 评测方法 |
2.3.2 评测用语料的准备 |
2.3.3 自动文摘系统评测面临的问题 |
2.3.4 实验评测指标 |
2.4 本章小结 |
第三章 概念统计在自动文摘中的应用 |
3.1 语义资源介绍 |
3.1.1 《知网》 |
3.1.2 《同义词词林扩展版》 |
3.2 基于《同义词词林扩展版》的概念获取 |
3.2.1 预处理 |
3.2.2 词义消歧方法 |
3.2.3 概念获取算法 |
3.2.4 构造基于概念统计的向量空间模型 |
3.2.5 概念统计与词频统计VSM比较实验及结果分析 |
3.3 义项重要度计算 |
3.4 基于概念统计的自动文摘生成 |
3.4.1 句子重要度计算 |
3.4.2 文摘生成 |
3.5 实验结果 |
3.6 本章小结 |
第四章 文本篇章结构分析 |
4.1 相关工作 |
4.2 相邻段落相似度和连续段落平均相似度相结合的意义段划分 |
4.2.1 段落向量空间模型的建立 |
4.2.2 基本思想 |
4.2.3 文章预处理及实验示例 |
4.2.4 算法步骤 |
4.3 实验评测与结果分析 |
4.3.1 实验设计与结果 |
4.3.2 结果分析 |
4.4 本章小结 |
第五章 概念统计和文本结构划分相结合的自动文摘系统 |
5.1 体系框架 |
5.2 系统主要模块设计 |
5.2.1 文本预处理模块 |
5.2.2 文本结构划分模块 |
5.2.3 概念获取模块 |
5.2.4 重要度计算模块 |
5.2.5 文摘生成模块 |
5.3 实验结果 |
5.4 本章小结 |
第六章 自动文摘系统评测实验 |
6.1 实验一、三个系统性能的比较测试 |
6.2 实验二、宽泛指标下的有效性测试 |
6.3 实验三、文摘句共选一致性指标下的有效性测试 |
6.4 实验四、三个系统对长篇幅文章的有效性比较测试 |
6.5 实验五、本文摘系统与现有系统的比较测试 |
6.6 本章小结 |
第七章 结束语 |
参考文献 |
致谢 |
附录一 北京大学汉语文本词性标注集 |
附录二 示例文章文摘结果 |
附录三 读研期间参加的科研项目与公开发表的学术论文 |
四、全信息理论在自动文摘系统中的应用(论文参考文献)
- [1]基于全信息的社区问答系统研究[D]. 孙月萍. 北京邮电大学, 2014(04)
- [2]教学资源自动文摘系统的研究与设计[D]. 张瑞玲. 北京交通大学, 2014(06)
- [3]基于云模型的中文面向查询多文档自动文摘研究[D]. 陈劲光. 华中师范大学, 2011(05)
- [4]基于舆情分析研判的突发事件预警平台的设计与实现[D]. 朱慧. 电子科技大学, 2011(06)
- [5]基于关键词提取的中文网页自动文摘方法研究[D]. 蒋昌金. 华南理工大学, 2010(12)
- [6]中文自动文摘关键技术的研究与实现[D]. 乔小斐. 西安电子科技大学, 2010(03)
- [7]基于主题划分的中文单文档自动文摘系统的研究[D]. 张元虹. 昆明理工大学, 2009(02)
- [8]基于文本相似度的中文文本聚类的研究[D]. 李艳梅. 华北电力大学(北京), 2009(10)
- [9]面向查询的多文档自动文摘关键技术研究[D]. 赵林. 复旦大学, 2008(03)
- [10]中文自动文摘系统的研究与实现[D]. 朱荷香. 南京师范大学, 2008(01)