一、基于关联分析的粗粒度级个性化信息挖掘(论文文献综述)
张雨琴[1](2019)在《融合情感因素的在线学习者建模与课程推荐研究》文中研究说明随着在线教育和终身学习理念的普及,越来越多的学习者通过在线学习平台获取各个学科领域的课程,以满足自身个性化学习的需要。然而随着课程数量越来越多,学习者很难快速、准确找到自己所需要的课程,即遭遇信息过载和认知迷航问题,因此如何根据学习者偏好为其推荐个性化课程,成为在线学习平台提高课程服务质量亟需解决的重要问题之一。学习者特征是反映学习者偏好的重要方面,而学习者模型是对学习者特征的抽象表示与描述,因此为了提高课程推荐的准确率,需要构建准确、完善的学习者模型。目前对学习者模型的构建多从认知水平、学习风格等方面进行,忽略了学习者对课程所表达的情感,而学习者情感是学习者的重要特征之一。然而,传统的学习者情感分析往往认为学习者在一条评论中只表达一种情感极性,忽视了学习者在评论中对课程所表达的方面情感,因此无法细致地反映学习者多个方面的学习偏好。为了构建准确完善的学习者模型,需要把学习者的方面情感纳入到学习者模型之中,以提高课程推荐的准确率。本文首先基于注意力机制长短期记忆网络(AT-LSTM)从学习者课程评论中抽取出学习者对课程的方面情感,然后基于CELTS-11规范将其纳入到学习者模型构建之中,并同时考虑了学习者的人口统计学、认知水平、学习行为、学习风格等特征要素,以构建一个融合了学习者方面情感的较完善的学习者模型,最后利用深度神经因子分解机(Deep FM)对学习者特征和课程特征之间的复杂交互关系进行建模,以实现精准的课程推荐。为了验证本文所提出方法的有效性,本研究在大规模开发课程Edx数据集上进行了实验。实验结果表明,融合了学习者方面情感的学习者模型能够更准确地反应学习者偏好,同时利用深度神经因子分解机进行课程推荐,能够有效提高课程推荐的准确率。本研究将学习者方面情感纳入学习者模型构建,丰富和完善了学习者模型,为学习者模型的理论研究和应用研究提供了参考,具有借鉴意义;同时,结合深度学习技术进行课程推荐,能够大大提高课程推荐的准确率,有助于学习者的学习效率和个性化学习质量的提升,也有助于在线平台的长远发展。
顾静秋[2](2018)在《农业数据智能感知与分析关键技术研究》文中研究说明随着互联网与物联网技术的发展,在农业领域积累了海量的产前、产中、产后数据,多种多样的农业信息服务系统层出不穷,但对于农业新型生产经营主体人员而言,当前我国农业信息服务成本和门槛仍较高,面向农民、农村的信息服务系统仍然相对匮乏,农业大数据与信息孤岛现象并存。农业信息服务往往针对特定地区、特定应用、特定数据资源,造成数据开发利用难度逐渐加大,因缺乏有效的分析提炼,数据资源向有用信息的转化效率过低,造成农业领域数据资源不断丰富与农业信息服务相对匮乏之间的矛盾。为此,本文研究农业物联网、互联网数据的汇集与抽取技术,实现农业数据智能感知;针对农业数据多源异构特点以及不同农业场景下的具体业务需求,研究农业数据智能分析挖掘方法,实现数据到信息的转变;通过建立用户兴趣模型研究用户聚类与个性化推荐算法,实现用户兴趣导向的个性化精准农业信息服务。项目研究内容对提高我国农业信息服务水平与质量,推动农业现代化进程具有重要的研究与现实意义。近年来,学术界在大数据分析与个性化推荐方面已取得较为丰富的成果,但在农业应用领域还存在数据来源不稳定、数据质量不高、信息挖掘决策精度低以及服务推送针对性不强等问题。为了更好的利用信息化技术手段为农民进行服务提升农业生产经营效率,本文将按照信息感知采集、挖掘分析、个性化推荐的流程,从农业物联网、互联网数据智能感知、面向农业多源异构数据的智能挖掘分析方法与典型场景应用以及基于用户兴趣模型的个性化信息推送几个层面对农业数据感知与智能分析关键技术展开深入研究与讨论。主要研究成果和贡献如下:(1)农业复杂干扰环境下物联网数据感知汇集过程存在质量不高、稳定性与时效性差等问题,本文研究提出了一种基于数据关联分析的农业物联网高效数据汇集方法。针对农业复杂环境下信道链接不稳定问题,采用机会传输路由的方式提高了数据传输可靠性与网络数据吞吐量。同时根据农业应用场景特点,重点考虑网络的带宽、能量等资源受限问题,从节点数据间关联分析与能耗感知角度对机会路由中继选择与协调的权值进行优化,实现了农业复杂环境下的物联网数据高效感知汇集。在互联网数据采集方面,针对互联网农业领域数据纷杂,信息提取环节缺失等问题,研究了农业垂直领域互联网信息智能抽取方法。通过农业Web页面的多种特征融合,结合机器学习的规则学习算法,提出一种基于多特征与自学习的Web信息抽取方法,该方法在尽量减少人工干预的情况下正确识别农业信息网页的正文内容部分,抽取需要的农业信息实体数据,并且能够自适应网页结构的变化。(2)随着农业领域物联网、互联网技术的飞速发展,积累形成了大量的农业数据资源,如何有效挖掘其中的有用信息是需要解决的问题。本文针对农业大数据多源、异构、噪声大等特点,研究数据预处理方法,通过清洗、过滤、集成等方法步骤处理提高大数据质量,保证数据的可用性。在数据预处理的基础上,提出一种基于频繁集的Apriori改进方法进行多维大数据间的关联规则分析,发掘农业海量异构数据中的规律和价值,为农业领域实现高效信息服务提供基础。针对农产品价格供需信息不对称,影响农业生产收入水平的问题,基于互联网上抽取的农产品市场价格信息,从农产品价格时空分布角度进行数据关联分析,发现敏感、异常的波动情况,并对某类农产品价格变化趋势以及受其他农产品价格波动的影响进行预测,进而为农业生产前期决策与经营销售提供信息支撑。(3)为解决动物繁育、疫病等早期检测问题,研究基于农业物联网的数据聚类与图像识别等方法,结合动物生理、疫病行为模型,以奶牛养殖为对象,提出一种基于图像熵的奶牛目标对象识别方法,通过最小包围盒面积计算与目标对象轮廓图,实时捕获奶牛爬跨行为。结合蹄部、背部特征,融合被识别奶牛连续7d的运动量,判断影响奶牛健康繁殖的异常行为,提高奶牛养殖管理的科学化程度。(4)农业大数据在完成了有效的数据挖掘分析后依然面临着“信息过载”的问题,农业信息种类多样,分类复杂,具有地域性、时效性和周期性,用户的信息需求也随这些发生变化,如何根据用户特征实现挖掘结果的精准推荐服务是农业智能信息服务的关键环节。为此,本文提出一种基于用户兴趣模型的个性化推荐方法,通过对用户注册信息得出显性特征(如职业、种植类型、文化水平、地理位置等),根据用户浏览操作记录提取用户隐性特征(如性格偏好、种植经验、农情农事等),进而建立情境融合的用户行为兴趣模型,并基于该模型用协同过滤的产生式推荐方法实现用户信息的按需精准推送。
章盛[3](2018)在《基于数据挖掘技术的未成年罪犯管理系统的设计与实现》文中研究指明我国改革开放以来,随着经济的快速增长人们生活水平也越发提升,我国青少年所接触到的事物也更加广泛,青少年由于处于未成年时期,其心志水平尚未完善,伴随而来的就是更多的未成年犯罪的增多。就目前来看我国公安机关已经拥有大量的未成年犯罪的相关数据,如何能够利用信息技术将这些数据加以利用从而起到协助民警办案的作用是现在公安机关所面临的关键问题之一。所以开发一套便捷、行之有效的基于数据挖掘技术的未成年犯罪管理系统来完成未成年罪犯的档案管理、罪犯数据分析等方面是非常有意义的。课题意在研发一套未成年犯罪管理工作中具有现实指导意义的信息系统,该系统利用公安机关现有的未成年人罪犯的大量信息,将这些信息进行分类对比,针对相同或近似的案件信息进行综合分析,并根据分析结果及时反馈至警官手中,起到了及时有效的利用信息化手段来增加罪犯管理效率。整个系统涵盖了系统登录模块、用户管理模块、档案管理模块、数据导入模块以及数据挖掘等模块。其档案管理模块是对目前现有公安机关内所记录的罪犯基本信息进行管控的模块;用户管理模块是对系统内的不同人员进行用户信息管理和权限管理的功能模块;数据导入模块是对未成年罪犯的相关待分析数据进行导入的功能模块;数据挖掘模块使用Apriori关联算法将罪犯的信息进行分类挖掘的功能模块。课题从最初的未成年罪犯数据分析的需求提出为出发点,进一步完成系统的各功能模块的设计以及实施再到最后的测试等工作进行了详细论述。课题利用Java语言进行系统开发,使用MVC架构进行系统搭建,采用SQL Server数据库对系统数据进行管理,并以MyEclipse软件开发工具完成系统的编写等工作。目前,系统已经通过试运行并投入到实际的未成年罪犯数据分析管理当中去,有效的提高了公安机关在案件办理过程中的效率,得到了用户的一致好评,体现出一定的社会效益。
胡亚兰[4](2018)在《基于邻域用户模型的主题推荐研究》文中提出随着互联网社交网络的普及以及社交网络的发展,社交网络已经从简单的沟通交流的平台逐渐转化为人们获取信息的主要途径。而社交网络由于用户数量多,数据沉淀量巨大,用户想要获取其所需要的精准信息往往存在一定的难度。针对这一问题,许多社交网络平台采取给用户推荐个性化内容的方式,方便用户获取自己感兴趣的主题。但是由于现有的个性化推荐相关研究中,一部分是只考虑了用户的个人配置信息,另外一部分是对用户邻域社交关系的挖掘不够深入,这会致使常用的推荐方法不能够对用户进行精准定位。本文在总结了社交平台主题推荐中存在的缺少对用户之间兴趣的相互影响作用等问题后,提出了基于邻域用户的主题推荐模型。首先根据本文的研究目的,对国内外关于用户模型研究、模型扩展研究以及个性化推荐的主要算法三个角度的文献进行总结分析与梳理。深入解读了基于用户兴趣的个性化推荐模型的分类、信息来源、建模方法、更新等环节的研究。对用户模型的扩展方式进行文献调研,剖析了目前的研究成果中存在的问题等,为下一步的研究奠定理论基础。对国内外主流的个性化推荐算法进行总结。其次进行本文模型的构建,将用户模型解析为内容覆盖度和专业覆盖度的结合,分别进行理论解析、创建用户模型。对用户模型进行基于本体的语义扩展,加入邻域用户社交关系,将目标用户与好友之间的关系定义为认知关系,分别包括资源认知和关注关系认知,分别进行定义和计算。将邻域好友集的兴趣主题与目标用户兴趣主题集相融合,对目标用户的主题兴趣集进行兴趣主题集拓展以及主题兴趣度更新,生成最终的邻域用户主题集。最后使用北理工数据集和微博公开数据集所构建的邻域用户模型,对模型进行推荐效果验证,结论表明本文所提出的基于邻域用户的主题推荐模型的推荐效果是明显要优于孤立用户模型以及协同过滤推荐机制,并且通过邻域好友用户集学习得出的兴趣模型还能够满足多数人的兴趣主题需求,有利于增强用户社交主动性。
马乐荣[5](2018)在《面向百科知识库的实体-引文相关性分类技术研究》文中认为百科知识库(如Wikipedia、百度百科)对百科知识的整理和应用具有重大意义。百科知识库不仅成为人们日常搜索知识的主要平台,而且还为许多应用提供知识来源。据统计,相对于实体的最新信息,知识库编辑人员更新实体内容的时间平均晚于一年。百科知识库内容的滞后性成为制约其应用的主要瓶颈。2012年,国际文本检索大会发起了知识库累积引文推荐评测任务,吸引了众多国际知名大学和研究机构的参加,旨在缓解知识库实体内容严重滞后的问题,其核心任务是实体与引文的相关性分析。实体与引文相关性分析目前成为知识库加速研究的热点之一,对该问题的研究不仅可以大幅度地充实完善在线百科知识库中的信息,提高用户的知识库使用体验,更可即时发现并更新实体的相关内容,为智能搜索引擎、知识问答、实体检索、热点发现、舆情跟踪、个性推荐等应用提供知识支持。根据引文与目标实体相关的不同等级,先前解决实体与引文相关性分析的方法,主要有两类,分别是分类方法和排序方法。这些方法都设计了丰富的人工特征,并使用了强大的机器学习模型,在某些方面取得了一定的成果,但性能依然不是十分理想,仍然需要对其进行深入研究。本文视实体与引文相关性分析的任务为分类任务,称为面向百科知识库的实体-引文相关性分类,是从文本大数据流中发现同百科知识库实体相关的引文,并根据相关程度对实体-引文进行分类。其主要研究内容和创新点如下:(1)提出基于目标实体突发特征的文本表示模型。已有研究使用了实体查询的简单数量统计,其证明时序特征在百科知识库引文推荐任务中有重要作用。本文提出了基于实体突发特征的文本表示模型,既考虑目标实体的突发特征,又考虑实体与引文的语义特征,构建引文文本的表示模型。实验结果表明基于实体突发特征的文本表示模型能显着提升实体-引文相关性分类性能。(2)实体-引文类别依赖的混合分类模型。实体-引文相关性分类任务,本质上是针对实体-引文对的分类任务。因此当实体的类别信息和引文的类别信息相似或相近时,引文更有可能成为目标实体主页的最终参考文献。本文提出实体-引文类别依赖的判别混合模型,同时考虑实体和引文的先验类别信息,利用混合模型把先验信息和语义信息组合起来。实验表明,实体-引文类别依赖的混合模型不仅可以灵活处理多样性的实体-引文对,同时也能处理未在训练集中出现过的实体-引文对,具有极强的泛化能力。(3)融入偏好信息的分类模型。相对于实体、文本的数量和多样性,标注数据是十分有限的。尽管标注数据耗费大量的人力、物力和财力,但其具有极高的价值。因此充分挖掘标注数据中蕴含的有效信息,可以提高分类性能。本文提出偏好增强的支持向量机模型,不仅考虑不同类别样本之间的差异信息,还考虑同类样本之间的偏好信息,构建融入偏好信息的SVM模型,来优化SVM的优化目标。实验结果表明,融入偏好信息的支持向量机模型可以有效提升分类性能,具有普适性。(4)实体-引文联合的深度网络分类模型。先前的工作集中在如何设计实体-引文的特征,以及选择适合特征的模型。其中设计特征需要领域专家花费大量的精力来完成,不具有普适性。分布式表达(Distribution Representation)给实体和引文的表示带来新思路,也成为深度学习解决自然语言处理和信息检索的基础性工作。本文提出实体-引文联合的深度神经网络分类模型,利用深度学习模型自动学习实体和引文的潜在特征,以端到端的方式解决实体-引文相关性分类任务。实验结果表明提出的模型能有效提升实体-引文相关性分类性能,同时提供了用深度模型来解决实体-引文相关性分类任务的新思路,具有极大的研究价值。
段菲菲[6](2017)在《基于BIBFRAME的科技成果多维度聚合研究》文中研究说明2016年5月,国务院发布了《国家创新驱动发展战略纲要》,指出科技创新是发展的核心,同时也是面向未来的一项重大战略,国家应以创新成为引领发展的第一动力。由此可见国家已将科技成果的管理与发展提到了国家战略发展层面。Web2.0环境下,伴随信息技术的普及和社会信息化程度的提高,科技成果数量也飞速增加,其资源呈现出多类型、多媒体、跨时间、跨地理、跨语种等特点。面对数量庞大的异构科技成果资源,为解决其存在的开放程度低、服务粒度过大及集成度不高等问题,需要利用相关性原理和有序性原理对其进行有效组织,更重要的是在有序化基础上对资源进行深度聚合便于用户获取利用。因此,本文以“基于BIBFRAME的科技成果多维度聚合研究”为选题,借助于BIBFRAME在资源语义描述方面的优势,通过构建科技成果多维度语义聚合框架,以实现科技成果在内容维度、结构维度以及使用维度上的聚合与服务。本文按照“理论—模型—实证”的总体思路,以科技成果为研究对象,BIBFRAME框架为语义描述标准,从理论、方法和实践的角度探讨如何对科技成果语义进行标准化描述。以语义网技术为主要手段,运用知识组织、关联数据等理论及相关的方法与技术规范,揭示科技成果资源内部知识对象以及知识与对象的语义关系,使海量、多源、异构及分布式的科技成果重新组织为一个覆盖所有科技信息的资源网络。本研究不仅实现了科技成果信息在多维度上的有效聚合,也实现了基于科技成果资源聚合的知识发现与创新,同时满足了用户个性化需求。主要研究内容如下:(1)通过深入分析科技成果的概念、内涵、外延及应用状况,系统梳理了科技成果资源的类型与利用现状,并对其面临的问题进行归纳总结。在此基础上,提出将BIBFRAME应用到科技成果中的必要性与可行性,并对其应用范式进行探讨。(2)将DC、MARC、RDA等多种元数据集进行融合,并与BIBFRAME进行映射转换,在BIBFRAME的规则和约束下,实现科技成果各类型资源及其属性内容相互关联,并借助D2R关联数据工具将非结构化的科技成果资源发布为科技成果信息关联数据,最终提供基于知识关联的语义服务。(3)使用归一化的语义模型来挖掘异构科技成果的内容关联之后,可以将科技成果结构信息、科技成果内容信息、科技成果使用信息有机关联在一张巨大的语义关联网络,利用相关的技术手段与方法,将大量分散的异构科技成果资源进行聚合,从而取得信息的全貌。(4)根据所设计的科技成果多维度聚合方案开展实证研究。以CNKI中的题录信息为具体应用背景,采用直接聚合转换与间接聚合转换两种模式,使用本体描述语言OWL为BIBFRAME的描述语言对科技报告资源进行语义描述,并使以上两种模式实现其形式与内容上的融合,共同达到科技报告资源中知识内容与知识对象间的关联。科技成果的管理工作不仅关系到科技是否能真正融入经济建设主战场,也关系到不同创新主体创新能力的提高。因此,如何将海量、多元、异构的科技成果资源通过聚合的方式序化具有重要的理论意义与实际应用价值。本文以BIBFRAME的理论基础,深入的研究了基于BIBFRAME的语义描述机制,以及对科技成果资源进行关联数据的创建与发布,可实现信息资源的规范化描述、语义化的深度整合及知识化的深度揭示,显着提高了科技成果资源的利用价值。且能在一定程度上解决科技成果资源“海量”、“多源”、“异构”及“分布式”问题。
夏大文[7](2016)在《基于MapReduce的移动轨迹大数据挖掘方法与应用研究》文中研究表明在“互联网+”到“大数据×”的DT时代,大数据已成为科技界、产业界、政府部门高度关注的焦点,而移动轨迹大数据分析正成为城市计算、智慧城市领域的研究热点。当前,交通拥堵、环境恶化、能源紧缺等问题严重影响着城市的宜居程度和可持续发展。移动社交网络中位置轨迹数据的挖掘、分析与利用,为解决城市问题提供了新思路。本文研究基于MapReduce的出租车轨迹大数据深度挖掘新方法及其应用,致力于解决实时性、鲁棒性和精确性问题,为复杂交通网络的动态监测与预警控制提供理论依据和实用技术。本文研究的主要内容及创新性成果如下:1.提出基于MapReduce的面向海量小文件处理策略的并行频繁模式增长算法(MR-PFP),关联分析车辆运行的时空特征。首先,在搭建的基于MapReduce并行处理框架的Hadoop分布式计算平台上,实现海量小文件处理方法(Hadoop Archives、 CombineFileInputFormat、Sequence Files)弥补Hadoop的固有缺陷,并实验比较三种方法的内存消耗和执行效率以提出选择策略。其次,引入小文件处理策略SF优化频繁模式增长算法,并基于MapReduce实现优化算法的并行化,即MR-PFP。最后,基于MR-PFP算法,并行挖掘出租车轨迹大数据中的频繁项集以产生有趣的强关联规则,进而多维度关联分析车辆运行的时空特征。实验结果表明,与并行频繁模式增长算法(PFP)相比,MR-PFP算法具有更好的加速比性能和更高的挖掘效率。2.提出基于MapReduce的并行三阶段K均值算法(Par3PKM),分布式划分城市交通小区。首先,提出分布式交通小区划分方法(DTSAD),包括并行聚类和边界识别两大关键任务。其次,提出两种距离度量方法和三种聚类初始化策略来优化K均值算法,并在MapReduce作业中通过Map、Combiner、Reduce函数实现优化算法,即Par3PKM,进而完成出租车轨迹大数据的并行聚类。最后,提出边界识别方法连接聚类结果中各簇的边界数据点以形成交通小区。实验结果表明,与并行两阶段K均值(Par2PK-Means)、并行聚类大型应用(ParCLARA).K均值(K-Means)算法相比,Par3PKM算法具有更高的聚类效率、准确性、可扩展性和可靠性,以及边界识别方法可以准确连接各簇的边界。尤其是,交通小区划分结果与相应区域实际的交通状况高度吻合。3.提出基于MapReduce的面向分布式建模通用框架的时空权重K近邻模型(STW KNN),并行预测短时交通流。首先,提出基于MapReduce的交通流预测分布式建模通用框架(MF-TFF),解决集中式学习模型在处理大规模轨迹数据时存在的计算与存储问题。该框架足够普适,能通用于其他数据驱动的交通预测方法。其次,基于MF-TFF框架,提出分布式时空权重K近邻模型(STW-KNN)。该模型通过考虑上游-下游、历史-未来且具有趋势调整特征(变化迹象、变化幅度)交通流的时空相关性与权重来优化搜索机制,包括状态向量、相似性度量、预测函数和K值选择。最后,基于MapReduce并行处理范式实现STW-KNN模型,以并行化预测短时交通流。实验结果表明,与K近邻(KNN)、人工神经网络(ANNs)、朴素贝叶斯(NB)、随机深林(RF)和C4.5决策树相比,STW-KNN模型可以提高超过89.71%的预测准确性(MAPE值界于3.34%-6.00%),及其并行化实现显着改进了预测的效率和可扩展性。4.提出基于MapReduce的面向相关性分析的交通流预测方法(TFPC),实时预测交通流量。首先,在Hadoop分布式计算平台中,提出实时交通流预测系统框架(RPS),包括离线分布式训练(ODT)模块和在线并行预测(OPP)模块。其次,在ODT中提出鲁棒的并行近邻优化分类器(ParKNNO)来建模交通流的相关性,发掘交通流内在的相关性信息并将其纳入分类过程。最后,在OPP中提出新颖的预测计算方法,并利用当前数据和ParKNNO训练大规模历史数据所获得的分类结果,实时产生交通流预测。实验结果表明,与差分自回归移动平均(ARIMA)、多层感知器神经网络(MLP-NN)、近邻(NN)回归等方法相比,TFPC方法可以最大改进90.07%的预测准确性(MAPE均值为5.53%),且具有良好的加速比、扩展性和规模增长性。
王宁伟[8](2016)在《微博网络中的重叠社区发现算法研究》文中研究表明随着互联网和移动通信技术的快速发展,越来越多的用户开始使用社交系统进行信息交换和共享,形成了越来越庞大的社交网络。这种形成于物理网络之上的逻辑网络反映了人们的偏好和社会关系,如何发现社交网络的特征和潜在价值已成为研究者们广泛关注的问题。作为网络(特别是社交网络)研究的内容之一社区发现对于研究网络内部的结构特征有着十分重要的意义。本文以微博网络为对象,研究具有重叠结构的网络,并提出了一种重叠社区发现算法。论文的主要工作包括以下几个方面:· 从三个方面入手,研究了社区发现方法的发展与现状:从复杂网络理论的角度出发,分析讨论了传统的复杂网络框架下的社区发现算法的原理、特点和优劣;分析归纳了微博网络的特性,并总结了利用该类特性进行传统社区发现算法改进的各类算法和方案;概括总结了复杂网络中利用遗传算法进行社区发现的关键技术。· 提出了一种基于遗传算法的重叠社区发现算法(Overlapping Community Detection based on GA for Weighting Weibo Network, WOGA)。WOGA算法主要分两大部分:微博网络的加权算法(Weibo Network Weighting Method,WNWM);基于遗传算法的重叠社区发现(Overlapping Community Detection based on GA, OCDGA)。WNWM综合考虑微博用户间显性关系、交互频率、主题兴趣相似度、用户标签相似度等因素,建立了一个用户关系强度评价模型,进而对微博网络中用户间的连接边进行加权。OCDGA通过改进自适应迁移策略的多种群遗传算法原有的矩阵编码方案,对个体进行编码;利用加权网络改进重叠模块度函数,用作个体适应度函数;建立了基于节点中心性原则和节点相似度原则的种群初始化方案;构建了基于重叠社区和矩阵编码方式的交叉和变异运算,并设计了部分精英保留策略的选择算法。此外,OCDGA还引入了自适应种群迁移策略以保证算法执行效率的同时提高其准确度。·给出了基于MapReduce的WNWM算法和OCDGA算法的分布式实现方案。在OCDGA算法的分布式实现过程中,提出使用粗粒度-粗粒度的层次PGA (Parallel Genetic Algorithms,并行遗传算法)模型来设计种群间的迁移规则。本文分别在人工网络、经典的真实网络和微博网络三种类型的网络上测试了WOGA算法的实验结果,并与传统的社区发现算法进行比较。实验结果证明了本文提出的算法具有较高的准确度,特别是在微博网络的用户交互行为和网络结构的分析中,WOGA算法有较好的效果。
陈果[9](2015)在《基于领域概念关联的网络社区知识聚合研究》文中认为本文从网络社区用户知识交流特征出发,提出一种用户需求的知识聚合方案。网络社区知识组织的主要依据是用户交流内容中的主题及其对应的领域概念关联。因此网络社区知识聚合的核心是构建面向特定领域的概念关联体系。传统知识组织体系不能很好地满足网络社区中的知识聚合需求,因此本文研究的重点为通过融合已有的领域背景知识体系和基于UGC内容挖掘生成的知识关联体系,构建领域多元概念关联体系;以此为支撑实现面向网络社区的多维知识聚合。第一章研究网络社区知识聚合的模式问题。首先,在分析网络社区用户交流特征的基础上讨论了其知识聚合需求,在回顾网络社区知识聚合发展路径的基础上,重点探讨了概念知识关联的特征与形式,以此为基础提出了网络社区知识聚合的模式。第二章以领域知识分析为视角,讨论基于领域概念关联的网络社区知识聚合模型构建问题。在引入领域知识分析视角的基础上,进一步讨论了以领域知识为背景的领域概念关联的特征,及其在知识组织中的作用机制。在此基础上,提出了包括领域多元概念关联体系构建流程和基于概念关联的网络社区知识聚合实现方案在内的总体模型。第三章研究领域结构化概念关联体系的构建。通用性和专业性的结构化知识组织体系(分类法、主题词表、本体、主题图等)为构建面向特定领域的结构化概念关联体系提供了基础,因此从已有的结构化概念关联体系中提取领域概念单元、合并概念关联是最直接的方案。另一方面,大多数领域都缺乏可利用的有针对性的结构化知识组织体系,因此从其他资源途径获取领域概念单元和概念关联有其必要性。本文讨论了基于用户用词领域概念单元抽取、基于资源内容挖掘的领域概念单元抽取、基于资源挖掘的领域概念关联识别等问题;并进一步阐述了如何将这些从其他资源途径获取的领域概念关联体系基本元素与已有的概念关联体系进行合并,包括概念映射和标准化、概念关联合并等问题。领域结构化概念关联体系的形式化是后续知识利用的基础,通过对比SKOS和OWL 2两种语言对概念关联体系的表述细节,本文选定基于OWL 2语言的领域结构化概念关联体系形式化方案。为了检验上述思考和方案的有效性,本文开展了基于主题词表和百科内容挖掘的心血管领域结构化概念关联体系构建实验。第四章研究领域共现型概念关联体系的构建,其思路是从网络社区用户交流内容中挖掘概念关联。文本图模型为概念单元在用户交流内容中的共现关系表示提供了理论基础,通过探讨基于文本图模型的领域概念共现网络构建流程,本文将领域共现型概念关联体系划分为两大阶段。其一是由用户交流文本集向概念共现关系矩阵转化,核心步骤包括文本集构建、中文切分词与同义词合并、领域术语识别、概念共现关系提取与共现矩阵构建;其二是概念共现关系矩阵向概念共现网络的转化,核心步骤包括概念共现关系强度的标准化、概念相似度计算、基于相似度的概念关联边强度映射和概念共现网络生成。根据上述思路和方案,本文以着名的医学社区丁香园为例,选定其中影响力较大的心血管论坛作为对象,构建了基于用户交流内容挖掘的心血管领域共现型概念关联体系。第五章研究领域多元概念关联体系的融合。本部分研究开展的前提是探讨结构化概念关联体系和共现型概念关联体系融合的机理,在对两者优劣势分析的基础上可提出基于优势互补的融合原则,并制定将结构化概念关联体系中的概念内涵、概念和关联类型、层次组织结构赋予共现型概念关联体系的融合方案。融合方案的实现主要体现为体系间元素映射,包括概念术语映射和语义关系映射,在语义映射部分重点探讨了语义相似度融合方案和细粒度关系发现两个问题。此后,通过对多元概念关联体系融合后的数据关系进行梳理,确立了基于关系数据模型的多元概念关联体系形式化方案。在实验部分,对前文已构建的心血管领域结构化概念关联体系和共现型概念关联体系进行了融合。第六章研究基于多元概念关联体系的网络社区知识聚合实现问题。在探讨了多元概念关联体系对网络社区知识聚合作用机制的基础上,本部分提出了以知识单元粒度和知识聚合形式为维度的多维知识聚合模式。此后,分别对不同知识单元粒度的知识类聚和知识共聚方案和实现方法进行了探讨。知识共聚方案是本文有别于传统知识聚合形式的创新点,以概念单元的多维度和细粒度关联为支撑,可实现网络社区分面检索与导航、主题多维推荐、知识元链接体系构建和资源关联发现等功能。在实验部分,专门针对丁香园心血管论坛的知识聚合方案实现进行了实验。
徐绪堪,苏新宁,冯兰萍[10](2015)在《面向知识服务的知识组织过程研究》文中研究说明文章通过分析传统知识组织不足,以解决用户问题为目标,在面向用户需求的基础上,通过数据、信息、文献等相互映射和语义关联,使数据、信息、文献等上升为能够实现知识服务的知识组织;通过用户知识需求分析、欲组织资源的分析、知识与资源的映射、知识组织结构设计、再生知识的产生、知识组织实现等形成一套面向知识服务的知识组织过程,为用户提供高效的知识服务。
二、基于关联分析的粗粒度级个性化信息挖掘(论文开题报告)
(1)论文研究背景及目的
此处内容要求:
首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。
写法范例:
本文主要提出一款精简64位RISC处理器存储管理单元结构并详细分析其设计过程。在该MMU结构中,TLB采用叁个分离的TLB,TLB采用基于内容查找的相联存储器并行查找,支持粗粒度为64KB和细粒度为4KB两种页面大小,采用多级分层页表结构映射地址空间,并详细论述了四级页表转换过程,TLB结构组织等。该MMU结构将作为该处理器存储系统实现的一个重要组成部分。
(2)本文研究方法
调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。
观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。
实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。
文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。
实证研究法:依据现有的科学理论和实践的需要提出设计。
定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。
定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。
跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。
功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。
模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。
三、基于关联分析的粗粒度级个性化信息挖掘(论文提纲范文)
(1)融合情感因素的在线学习者建模与课程推荐研究(论文提纲范文)
摘要 |
abstract |
第1章 绪论 |
1.1 研究背景 |
1.2 研究意义 |
1.3 国内外研究现状 |
1.3.1 学习者模型研究现状 |
1.3.2 学习者情感研究现状 |
1.3.3 课程推荐研究现状 |
1.3.4 已有研究评述 |
1.4 研究内容 |
1.5 研究框架 |
1.6 论文的组织结构 |
1.7 本章小结 |
第2章 理论基础及相关技术 |
2.1 相关概念 |
2.1.1 学习者特征 |
2.1.2 学习者情感 |
2.1.3 学习者模型 |
2.2 相关理论 |
2.2.1 建构主义学习理论 |
2.2.2 认知主义学习理论 |
2.2.3 自由学习理论 |
2.2.4 CELTS-11规范 |
2.3 相关技术 |
2.3.1 学习分析技术 |
2.3.2 因子分解机 |
2.3.3 深度学习 |
2.4 本章小结 |
第3章 学习者情感分析 |
3.1 学习者情感对学习者建模的作用 |
3.1.1 学习者对课程方面情感的意义 |
3.1.2 学习者对课程方面的情感分析 |
3.2 学习者方面情感抽取 |
3.2.1 基于注意力机制的长短期记忆网络 |
3.2.2 实验与结果分析 |
3.3 本章小结 |
第4章 融合情感因素的学习者模型构建 |
4.1 学习者特征构成维度分析与数据来源 |
4.1.1 学习者特征构成维度分析 |
4.1.2 学习者特征数据来源 |
4.2 融合情感因素的在线学习者建模 |
4.2.1 在线学习者模型设计原则 |
4.2.2 学习者特征选取 |
4.2.3 融合情感因素的在线学习者分析模型 |
4.3 融合情感因素的在线学习者模型的初始化 |
4.4 融合情感因素的在线学习者模型的动态更新 |
4.5 本章小结 |
第5章 融合学习者情感因素的在线课程推荐 |
5.1 融合学习者情感因素的在线课程推荐方法 |
5.2 深度神经因子分解机(Deep FM) |
5.3 深度神经因子分解机输入向量表示 |
5.4 实验与结果分析 |
5.4.1 课程推荐评价指标选取 |
5.4.2 对比实验选择 |
5.4.3 实验结果与分析 |
5.5 本章小结 |
第6章 总结与展望 |
6.1 研究工作总结 |
6.2 研究局限与展望 |
6.3 本章小结 |
参考文献 |
致谢 |
(2)农业数据智能感知与分析关键技术研究(论文提纲范文)
致谢 |
摘要 |
ABSTRACT |
1 绪论 |
1.1 研究背景 |
1.2 研究意义 |
1.3 国内外研究现状 |
1.3.1 农业大数据感知抽取技术 |
1.3.2 农业多源数据智能分析技术 |
1.3.3 个性化推荐技术 |
1.4 论文组织结构 |
1.5 创新点 |
1.6 论文课题来源 |
2 农业数据智能感知技术 |
2.1 农业物联网数据高效汇集研究现状及问题 |
2.1.1 农业物联网数据关联分析现状 |
2.1.2 农业物联网数据汇集技术现状 |
2.2 基于数据间关联分析的农业物联网机会路由方法 |
2.2.1 农业物联网数据时空关联压缩模型 |
2.2.2 网络机会感知模型与候选节点集构建 |
2.2.3 机会路由候选节点协调机制 |
2.2.4 基于权值的机会路由能耗感知优化 |
2.3 农业物联网数据汇集仿真与分析 |
2.3.1 机会路由性能指标 |
2.3.2 仿真环境与系统参数 |
2.3.3 仿真结果与讨论分析 |
2.4 互联网信息抽取方法现状 |
2.4.1 基于自然语言处理的信息抽取 |
2.4.2 基于机器学习的包装器归纳方法 |
2.4.3 基于结构分析的抽取方法 |
2.4.4 基于本体的信息抽取方法 |
2.5 基于多特征的自学习WEB信息抽取技术 |
2.5.1 Web页面特征分析 |
2.5.2 页面特征融合 |
2.5.3 抽取规则定义 |
2.5.4 信息抽取方法 |
2.5.5 农业互联网信息多特征自学习抽取流程 |
2.6 农业互联网信息抽取实验与分析 |
2.7 小结 |
3 农业多源异构数据智能分析 |
3.1 农业多源异构数据特点与典型预处理方法 |
3.1.1 农业多源异构数据特点 |
3.1.2 农业大数据特征提取 |
3.1.3 农业异常数据识别 |
3.1.4 数据变换和规约 |
3.1.5 多源匹配数据集成 |
3.2 农业数据关联分析 |
3.2.1 互联网数据关联分析 |
3.2.2 物联网数据关联分析 |
3.2.3 农业大数据关联分析方法总结 |
3.3 农产品价格时空分布与影响因素分析 |
3.3.1 猪肉价格分析概况 |
3.3.2 猪肉价格时空分布格局 |
3.3.3 猪肉价格空间自相关分析 |
3.3.4 猪肉价格与影响因素的双变量空间自相关分析 |
3.3.5 猪肉价格与影响因素的相关分析结果 |
3.4 本章小结 |
4 基于物联网视频数据的奶牛行为识别技术 |
4.1 奶牛行为识别现状 |
4.2 基于物联网视频数据的奶牛行为识别方法 |
4.2.1 材料与方法 |
4.2.2 奶牛目标对象提取 |
4.2.3 奶牛运动量与发情行为关系模型 |
4.2.4 奶牛行为视频数据分析 |
4.3 实验结果与分析 |
4.4 本章小结 |
5 基于用户兴趣模型的个性化农业信息服务技术 |
5.1 研究问题与现状 |
5.1.1 用户兴趣模型构建 |
5.1.2 基于内容的推荐 |
5.1.3 协同过滤推荐策略 |
5.2 基于用户行为的兴趣模型构建 |
5.2.1 用户行为特征分析与数据获取 |
5.2.2 用户行为的兴趣度计算 |
5.2.3 融合用户行为与情景信息的兴趣模型 |
5.3 基于用户兴趣模型的推荐 |
5.3.1 用户聚类及距离计算 |
5.3.2 计算用户之间的相似度 |
5.3.3 产生推荐 |
5.3.4 本章推荐算法框架 |
5.3.5 本章推荐算法特点 |
5.4 实验与结果分析 |
5.4.1 实验数据及环境 |
5.4.2 实验过程 |
5.4.3 实验评价标准 |
5.4.4 实验结果与分析 |
5.5 本章小结 |
6 结论 |
6.1 主要研究工作总结 |
6.2 进一步研究工作 |
参考文献 |
作者简历及攻读博士学位期间取得的研究成果 |
学位论文数据集 |
(3)基于数据挖掘技术的未成年罪犯管理系统的设计与实现(论文提纲范文)
摘要 |
Abstract |
第1章 绪论 |
1.1 课题研究背景与意义 |
1.2 国内外研究现状 |
1.3 研究目标和研究内容 |
1.4 本文结构 |
第2张相关技术分析 |
2.1 Java语言 |
2.2 数据挖掘 |
2.3 一体化建模 |
2.4 MVC框架 |
2.5 数据库应用技术 |
2.6 本章小结 |
第3章 系统需求分析 |
3.1 系统功能需求分析 |
3.2 系统功能分析 |
3.3 关键用例分析 |
3.4 系统非功能性需求分析 |
3.5 本章小结 |
第4章 系统设计 |
4.1 系统设计目标 |
4.2 系统安全设计 |
4.3 系统整体架构设计 |
4.4 系统接口设计 |
4.5 系统功能模块设计 |
4.6 数据库设计 |
4.7 本章小结 |
第5章 系统实现与测试 |
5.1 系统实现环境 |
5.2 系统登录模块实现 |
5.3 用户管理模块实现 |
5.4 档案管理模块实现 |
5.5 数据导入与挖掘模块实现 |
5.6 系统测试 |
5.7 本章小结 |
结论 |
参考文献 |
致谢 |
(4)基于邻域用户模型的主题推荐研究(论文提纲范文)
摘要 |
ABSTRACT |
1 绪论 |
1.1 研究背景与研究意义 |
1.1.1 研究背景 |
1.1.2 研究意义 |
1.2 研究目的和主要内容 |
1.2.1 研究目的 |
1.2.2 主要内容 |
1.3 研究方法与技术路线 |
1.3.1 研究方法 |
1.3.2 技术路线 |
1.4 主要创新点 |
1.5 本文的组织结构 |
2 理论基础及文献综述 |
2.1 用户模型理论基础 |
2.1.1 用户模型分类 |
2.1.2 用户模型的信息来源 |
2.1.3 用户模型建模方法 |
2.1.4 用户模型的表示 |
2.1.5 用户模型的更新 |
2.2 用户模型扩展综述 |
2.3 推荐算法综述 |
2.3.1 协同过滤 |
2.3.2 基于内容的推荐 |
2.3.3 混合推荐系统 |
2.3.4 其他推荐系统 |
2.4 本章小节 |
3 邻域用户模型构建 |
3.1 基于邻域用户模型的主题推荐流程 |
3.2 邻域用户模型的生成 |
3.2.1 用户模型构建 |
3.2.2 扩展用户模型 |
3.2.3 邻域用户模型 |
3.3 邻域用户模型分析 |
3.4 基于邻域好友模型的主题推荐方法 |
3.5 本章小节 |
4 实验仿真及结果分析 |
4.1 评价指标 |
4.2 数据描述 |
4.3 实验结果评估分析 |
4.3.1 δ值与α值分析 |
4.3.2 K值变化对推荐效果的影响 |
4.3.3 推荐效果评估 |
4.4 本章小节 |
5 结论与展望 |
5.1 研究结论 |
5.2 未来研究建议 |
致谢 |
参考文献 |
附录:作者在读期间发表的学术论文及其参加的科研项目 |
(5)面向百科知识库的实体-引文相关性分类技术研究(论文提纲范文)
摘要 |
Abstract |
第1章 绪论 |
1.1 本论文研究的背景和意义 |
1.2 国内外研究现状及趋势 |
1.2.1 在线知识库累积引文推荐 |
1.2.2 命名实体链接 |
1.2.3 命名实体分类 |
1.2.4 突发特征挖掘 (Bursty Mining) |
1.2.5 信息推荐 |
1.3 研究内容与创新点 |
1.4 本论文的结构 |
第2章 实体-引文相关性分类技术 |
2.1 在线百科知识库累积引文推荐及处理流程 |
2.2 问题描述 |
2.3 CCR数据集 |
2.3.1 目标实体集合 |
2.3.2 文档集合 |
2.3.3 标注情况 |
2.4 实体-引文相关性分类技术框架 |
2.5 工作数据集 |
2.6 本章小结 |
第3章 基于实体突发特征的文本表示模型 |
3.1 引言 |
3.2 相关工作 |
3.3 基于实体突发特征的文档表示 |
3.3.1 实体突发特征检测算法 |
3.3.2 实体-引文的特征表示 |
3.4 实体-引文相关性判别分类模型 |
3.5 实验设计 |
3.5.1 数据集 |
3.5.2 任务场景 |
3.5.3 系统评价指标 |
3.5.4 实验对比方法 |
3.5.5 实验整体结果及分析 |
3.5.6 实体级粒度比较 |
3.6 本章小结 |
第4章 实体-引文类别依赖的混合模型 |
4.1 引言 |
4.2 相关工作 |
4.3 实体-引文类别依赖的判别混合模型 |
4.3.1 问题定义 |
4.3.2 全局判别分类模型 |
4.3.3 实体-引文类别依赖的判别混合模型 |
4.3.4 模型参数估计 |
4.3.5 实体-引文类别依赖判别混合模型的两个特例 |
4.3.6 混合模型的优点 |
4.4 实体、引文的特征选择 |
4.4.1 实体-引文特征 |
4.4.2 实体类别特征 |
4.4.3 引文类特征 |
4.5 实验设计 |
4.5.1 数据集 |
4.5.2 任务场景 |
4.5.3 实验比对方法 |
4.5.4 参数选择策略 |
4.5.5 实验结果评价指标 |
4.5.6 实验结果及分析 |
4.5.7 判别混合模型的泛化能力 |
4.6 本章小结 |
第5章 融入偏好信息的分类模型 |
5.1 引言 |
5.2 相关工作 |
5.2.1 扩展的SVMs |
5.2.2 选择抽样 |
5.3 偏好增强的支持向量机 (PSVM) |
5.3.1 原问题与对偶问题 |
5.3.2 对偶问题的最优条件 |
5.3.3 扩展的SMO算法 |
5.4 二层启发式抽样算法 |
5.5 实验设计及结果分析 |
5.5.1 TREC-KBA-2012 实验 |
5.5.2 强化实验 |
5.6 本章小结 |
第6章 实体-引文联合的深度网络分类模型 |
6.1 引言 |
6.2 相关工作 |
6.3 问题定义 |
6.4 Deep Jo ED模型 |
6.4.1 Deep Jo ED框架 |
6.4.2 输入层 |
6.4.3 查表层 |
6.4.4 卷积和最大化池层 |
6.4.5 交互层 |
6.4.6 输出层 |
6.5 网络学习 |
6.5.1 正则化 |
6.5.2 超参数 |
6.6 实验设计与分析 |
6.6.1 数据集 |
6.6.2 任务场景 |
6.6.3 模型度量指标 |
6.6.4 实验设置 |
6.6.5 预训练词向量 |
6.6.6 实验方法 |
6.6.7 实验结果及分析 |
6.6.8 词向量维度的影响 |
6.7 本章小结 |
第7章 结论 |
参考文献 |
攻读学位期间发表论文与研究成果清单 |
攻读学位期间参与的项目 |
致谢 |
作者简介 |
(6)基于BIBFRAME的科技成果多维度聚合研究(论文提纲范文)
中文摘要 |
Abstract |
1 绪论 |
1.1 研究背景与研究意义 |
1.1.1 研究背景 |
1.1.2 研究意义 |
1.2 国内外研究现状 |
1.2.1 科技成果聚合研究现状 |
1.2.2 BIBFRAME(书目框架)应用现状 |
1.3 研究方法 |
1.3.1 研究思路 |
1.3.2 研究路线 |
1.4 研究创新点 |
1.5 论文的组织结构 |
2 科技成果聚合理论基础 |
2.1 科技成果组织与评价理论 |
2.1.1 科技成果内涵及外延 |
2.1.2 科技成果组织理论——方法、模型及工具 |
2.1.3 科技成果评价理论—方法、模型及工具 |
2.2 BIBFRAME相关理论 |
2.2.1 BIBFRAME衍生背景 |
2.2.2 BIBFRAME发展历程 |
2.2.3 BIBFRAME支撑技术 |
2.2.4 BIBFRAME的应用 |
2.3 本章小结 |
3 基于BIBFRAME的科技成果语义描述 |
3.1 传统资源描述方法 |
3.2 基于BIBFRAME的资源描述方法 |
3.3 基于BIBFRAME的科技成果资源描述优势分析 |
3.4 本章小结 |
4 科技成果层级关系模型构建 |
4.1 科技成果层级关系描述 |
4.2 基于BIBFRAME的科技成果层级关系模型构建 |
4.2.1 基于内容特征的科技成果关联 |
4.2.2 基于外部特征的科技成果关联 |
4.3 基于BIBFRAME的科技成果层级关系数据的创建 |
4.4 本章小结 |
5 基于BIBFRAME的科技成果多维度聚合流程 |
5.1 科技成果资源聚合的必要性分析 |
5.2 聚合的目标与原则 |
5.2.1 聚合的目标 |
5.2.2 聚合的基本原则 |
5.2.3 聚合的作用 |
5.3 科技成果多维度语义聚合模式 |
5.3.1 基于内容维度的多维度聚合 |
5.3.2 基于结构维度的多维度聚合 |
5.3.3 基于使用维度的多维度聚合 |
5.4 BIBFRAME与传统数据格式的映射转换 |
5.5 科技成果多维度聚合效果评估 |
5.6 本章小结 |
6 基于BIBFRAME的科技成果多维度聚合实证分析 |
6.1 数据源获取 |
6.2 映射转换结果 |
6.2.1 直接聚合转换 |
6.2.2 间接聚合转换 |
6.3 UML转换法 |
6.3.1 工具概述 |
6.3.2 转化过程描述 |
6.4 本章小结 |
7 总结与展望 |
7.1 研究总结 |
7.2 研究展望 |
参考文献 |
学习期间参与的项目及研究成果 |
致谢 |
(7)基于MapReduce的移动轨迹大数据挖掘方法与应用研究(论文提纲范文)
摘要 |
ABSTRACT |
第一章 绪论 |
1.1 城市计算与大数据 |
1.2 移动轨迹大数据分析与挖掘 |
1.3 本文的研究对象、研究内容和组织结构 |
1.3.1 研究对象 |
1.3.2 研究内容 |
1.3.3 组织结构 |
第二章 并行与分布式计算概述及大数据分析平台搭建 |
2.1 Apache Hadoop架构 |
2.1.1 Hadoop分布式文件系统 |
2.1.2 MapReduce并行编程模型 |
2.2 搭建大数据分析平台 |
2.2.1 平台搭建 |
2.2.2 平台测试 |
2.3 面向大数据分析平台的拓展应用 |
2.3.1 实验数据 |
2.3.2 实验评估与可视分析 |
2.4 本章小结 |
第三章 基于MapReduce并行关联挖掘的时空特征分析研究 |
3.1 引言 |
3.2 相关工作 |
3.2.1 关联规则 |
3.2.2 频繁模式增长算法 |
3.3 问题陈述与解决方法 |
3.3.1 问题分析 |
3.3.2 方法描述 |
3.4 MR-PFP算法 |
3.4.1 算法描述 |
3.4.2 海量小文件处理策略 |
3.4.3 基于MapReduce的并行化实现 |
3.5 案例研究 |
3.5.1 数据集 |
3.5.2 关联分析 |
3.6 性能评估与结果分析 |
3.6.1 实验配置 |
3.6.2 算法性能评估 |
3.6.3 小文件处理方法与选择策略评估 |
3.7 本章小结 |
第四章 基于MapReduce并行聚类分析的分布式交通小区划分研究 |
4.1 引言 |
4.2 相关工作 |
4.2.1 交通小区划分 |
4.2.2 并行K均值算法 |
4.2.3 MapReduce框架 |
4.3 问题陈述与解决方法 |
4.3.1 问题分析 |
4.3.2 方法描述 |
4.4 Par3PKM算法 |
4.4.1 算法描述 |
4.4.2 距离度量与聚类初始化 |
4.4.3 基于MapReduce的并行化实现 |
4.4.4 复杂度分析 |
4.5 案例研究 |
4.5.1 数据集 |
4.5.2 并行聚类 |
4.5.3 边界识别 |
4.5.4 结果分析 |
4.6 性能评估与结果分析 |
4.6.1 实验配置 |
4.6.2 效率评估 |
4.6.3 准确性评估 |
4.6.4 加速比评估 |
4.6.5 扩展性评估 |
4.6.6 可靠性评估 |
4.7 本章小结 |
第五章 基于MapReduce分布式时空权重模型的短时交通流预测研究 |
5.1 引言 |
5.2 相关工作 |
5.2.1 短时交通流预测 |
5.2.2 K近邻回归模型 |
5.3 问题陈述与解决方法 |
5.3.1 问题分析 |
5.3.2 问题定义 |
5.3.3 方法描述 |
5.4 MF-TFF框架 |
5.5 STW-KNN模型 |
5.5.1 状态向量 |
5.5.2 相似性度量 |
5.5.3 预测函数 |
5.5.4 K值选择 |
5.5.5 基于MapReduce的并行化实现 |
5.6 性能评估与结果分析 |
5.6.1 实验配置 |
5.6.2 实验方法 |
5.6.3 评估指标 |
5.6.4 准确性评估 |
5.6.5 加速比与扩展性评估 |
5.7 本章小结 |
第六章 基于MapReduce并行时空相关性分析的实时交通流预测研究 |
6.1 引言 |
6.2 问题陈述与解决方法 |
6.2.1 问题分析 |
6.2.2 方法描述 |
6.3 TFPC方法 |
6.3.1 系统框架 |
6.3.2 相关性分析 |
6.3.3 并行分类器 |
6.3.4 预测计算方法 |
6.4 基于MapReduce的并行化实现 |
6.4.1 Mapper函数 |
6.4.2 Combiner函数 |
6.4.3 Reducer函数 |
6.4.4 复杂度分析 |
6.5 性能评估与结果分析 |
6.5.1 实验配置 |
6.5.2 评估指标 |
6.5.3 准确性评估 |
6.5.4 加速比评估 |
6.5.5 扩展性评估 |
6.5.6 规模增长性评估 |
6.6 本章小结 |
第七章 总结与展望 |
7.1 工作总结及主要创新 |
7.2 工作展望及研究构想 |
参考文献 |
攻博期间科研情况 |
致谢 |
(8)微博网络中的重叠社区发现算法研究(论文提纲范文)
致谢 |
摘要 |
ABSTRACT |
1 绪论 |
1.1 研究背景与意义 |
1.2 论文研究内容 |
1.3 论文结构安排 |
2 复杂网络与社区发现 |
2.1 引言 |
2.2 复杂网络 |
2.2.1 复杂网络的概念与表示方法 |
2.2.2 复杂网络的特征度量 |
2.2.3 复杂网络的特性 |
2.3 社区发现 |
2.3.1 复杂网络的社区结构 |
2.3.2 社区结构评价函数 |
2.3.3 复杂网络的社区发现算法 |
2.4 微博网络的社区发现 |
2.4.1 基于微博主题的社区发现 |
2.4.2 基于用户属性的社区发现 |
2.4.3 基于交互行为的社区发现 |
2.5 遗传算法 |
2.5.1 遗传算法原理 |
2.5.2 遗传算法在社区发现中的应用 |
2.6 本章小结 |
3 微博网络的用户关系评估 |
3.1 引言 |
3.2 基于用户显性关系的静态拓扑结构 |
3.3 基于交互信息的用户关系评价 |
3.4 基于主题兴趣的用户关系评价 |
3.4.1 中文分词与特征词提取 |
3.4.2 基于微博的用户关系评价 |
3.4.3 基于标签的用户关系评价 |
3.5 微博用户关系强度评估模型 |
3.6 本章小结 |
4 基于遗传算法的重叠社区发现 |
4.1 引言 |
4.2 编码方式与个体适应度函数 |
4.3 种群初始化 |
4.3.1 社区中心节点的生成 |
4.3.2 初始社区的生成 |
4.4 交叉算子 |
4.5 变异算子 |
4.6 选择算子 |
4.7 种群迁移策略 |
4.8 算法整体描述 |
4.9 本章小结 |
5 大数据环境下算法的分布式实现 |
5.1 引言 |
5.2 HADOOP分布式计算框架 |
5.2.1 MapReduce分布式计算模型 |
5.2.2 Hadoop分布式运行环境 |
5.3 微博网络加权策略的分布式实现 |
5.4 多种群遗传算法的分布式实现 |
5.4.1 并行遗传算法 |
5.4.2 OCDGA算法的分布式实现 |
5.5 本章小结 |
6 实验结果与分析 |
6.1 引言 |
6.2 人工网络结果分析 |
6.3 经典真实网络结果分析 |
6.4 微博网络结果与分析 |
6.4.1 微博网络数据的采集 |
6.4.2 社区发现结果与分析 |
6.5 本章小结 |
7 总结与展望 |
7.1 总结 |
7.2 展望 |
参考文献 |
作者简历及攻读硕士学位期间取得的研究成果 |
学位论文数据集 |
(9)基于领域概念关联的网络社区知识聚合研究(论文提纲范文)
摘要 |
Abstract |
0 绪论 |
0.1 选题背景 |
0.2 研究意义 |
0.2.1 理论意义 |
0.2.2 现实意义 |
0.3 国内外研究现状分析 |
0.3.1 网络社区中用户交流特征与内容挖掘研究 |
0.3.2 领域概念关联体系构建 |
0.3.3 基于领域概念关联的知识组织研究 |
0.3.4 知识聚合相关研究 |
0.3.5 研究述评 |
0.4 研究内容、方法和创新点 |
0.4.1 研究内容 |
0.4.2 研究方法 |
0.4.3 研究创新点 |
1 面向网络社区的知识聚合 |
1.1 网络社区中的信息交流特征与知识组织需求 |
1.1.1 网络社区中的用户交流特征 |
1.1.2 网络社区中的知识组织需求 |
1.2 面向网络社区的知识聚合发展 |
1.2.1 从信息聚合到知识聚合 |
1.2.2 从馆藏资源知识聚合到网络社区知识聚合 |
1.3 知识关联与概念知识关联 |
1.3.1 知识关联的内涵 |
1.3.2 知识关联的类型 |
1.3.3 概念知识关联及其类型 |
1.4 网络社区的知识聚合模式 |
1.4.1 网络社区知识聚合的知识单元粒度 |
1.4.2 网络社区知识聚合的形式 |
2 领域分析视角下的网络社区知识聚合模型构建 |
2.1 知识组织中的领域分析视角 |
2.1.1 领域知识的内涵 |
2.1.2 领域知识分析范式及其对知识组织的影响 |
2.2 领域知识分析视角下的概念关联 |
2.2.1 领域知识背景对概念关联的作用 |
2.2.2 领域概念关联的特征 |
2.3 领域概念关联对网络知识组织的作用机制 |
2.3.1 领域概念关联在知识类聚中的作用 |
2.3.2 领域概念关联在知识链接体系中的作用机制 |
2.4 基于领域概念关联的网络社区知识聚合模型构建 |
3 领域结构化概念关联体系的构建 |
3.1 基于概念关联的结构化知识组织体系 |
3.1.1 结构化知识组织体系及其类型 |
3.1.2 概念类聚体系 |
3.1.3 概念关联体系 |
3.2 领域结构化概念关联体系的构建流程与关键问题 |
3.2.1 领域结构化概念关联体系的构建流程 |
3.2.2 领域概念单元的获取 |
3.2.3 领域概念关联抽取 |
3.3 结构化概念关联体系间的语义映射 |
3.3.1 结构化概念体系的概念映射与标准化 |
3.3.2 结构化概念体系的间概念关联合并 |
3.4 领域结构化概念关联体系的语义形式化 |
3.4.1 SKOS语言体系 |
3.4.2 OWL 2语言体系 |
3.4.3 结构化概念体系关系数据模型的语义形式化 |
3.5 实验:基于主题词表和百科内容挖掘的心血管领域结构化概念关联体系构建 |
3.5.1 基于医学主题词表的心血管基本概念关联体系构建 |
3.5.2 基于百科内容抽取的心血管概念关联体系构建 |
3.5.3 结构化概念关联体系间语义内容映射 |
3.5.4 心血管概念关联体系的OWL 2形式化表示 |
4. 领域共现型概念关联体系的构建 |
4.1 基于文本图模型的概念共现关系表示 |
4.1.1 文本中的概念共现关系 |
4.1.2 文本图模型及其形式化表达 |
4.1.3 文本中概念共现关系的边权重计算 |
4.1.4 基于文本图模型的领域概念共现网络构建流程 |
4.2 领域概念共现矩阵的生成 |
4.2.1 网络社区文本集的构建 |
4.2.2 中文切分词与同义词合并 |
4.2.3 领域术语识别 |
4.2.4 概念共现关系提取与共现矩阵构建 |
4.3 领域概念关联网络构建 |
4.3.1 概念共现关系强度的标准化处理 |
4.3.2 基于共现关系的概念相似度计算 |
4.3.3 基于相似度转化的概念共现网络生成 |
4.4 实验:心血管领域共现型概念关联体系构建 |
4.4.1 用户交流内容采集和预处理 |
4.4.2 基于ICTCLAS的用户交流内容切分词处理 |
4.4.3 同义术语映射与信息合并 |
4.4.4 融合TF-IDF和词长加权的领域术语提取 |
4.4.5 领域术语的共现关系提取与矩阵生成 |
4.4.6 概念相似度计算与概念共现网络构建 |
5 领域多元概念关联体系的融合 |
5.1 多元概念体系的融合机理 |
5.1.1 基于优势互补的多元概念关联体系融合原则 |
5.1.2 多元概念关联体系融合的主体问题 |
5.1.3 多元概念体系融合的形式问题 |
5.2 多元概念体系融合中的概念术语映射 |
5.2.1 同义术语的映射 |
5.2.2 同形异义术语定位 |
5.2.3 概念相关信息的合并 |
5.3 多元概念体系融合中的语义关系映射 |
5.3.1 多元概念体系间语义关系映射的规则 |
5.3.2 等级关系映射与关系强度计算 |
5.3.3 细粒度相关关系的映射与发现 |
5.4 多元概念体系融合的形式化表达 |
5.4.1 多元概念体系融合后的数据关系 |
5.4.2 基于关系数据模型的多元概念体系融合的形式化 |
5.5 实验:心血管领域结构化概念体系与共现型概念体系的融合实现 |
5.5.1 概念映射与信息合并 |
5.5.2 术语等级关系映射与相似度融合计算 |
5.5.3 术语细粒度相关关系映射与相似度融合计算 |
5.5.4 术语细粒度相关关系发现 |
6 网络社区中基于概念关联的知识聚合实现 |
6.1 基于领域概念关联的网络社区知识聚合模式 |
6.1.1 领域概念关联体系在网络社区知识类聚中的作用 |
6.1.2 领域概念关联体系在网络社区知识共聚中的作用 |
6.1.3 网络社区多维知识聚合模式 |
6.2 基于领域概念关联的网络社区知识类聚实现 |
6.2.1 聚类方法 |
6.2.2 网络子群划分方法 |
6.2.3 基于领域概念关联体系的网络社区主题类聚实现 |
6.2.4 基于领域概念关联体系的网络社区文本类聚实现 |
6.3 基于领域概念关联体系的网络社区知识共聚实现 |
6.3.1 基于领域概念关联体系的网络社区分面检索与导航体系实现 |
6.3.2 基于领域概念关联体系的网络社区主题多维关联推荐体系实现 |
6.3.3 基于领域概念关联体系网络社区的知识元链接体系实现 |
6.3.4 基于领域概念关联体系的网络社区资源关联发现 |
6.4 实验:丁香园心血管社区的知识聚合实现 |
6.4.1 心血管社区中的主题分面导航与检索体系实现 |
6.4.2 心血管社区中的主题多维推荐体系实现 |
6.4.3 心血管社区中的知识元链接体系实现 |
6.4.4 心血管社区中的非相关文献知识发现思路验证 |
7 总结与展望 |
7.1 全文总结 |
7.2 研究不足 |
7.3 研究展望 |
附录:实验核心代码 |
附录1:用JAVA调用ICTCLAS分词模块 |
附录2:名词提取及处理(计算TF、IDF值,生成名词共现关系) |
附录3:领域术语的共现关系提取 |
附录4:领域术语的共现关系统计 |
参考文献 |
攻读博士学位期间的科研情况 |
致谢 |
(10)面向知识服务的知识组织过程研究(论文提纲范文)
1 引言 |
2 国内外文献述评 |
3 知识组织过程总体架构 |
4 知识组织过程设计 |
4.1 欲组织知识资源 |
4.1.1 欲组织资源界定和来源 |
4.1.2 欲组织资源的构成 |
4.1.3 资源获取与清洗 |
4.2 知识、资源与用户需求的映射 |
4.2.1 资源规范化表示 |
4.2.2 知识表示 |
4.2.3 用户需求规范化表示 |
4.2.4 映射的构建 |
4.3 知识组织结构设计 |
4.4 再生知识的产生 |
4.4.1 挖掘和推理方法选择 |
4.4.2 关联分析 |
4.4.3 分类聚类 |
4.4.4 再生知识检测和修正 |
4.5 知识组织的实现 |
5 结语 |
四、基于关联分析的粗粒度级个性化信息挖掘(论文参考文献)
- [1]融合情感因素的在线学习者建模与课程推荐研究[D]. 张雨琴. 湖北大学, 2019(05)
- [2]农业数据智能感知与分析关键技术研究[D]. 顾静秋. 北京交通大学, 2018(01)
- [3]基于数据挖掘技术的未成年罪犯管理系统的设计与实现[D]. 章盛. 湖南大学, 2018(06)
- [4]基于邻域用户模型的主题推荐研究[D]. 胡亚兰. 杭州电子科技大学, 2018(01)
- [5]面向百科知识库的实体-引文相关性分类技术研究[D]. 马乐荣. 北京理工大学, 2018(06)
- [6]基于BIBFRAME的科技成果多维度聚合研究[D]. 段菲菲. 华中师范大学, 2017(05)
- [7]基于MapReduce的移动轨迹大数据挖掘方法与应用研究[D]. 夏大文. 西南大学, 2016(01)
- [8]微博网络中的重叠社区发现算法研究[D]. 王宁伟. 北京交通大学, 2016(07)
- [9]基于领域概念关联的网络社区知识聚合研究[D]. 陈果. 武汉大学, 2015(07)
- [10]面向知识服务的知识组织过程研究[J]. 徐绪堪,苏新宁,冯兰萍. 情报资料工作, 2015(01)