一、中文OCR与数字化图书馆建设(论文文献综述)
张海燕[1](2016)在《IQA在数字化文献质量评估中的应用研究》文中指出IQA(Image Quality Assessment图像质量评价)是一种测评数字化文献质量优劣的客观方法。文章利用IQA对不同扫描模式、不同扫描分辨率获得的数字化文献分别进行图像质量测值和文字识别错误测值,结合图表对测值进行了波动分析。研究发现,数字化文献的质量高低并非完全取决于扫描分辨率,在常规的黑白、4阶灰度扫描模式下,并非扫描分辨率越高,图像质量就越好,而是当分辨率取200-400 DPI时获得的图像质量测值最低而图像质量最好。基于测值的波动分析,进一步给出了文献数字化在不同模式下比较理想的扫描分辨率范围。
王东[2](2015)在《传统出版企业数字出版创新研究》文中提出数字化信息时代的到来,推动了数字出版这一新兴产业的形成与发展。数字出版所具有的成本低、环保度高、流通性强、更新速度快、传播面广等特性使得其在极快的发展时间内迅速占领了大部分出版市场,得到了消费者的普遍认可。这一发展趋势也使得传统出版企业做出了转型的思考。与此同时,这一新兴产业所蕴含的巨大发展潜力也促使了各大商家企业纷纷投入到市场竞争中来,为数字出版产业链的形成添砖加瓦,反向推动传统出版企业数字出版创新的进程与速率。本文采用定量研究与定性研究相结合的方式,综合运用比较分析法、案例分析法、文献分析法、归纳演绎法、回归分析、博弈论等科学的研究方法,在充分认识数字出版的基础上,对传统出版企业数字出版创新影响因素、技术创新、产品创新以及商业模式创新进行多方面、多角度的深入研究,较为系统的提出了传统出版企业数字出版创新应用理论框架,最后在整体研究的基础上得出文章结论,并通过分析阐述,提出国家主管机构、传统出版企业在数字出版转型过程中具体实施建议。本文第一章首先对研究背景和问题的提出做出了说明。一方面从企业实践的角度,阐述数字出版创新的现实背景。着重分析社会经济、技术条件导致需求的变化,约束数字出版的必然性;从国际经济竞争和文化竞争视角阐述数字出版的必要性。同时结合目前国内外数字出版的比较分析,特别强调由于我国的数字出版正处于初期起步阶段,加上传统模式影响、起步基础薄弱、创新动力不足等因素制约,更加凸显了数字出版创新工作的难度。另一方面,从理论层面指出目前关于数字出版创新的系统研究还很匮乏,对于产业的发展认识还不够深刻,因此本文在填补理论研究空白方面具有一定的推动意义。本文第二章主要介绍关于创新、企业创新及数字出版创新方面的国内外研究成果。首先归纳总结了国内外专家学者们对于创新和企业创新的系统研究;其次梳理了现阶段数字出版已有的创新理论和观点;本着从一般到具体的研究思路,系统的对现有的研究成果做以详细的阐释和解读,从而寻找和确定本文的理论研究基点:着眼于传统出版企业数字出版创新影响因素分析、技术创新、产品及商业模式创新等具体研究内容。本文第三章是对我国传统出版企业数字出版创新的影响因素分析。借助较为成熟的创新影响因素分析理论模型,通过实际的调查问卷,借助数学的统计和分析方法,从企业外部和内部的双重影响因素入手,客观分析传统出版企业在数字出版创新实践中,各影响因素的作用权重,并重点选取资金投入和人才要素,建立影响因素数学模型,进而加以效用验证,提出具体的实施建议。本文第四章针对传统出版企业数字出版创新中的技术创新内容进行分析和研究。主要分为三个部分:首先对现有技术状况进行细致分析;其次,就传统出版企业技术创新的范式提出建议;在此基础上,借助基础的技术创新理论,提出数字出版技术创新的方向,最后进行本章小结。本文第五章着重对数字出版产品创新进行研究。数字出版产品创新是目前传统出版企业面临最为严峻的考验,是数字出版长久可持续发展以及实现产业目标的基础保障。本章首先从产品的本质分析角度,通过与传统出版产品以及数字出版产品现状的比较分析入手,结合用户需求变化的深刻解读,提出数字出版产品创新的内容,并面向运营的需求,特别提出数字产品描述属性模型,从而对数字出版产品创新提供可借鉴的方式和方法,推动产业的发展和进步。本文第六章是对数字出版商业模式创新的研究。借助成熟的商业模式创新理论,分析和比较现有商业模式,运用博弈论的方法,提出传统出版企业数字出版商业模式创新的设计方法、模式选择及实施路径。并以新品数字图书为例,设计和展示B2B电子商务模式的可行性。本文第七章为全文的总结及政策建议。通过整体的研究,首先建议政府应该站在市场经济的基本原则下,对传统出版企业的转型创新,给与适度引导和保障。肯定和接受政府相关主管部门对产业提供导向和前期扶持工作,并进一步建议强化基础产业标准的建设和规范工作;其次对众多的传统出版企业,建议充分认识到数字出版的必然趋势,尽一切可能抢占市场先机,同时提出协同和优势定位的战略建议,以期实现巩固和发展核心竞争力的经营目标。
毛建军[3](2011)在《古籍数字化商业运作研究》文中进行了进一步梳理我国的古籍数字化事业发展迅速,大量古籍资源被开发成数字化产品。其中尤以数字化企业参与研发的古籍数字化资源最为成功。古籍数字化企业在技术实践方面取得了重大突破,商业化运作成果显着。但古籍数字化商业化运作刚刚起步,其人才培养问题、选题重复问题及版本标注问题亟需解决。
郭军[4](2011)在《信息资源数字化文本型数字图像OCR识别准确度影响因素及提高策略研究》文中研究表明信息资源数字化工作中的OCR识别,是整项工作的一个有机组成部分,其生命周期可以分为数字扫描对象的获取、数字图像的生产、数字图像的处理和OCR文本识别等四个阶段。OCR识别在信息资源数字化工作中应用时,其准确度一直是人们关注的焦点,因为OCR精确识别是保证数字化产品质量进而为整项工作提供用户保障的一个重要环节。文章着眼于将OCR识别工作整体作为信息资源数字化工作流程中的一个有机组成部分,同时又将该项工作按照其自身的生命周期的四个阶段依次展开。文章首先基于OCR识别周期,分别详细探讨了每个阶段中可能会对识别准确度造成影响的各种因素。随后,文章在明确文本型数字图像OCR识别准确度的各种相关影响因素的基础上,提出了提高识别准确度的相应策略。鉴于信息资源数字化中OCR识别工作的特点,文章将重点放在了对数字图像生产、数字图像处理和OCR文本识别这三个阶段中文本型数字图像OCR识别准确度影响因素以及相应提高策略的论述上。文章共分为如下四个章节:第一章为引言部分,介绍文章的选题缘起和意义,概述已有的相关研究内容,对所采用的主要研究方法和创新点进行了阐述。第二章为文本型数字图像OCR识别准确度影响因素分析。基于OCR识别生命周期的四个阶段对文本型数字图像OCR识别准确度的一系列影响因素进行全面分析。第三章为文本型数字图像OCR识别准确度提高策略探讨。在第二章的基础上,系统地提出了有针对性的文本型数字图像OCR识别准确度提高策略。第四章为总结,对本文的研究内容进行总结,指出尚存在的不足之处,明确今后的努力方向。
田大增[5](2007)在《视觉文档图像识别预处理》文中研究指明由于数码相机等数字成像设备的焦距、曝光选择,以及被拍摄文档存在折痕、污渍和角度变形的原因,从而使得拍摄出的视觉文档图像产生噪声、整体明暗不均、扭曲变形等情况,这些现象轻则影响到OCR系统文字的识别率,重则无法识别。针对视觉文档图像中出现的上述问题,本文给出了噪声去除、光学校正以及几何校正等预处理方法,改善了视觉文档图像的质量,提高了文档图像光学字符的识别率。主要工作如下:1、针对视觉文档图像在获取、处理、传输中产生的椒盐噪声,提出一种基于文字笔画特性的消除椒盐噪声的算法。该算法通过判断被处理像素及其邻域像素点是否为噪声,从而有效地将文字目标和椒盐噪声加以区分。实验结果显示,相比传统的去噪和平滑算法,该方法能准确地抑制噪声,同时避免了对文字笔画的影响,减少了对后继识别的干扰。2、针对视觉文档图像存在的反渗噪声,本文根据其不同的直方图特征,分别提出处理方法。对于灰度直方图呈双峰特性的含反渗噪声的视觉文档图像,反渗印迹的灰度值与正面字迹的灰度值相差较大,可将像素值分为三个不同的区间,分别进行处理,对于中间的区间进行增强处理,而对于其余两个区间进行归一化处理,从而能够有效地去除反渗噪声;对于直方图呈现单峰特性的反渗噪声,提出一种基于背景分离的去除反渗噪声方法,经实验验证,该算法可以有效去除单峰图像的反渗噪声。3、针对具有折痕噪声的视觉文档图像,提出目标增强的处理方法,解决了折痕在识别时造成的问题,提高了OCR的识别率。4、对于模糊的文档图像,提出一种寻找文字骨架的方法,该方法能够有效地消除图像的模糊。5、对于曝光不良视觉文档图像,分两种情况进行讨论:(1)针对曝光不足的视觉文档图像所存在的问题,提出一种视觉文档图像目标增强算法,将文字图像中的目标和背景加以区分,并对图像背景进行归一化,对图像目标部分进行增强处理。实验结果显示,该方法可以有效地处理曝光不足的低对比度视觉文档图像,提高OCR识别率。(2)对于曝光过度的视觉文档图像而言,提出使用双侧增强来进行处理的方法。6、对于边缘模糊的视觉文档图像,利用小波变换将图像进行分解,根据需要对不同位置、不同方向上的某些小波分量通过扩大或缩小其系数,从而使得某些感兴趣的分量放大而使某些不需要的分量减小,使得图像得到增强,提高文字识别率。7、针对圈边文字图像,利用基于邻域跟踪的边框去除方法,有效地去除圈边及长线段。8、对于由积厚文档造成的视觉文档图像扭曲变形,利用单向伸展的几何校正方法,实现了文字行的扩大,进而分析了分栏图像的特点,并采用分段拟合校正图像的方法,提高了OCR识别率。
曹玲[6](2006)在《农业古籍数字化整理研究》文中研究表明整理研究古代典籍,需要积累丰富的文史知识和掌握完备的文献资料。目前信息技术高度发达的社会,依靠人脑记忆来积累知识,靠纸笔来记录文献资料的传统做法已难以适应时代发展的要求。计算机在资料的储存、整理、检索和利用等方面,较之传统的工作方式有着无可比拟的优越性,可以把我们从大量的手工劳动中解放出来,大大提高了工作效率。正因如此,现代信息技术已在越来越多的社会科学研究领域得到广泛运用。计算机技术应用于古籍整理和研究方面虽然起步较晚,但也已取得了不少成果,值得我们学习借鉴。 随着计算机技术、通信技术和网络技术的发展,借助信息技术开展农业古籍整理,实现农业古籍数字化已成为必然趋势。农业古籍的数字化实质上是农业古籍整理方式的计算机化、网络化及智能化。 本文从农业古籍角度出发,对利用数字化手段进行农业古籍整理的各个方面进行深入研究。首先回顾了百年来农业古籍整理的主要成就,并总结我国古籍数字化整理的历程,分析了古籍整理走数字化道路的必要性和可行性,并分别就农业古籍书目数据库的建设、农业古籍元数据的设计、农业古籍全文数据库的构建等几个方面进行详细论述。其后以中国农业遗产信息平台的设计和构建为例,分析了农史综合性文献数据库的建设方案和流程,最后以《齐民要术》研究知识库为例说明农业古籍专题数据库的构建。本文认为,农业古籍数字化要走向深入,未来需要走一条以知识挖掘、人工智能技术为代表的数字化道路。 本文研究内容及结论有以下几个方面: 首先回顾了近代以来我国农业古籍整理的历程与主要成果,文中将我国农业古籍整理工作分为4个主要阶段(萌芽时期、奠基时期、蓬勃发展时期、深入发展时期),分析各个时期的基本特征和主要成果。可以看出,经过近百年的发展,我国农业古籍整理工作取得了巨大成就,整理出版了一批农业古籍资料,同时也为农业历史学科研究提供了最基本的资料。可以说,在科技史类典籍整理领域,农史文献与医史文献并驾齐驱,处于领先地位。但是,与广义的文史古籍的整理相比,农业古籍整理数字化工作处于起步阶段,差距十分明显。 其后分析了古籍数字化整理工作的必要性,总结我国古籍数字化整理的发展历程,对我国古籍数字化整理过程中存在的各种问题,如标准化、合作协调、人才培
李三凤[7](2006)在《我国高校图书馆特色数据库建设研究》文中认为数字化时代的高校图书馆,把建设特色数据库作为迎接时代挑战的主要措施之一。特色数据库建立的目的是为了充分发挥图书馆特色化信息资源的功能,为教学科研服务,为经济建设和社会发展服务,最大限度地满足用户的信息需求。特色数据库的建立可以树立高校图书馆的品牌地位,以增强图书馆在信息社会中的竞争能力,是高校图书馆在信息化社会中的立足之本。本文理论联系实际,采用图表与文字相结合的模式描述方法对高校图书馆特色数据库建设的相关内容(数据库建设基本理论、信息资源建设、建库的技术标准、信息利用时涉及到的一些版权问题)进行了系统的论述。研究的结果对现实工作具有一定的指导意义。 文章首先阐述了本课题的研究背景、研究目的和实际意义、国内外研究现状和研究内容;其次介绍了特色数据库的概念、数据库建设的原则及建库的意义,并对我国部分“211工程”学校图书馆特色数据库的建设情况进行了调查,指出了目前我国高校图书馆特色数据库建设中存在的一些问题;第三,对特色数据库信息资源建设的基本理论、信息资源建设流程和信息资源利用的版权问题进行了详细的分析;第四,详细论述了特色数据库建设所应采用的相关支持技术(信息采集技术、信息加工技术、信息存储技术、信息检索技术、信息发布技术)和应遵循的标准规范;最后文章由理论回归现实,以湘潭大学图书馆“毛泽东特色数据库”建设为例,讨论了特色数据库在实践中的建设过程,并根据实践经验提出了对建库的一些见解。
孙羽菲[8](2005)在《低质量文本图像OCR技术的研究》文中研究说明本论文对低质量文本图像的OCR技术进行了深入的研究,目标就是从理论,算法和应用三个层次上研究低质量文本图像的高性能识别问题。研究工作主要包括以下几个方面:首先分析论述了低质量文本灰度图像条件下,文字识别与人的认知、经典人工智能问题、以及二值图像识别技术之间的关系,对低质量文本图像OCR技术的研究方向提出了有别于传统的观点和看法。在上述理论框架的指导下,结合低质量文本自身的特点和规律,设计了一个低质量文本图像的识别流程,并在各主要步骤给出了实用高效的算法,主要有:基于连通区域的层次结构切分算法:不同于传统的先行列切分,再字切分的算法过程,本方法采用了由小到大、自底向上的切分策略。通过连通区域特征的变化规律找出适用于切分的最佳阈值,再根据先验知识和启发式规则,对连通区域做适当的合并分割操作,最后得到最优的切分结果。实验表明,该方法对于低质量文本图像能够取得令人满意的切分效果。基于地形特征的种子区域增长算法:基于确定点和关键点概念,利用像素地形特征自动的选择种子点,通过一种改进的种子区域增长方法,从种子区域开始,依据一定的优先级规则,逐渐向其近邻点扩展,对单字灰度图像二值化,有效地获取了字符的结构信息。本方法与已有的二值化方法相比较,能够更好的保留有效的字符结构信息,提高了识别的正确率。基于不对称性的分类部分空间法:发现了相似字之间误识的不对称性,并对这种不对称现象的成因进行了细致的探讨和分析。基于这种不对称性,提出了一种分类部分空间方法来解决相似字的识别问题。相似字按其结构特点被分成若干基本类别,不同类别在相应的部分空间提取不同的特征进行比较,以达到正确识别相似字的目的。经百万字左右的文本测试表明,本文提出的方法对于不同质量文本的识别性能有不同程度的提高,尤其是对于质量比较低的文本(五十年代的文本数据),其识别正确率达
王怀诗,沙勇忠[9](2004)在《馆藏文献数字化:意义、进展与问题》文中研究指明论述了我国图书馆馆藏文献数字化的意义、发展阶段及其基本特征,分析了我国馆藏文献数字化发展过程中出现的主要问题,并提出相应的解决方法和措施。
毕建新[10](2004)在《数字档案馆存储研究》文中研究表明本文的研究对象为档案学界过去很少研究的数字化档案信息的存储问题。这是一个在信息化时代才出现的新课题,它与传统载体档案的保存有着本质的区别,是一个需要深入研究的重要课题。 本文从四个方面详细论述该问题。首先,对比了数字档案馆与传统档案馆存储的区别并讨论了数字档案馆的信息资源建设。其次,详细叙述了数字档案馆的数据库建设。第三,介绍了目前流行的数据存储与备份技术及其对数字档案馆的适用性。最后,简要介绍了数字化档案信息的长期存取问题。
二、中文OCR与数字化图书馆建设(论文开题报告)
(1)论文研究背景及目的
此处内容要求:
首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。
写法范例:
本文主要提出一款精简64位RISC处理器存储管理单元结构并详细分析其设计过程。在该MMU结构中,TLB采用叁个分离的TLB,TLB采用基于内容查找的相联存储器并行查找,支持粗粒度为64KB和细粒度为4KB两种页面大小,采用多级分层页表结构映射地址空间,并详细论述了四级页表转换过程,TLB结构组织等。该MMU结构将作为该处理器存储系统实现的一个重要组成部分。
(2)本文研究方法
调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。
观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。
实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。
文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。
实证研究法:依据现有的科学理论和实践的需要提出设计。
定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。
定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。
跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。
功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。
模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。
三、中文OCR与数字化图书馆建设(论文提纲范文)
(1)IQA在数字化文献质量评估中的应用研究(论文提纲范文)
1 引言 |
2 数字化文献质量的测量 |
2.1 数字化文献质量的基本要求 |
2.2 影响OCR准确率的主要因素 |
2.3 基于人眼视觉特性的图像质量评价 |
2.4 IQA在测量文献质量中的应用 |
2.4.1 IQA原理简述 |
2.4.2 IQA测量文献页面质量 |
3 多种扫描模式下的文献质量测评 |
3.1 多种模式下的数字化文献测量 |
3.2 测量结果评析 |
4 结语 |
(2)传统出版企业数字出版创新研究(论文提纲范文)
摘要 |
Abstract |
第1章 绪论 |
1.1 研究背景和问题的提出 |
1.1.1 现实背景 |
1.1.2 理论研究背景 |
1.2 研究的意义 |
1.3 研究内容和研究方法 |
1.3.1 研究内容 |
1.3.2 主要研究方法 |
1.3.3 技术研究路线 |
1.4 本文的主要贡献 |
第2章 相关理论研究进展 |
2.1 企业创新理论相关研究综述 |
2.1.1 创新的研究进展 |
2.1.2 企业创新的研究进展 |
2.1.3 产业创新的研究进展 |
2.1.4 国家创新的研究进展 |
2.1.5 创新管理的研究进展 |
2.2 数字出版相关理论研究 |
2.2.1 数字出版本质研究 |
2.2.2 数字出版产业链研究 |
2.2.3 数字出版创新理论综述 |
2.3 本章小结 |
第3章 数字出版创新影响因素研究 |
3.1 数字出版创新外部影响因素分析 |
3.1.1 政治法律环境 |
3.1.2 经济环境 |
3.1.3 社会文化环境 |
3.1.4 技术环境 |
3.1.5 产业环境 |
3.1.6 市场环境 |
3.2 数字出版创新内部影响因素分析 |
3.2.1 战略规划 |
3.2.2 企业文化 |
3.2.3 组织管理 |
3.2.4 生产经营 |
3.2.5 人力资本 |
3.2.6 技术水平与研发投入 |
3.2.7 市场营销 |
3.2.8 财务与风险控制 |
3.3 数字出版创新核心影响因素实证模型研究 |
3.4 本章小结 |
第4章 数字出版技术创新研究 |
4.1 现有数字出版技术研究 |
4.1.1 国外数字出版现有技术研究 |
4.1.2 国内数字出版现有技术研究 |
4.2 数字出版技术创新范式研究 |
4.2.1 国外数字出版企业技术创新案例研究 |
4.2.2 传统出版企业数字出版技术创新范式研究 |
4.3 数字出版技术创新趋势研究 |
4.3.1 新媒体背景下的全媒体在线编辑出版技术 |
4.3.2 移动终端智能化背景下APP技术 |
4.3.3 语义分析背景下知识关联技术 |
4.3.4 云计算背景下大数据分析技术 |
4.4 本章小结 |
第5章 数字出版产品创新研究 |
5.1 数字出版产品及产品创新现状 |
5.1.1 数字出版产品形态 |
5.1.2 数字出版产品销售情况 |
5.1.3 数字出版产品创新现状 |
5.2 数字出版产品创新要素 |
5.2.1 数字出版产品创新设计要素分析 |
5.2.2 数字出版产品创新模型设计 |
5.3 数字出版产品描述属性创新研究 |
5.3.1 现有数字产品描述属性规范研究 |
5.3.2 数字产品描述属性创新的原则 |
5.3.3 数字产品描述属性规范体系的构建 |
5.4 本章小结 |
第6章 数字出版商业模式创新研究 |
6.1 商业模式内涵及其构成 |
6.2 传统出版商业模式分析 |
6.2.1 传统出版主要商业模式 |
6.2.2 传统出版新型商业模式 |
6.2.3 传统出版商业模式分析 |
6.3 数字出版商业模式分析及创新设计 |
6.3.1 已有数字出版典型商业模式 |
6.3.2 传统出版企业数字出版主要商业模式 |
6.3.3 传统出版企业数字出版商业模式分析 |
6.3.4 商业模式创新设计 |
6.4 数字出版商业模式创新的博弈论分析 |
6.4.1 商业模式创新的博弈论分析 |
6.4.2 新品数字图书B2B电子商务模式创新设计 |
6.5 本章小结 |
第7章 结论及政策建议 |
7.1 本论文主要结论 |
7.2 政策建议 |
7.3 本文的不足之处 |
参考文献 |
附录 1 |
附录 2 |
附录 3 |
攻读学位期间发表论文与研究成果清单 |
致谢 |
作者简介 |
(4)信息资源数字化文本型数字图像OCR识别准确度影响因素及提高策略研究(论文提纲范文)
摘要 |
ABSTRACT |
1 引言 |
1.1 选题缘起和意义 |
1.2 相关研究综述 |
1.3 主要研究内容、研究方法和创新点 |
2 文本型数字图像OCR识别准确度影响因素分析 |
2.1 数字扫描对象的获取阶段 |
2.1.1 原始文献质量方面的影响因素 |
2.1.1.1 装订情况 |
2.1.1.2 纸张的物理状况 |
2.1.2 原始文献缩微胶片质量方面的影响因素 |
2.1.2.1 缩微胶片的片基材质 |
2.1.2.2 缩微胶片的冲洗质量 |
2.1.2.3 缩微胶片的洁净程度 |
2.1.2.4 缩微胶片的完好程度 |
2.2 数字图像的生产阶段 |
2.2.1 数字扫描仪的选择 |
2.2.2 数字扫描仪的使用 |
2.2.2.1 相关扫描参数的设定 |
2.2.2.2 数字扫描仪的使用方法 |
2.3 数字图像的处理阶段 |
2.3.1 数字图像处理软件的选用 |
2.3.2 数字图像增强处理 |
2.3.2.1 数字图像几何位置调整 |
2.3.2.2 数字图像噪声的抑制 |
2.3.2.3 二值化 |
2.3.2.4 锐化 |
2.4 OCR文本识别阶段 |
2.4.1 两款常用中文OCR软件的性能对比分析实验 |
2.4.1.1 实验素材 |
2.4.1.2 实验方法 |
2.4.1.3 实验流程 |
2.4.1.4 实验结果统计 |
2.4.2 实验总结—OCR软件方面文本型数字图像识别准确度影响因素分析 |
2.4.2.1 对形近字符的识别率 |
2.4.2.2 对噪声的抗干扰能力 |
2.4.2.3 对标点符号的识别率 |
2.4.2.4 数字图像预处理功能 |
2.4.2.5 支持识别的项目内容 |
2.4.2.6 用户界面友好性 |
2.4.2.7 用户自学习功能 |
3 文本型数字图像OCR识别准确度提高策略探讨 |
3.1 数字扫描对象的获取阶段 |
3.1.1 原始文献质量方面 |
3.1.1.1 尽量保持原始文献的装订形式 |
3.1.1.2 修复或改善纸张的物理状况 |
3.1.2 原始文献缩微胶片质量方面 |
3.1.2.1 选用聚酯片基 |
3.1.2.2 严格控制缩微胶片的冲洗质量 |
3.1.2.3 保持缩微胶片表面的洁净 |
3.1.2.4 修复缩微胶片的完好性 |
3.2 数字图像的生产阶段 |
3.2.1 数字扫描仪的选择依据 |
3.2.1.1 图像传感器类型 |
3.2.1.2 扫描分辨率 |
3.2.1.3 对被扫描对象的适应能力 |
3.2.1.4 易操作性 |
3.2.2 正确使用数字扫描仪 |
3.2.2.1 设置合适的扫描参数 |
3.2.2.2 采用恰当的使用方法 |
3.3 数字图像的处理阶段 |
3.3.1 选用商业化的数字图像处理软件 |
3.3.2 加强图像增强处理工作 |
3.3.2.1 合理调整图像的几何位置 |
3.3.2.2 有效抑制图像中的噪声 |
3.3.2.3 合理确定二值化阈值 |
3.3.2.4 适度锐化数字图像 |
3.4 OCR文本识别阶段 |
3.4.1 提高对形近字符的识别率 |
3.4.2 增强"抗噪"能力 |
3.4.3 提高对标点符号的识别率 |
3.4.4 丰富并完善图像预处理功能 |
3.4.5 扩展支持识别的项目内容 |
3.4.6 增强用户界面友好性 |
3.4.7 增设并完善用户自学习功能 |
4 总结 |
参考文献 |
致谢 |
个人简介 |
(5)视觉文档图像识别预处理(论文提纲范文)
摘要 |
Abstract |
第1章 引言 |
1.1 OCR系统 |
1.1.1 OCR系统简介 |
1.1.2 OCR技术的发展趋势 |
1.2 视觉文档图像识别预处理 |
1.2.1 数码相机的工作原理 |
1.2.2 视觉文档图像识别预处理的研究现状 |
1.3 研究背景及意义 |
1.4 本文的主要研究内容 |
第2章 视觉文档图像的噪声去除 |
2.1 椒盐噪声的去除 |
2.2 反渗噪声的去除 |
2.2.1 直方图为双峰的反渗噪声去除 |
2.2.2 直方图为单峰的反渗噪声去除 |
2.3 折痕噪声的去除 |
第3章 视觉文档图像的光学校正 |
3.1 模糊图像的校正 |
3.2 曝光不良的校正 |
3.2.1 曝光不足的图像的处理 |
3.2.2 曝光过度的图像的处理 |
3.3 图像分辨率问题的校正 |
3.3.1 视觉图像的分辨率 |
3.3.2 改变字的大小 |
3.4 彩色图像的单色化 |
3.5 积厚阴影的处理 |
3.6 基于小波变换的图像增强 |
3.6.1 小波变换 |
3.6.2 小波图像增强 |
第4章 视觉文档图像的几何校正 |
4.1 图像几何变形的光学机理 |
4.1.1 倾斜变形的光学机理 |
4.1.2 透视失真的光学机理 |
4.1.3 扭曲变形的光学机理 |
4.2 图像的二值化 |
4.3 视觉文档图像的圈边去除 |
4.4 图像倾斜变形的校正 |
4.5 图像扭曲变形的校正 |
4.5.1 文字行的定位 |
4.5.2 文字行曲线拟合 |
4.5.3 图像校正 |
第5章 实验结果及分析 |
5.1 视觉文档图像的识别预处理系统流程图 |
5.2 图像噪声去除的实验结果及分析 |
5.2.1 椒盐噪声去除 |
5.2.2 反渗噪声去除 |
5.2.3 折痕噪声去除 |
5.3 图像光学校正的实验结果及分析 |
5.3.1 低对比度图像 |
5.3.2 放大图像 |
5.3.3 模糊图像 |
5.3.4 积厚阴影 |
5.4 几何校正的实验结果及分析 |
第6章 结束语 |
6.1 主要工作与创新点 |
6.2 研究成果的应用前景展望 |
6.3 研究中存在的问题及下一步工作设想 |
参考文献 |
攻读博士学位期间科研工作情况 |
致谢 |
(6)农业古籍数字化整理研究(论文提纲范文)
摘要 |
ABSTRACT |
第一章 绪论 |
第一节 选题依据及意义 |
第二节 国内外研究概述 |
第三节 研究方法、主要内容及创新之处 |
第二章 农业古籍整理及数字化工作进展 |
第一节 中国古代农书概述 |
第二节 二十世纪我国农业古籍整理主要成果 |
第三节 中文古籍数字化工作进展 |
第四节 农业古籍整理数字化趋势 |
第三章 计算机用于农业古籍整理工作研究 |
第一节 农业古籍书目数据库建设 |
第二节 农业古籍元数据标准设计 |
第三节 农业古籍全文数据库的建设 |
第四章 农史文献数字化实践——中国农业遗产信息平台建设 |
第一节 信息平台建设的重要意义 |
第二节 信息平台建设的背景 |
第三节 信息平台的设计和构建 |
第四节 信息平台建设中的若干问题 |
第五节 信息平台各文献数据库介绍 |
第五章 《齐民要术》研究知识库的设计构建 |
第一节 《齐民要术》研究知识库总论 |
第二节 《齐民要术》文献学研究 |
第三节 《齐民要术》研究知识库设计与构建 |
第四节 《齐民要术》研究知识库检索系统设计 |
第五节 XML应用于《齐民要术》数字化 |
第六节 基于XTM构建农史语义词典 |
第六章 结语 |
附录1 百年来我国农业古籍整理主要成果列表 |
附录2 中文古籍数字化成果列表 |
附录3 农业古籍元数据着录实例 |
附录4 中国农业遗产信息平台文献数据库建设流程图 |
攻读学位期间发表的学术论文目录 |
致谢 |
(7)我国高校图书馆特色数据库建设研究(论文提纲范文)
摘要 |
Abstract |
第一章 引言 |
第二章 特色数据库概述 |
2.1 特色数据库概念及建库原则 |
2.1.1 特色数据库的概念 |
2.1.2 特色数据库建设应遵循的原则 |
2.2 特色数据库建设的意义 |
2.3 我国高校图书馆特色数据库建设现状调查 |
2.3.1 我国高校图书馆特色数据库建设情况 |
2.3.2 特色数据库建设中存在的问题 |
第三章 特色数据库信息资源建设 |
3.1 特色数据库信息资源建设基本理论 |
3.1.1 信息资源建设的目标与原则 |
3.1.2 信息资源的类型与特点 |
3.1.3 信息资源的获取 |
3.1.4 信息资源的组织 |
3.2 特色数据库信息资源建设流程 |
3.2.1 选题 |
3.2.2 资源调查分析 |
3.2.3 功能调查分析 |
3.2.4 技术与规范的准备 |
3.2.5 试验性生产 |
3.2.6 规模化生产 |
3.2.7 服务提供 |
3.3 特色数据库信息资源建设与利用中的版权问题 |
3.3.1 馆藏信息资源数字化中的版权 |
3.3.2 数据库采集中的版权 |
3.3.3 网络资源利用中的版权 |
第四章 特色数据库建设的技术支持及标准规范 |
4.1 特色数据库建设的技术支持 |
4.1.1 信息采集技术 |
4.1.2 信息加工技术 |
4.1.3 信息存储技术 |
4.1.4 信息检索技术 |
4.1.5 信息发布技术 |
4.2 特色数据库建设的标准规范 |
4.2.1 数字资源内容创建标准 |
4.2.2 数字资源加工标准 |
4.2.3 数字资源描述(元数据)标准 |
4.2.4 数字资源系统服务的标准规范 |
4.2.5 数字资源长期保护的标准规范 |
第五章 我国高校图书馆特色数据库建设实践——以湘潭大学图书馆“毛泽东特色数据库”建设为例 |
5.1 湘潭大学图书馆“毛泽东特色数据库”建设现状及意义 |
5.1.1 湘潭大学图书馆“毛泽东特色数据库”建设现状 |
5.1.2 湘潭大学图书馆“毛泽东特色数据库”建设的意义 |
5.2 湘潭大学图书馆“毛泽东特色数据库”建设步骤 |
5.2.1 选择特色数据库建设平台 |
5.2.2 确定数据库框架结构 |
5.2.3 资料收集 |
5.2.4 数字信息的采集与加工 |
5.2.5 设计元数据方案 |
5.2.6 数字信息的发布 |
5.2.7 数据库的管理与维护 |
5.2.8 数据库产品的推广应用 |
5.2.9 几点建议 |
结论 |
注释 |
参考文献 |
致谢 |
附录(攻读硕士学位期间已公开发表的论文) |
(8)低质量文本图像OCR技术的研究(论文提纲范文)
摘要 |
Abstract |
第一章 引言 |
1.1 研究的理论意义 |
1.2 研究的应用背景 |
1.3 低质量文本图像 |
1.3.1 产生和存在的原因 |
1.3.2 当前OCR 技术存在的不足 |
1.4 本论文的贡献 |
1.5 本论文的组织 |
第二章 OCR 技术的研究和发展现状 |
2.1 OCR 技术概述 |
2.1.1 发展历史 |
2.1.2 系统流程 |
2.2 图像二值化方法 |
2.2.1 全局阈值 |
2.2.2 局部阈值 |
2.3 切分方法 |
2.3.1 经典切分方法 |
2.3.2 连通区域法 |
2.3.3 基于识别的切分方法 |
2.3.4 整体切分法 |
2.3.5 灰度图像的切分方法 |
2.4 特征提取方法 |
2.4.1 二值特征提取 |
2.4.2 灰度特征提取 |
2.5 本章小结 |
第三章 低质量图像OCR 技术的理论框架 |
3.1 文本图像认知的初探 |
3.1.1 文本图像的二值本质 |
3.1.2 人认知文本图像的特点 |
3.1.3 低质量文本图像识别的难点 |
3.2 文本识别与经典人工智能问题 |
3.3 研究的基本观点 |
3.3.1 识别最终是二值的 |
3.3.2 二值化不是统一的 |
3.4 技术路线 |
3.4.1 切分的解决方案 |
3.4.2 单字识别的解决方案 |
3.5 本章小结 |
第四章 基于连通区域的层次结构切分算法 |
4.1 灰度分级 |
4.1.1 直方图均衡法 |
4.1.2 级数的选取 |
4.2 层次结构的建立 |
4.3 确定主层次 |
4.3.1 连通域数目的变化规律 |
4.3.2 连通域覆盖率的变化规律 |
4.4 后处理 |
4.4.1 合并 |
4.4.2 分割 |
4.5 实验分析 |
4.5.1 评测指标 |
4.5.2 实验数据和结果 |
4.6 本章小结 |
第五章 基于地形特征的种子区域增长算法 |
5.1 种子区域增长算法 |
5.1.1 算法描述 |
5.1.2 应用于文本图像的局限性 |
5.2 地形特征的提取 |
5.2.1 主要正交方向 |
5.2.2 几何特征 |
5.2.3 地形特征归类 |
5.3 基于地形特征的改进SRG 算法 |
5.3.1 初始化 |
5.3.2 种子点的选择 |
5.3.3 区域增长 |
5.3.4 后处理 |
5.4 实验结果和分析 |
5.4.1 二值化结果的比较 |
5.4.2 应用于识别的评测 |
5.5 本章小结 |
第六章 相似字识别的研究 |
6.1 相似字 |
6.1.1 相似字的定义 |
6.1.2 相似字对识别的影响 |
6.2 相似字误识的不对称性 |
6.2.1 不对称现象 |
6.2.2 成因分析 |
6.3 已有算法存在的问题 |
6.4 基于不对称性的分类部分空间法 |
6.4.1 基本类别 |
6.4.2 不对称性在算法中的应用 |
6.4.3 算法流程 |
6.5 实验结果和分析 |
6.6 本章小结 |
第七章 系统性能分析评测 |
7.1 低质量文本图像的OCR 流程 |
7.2 实验数据 |
7.3 实验结果和分析 |
7.4 本章小结 |
第八章 结束语 |
8.1 本文工作总结 |
8.2 下一步研究方向 |
参考文献 |
致谢 |
作者简介 |
(10)数字档案馆存储研究(论文提纲范文)
序言 |
第一章 数字档案馆与传统档案馆存储的区别及数字档案馆资源建设 |
第二章 数字档案馆数据库建设 |
一、 数字化档案信息的特点及管理要求 |
二、 数字档案馆数据库对入库数据的要求 |
三、 数字档案馆数据库软件的要求及选择 |
四、 档案全文数据库建设 |
第三章 数字档案馆数据的存储与备份 |
一、 存储与备份技术介绍 |
二、 三级存储技术及不同的存储、备份技术对数字档案馆的适用性 |
第四章 数字档案馆数据的长期存取 |
一、 数字化档案信息的特性给长期存取带来的问题 |
二、 长期存取数字化档案信息的技术方案 |
结论 |
参考文献 |
攻读学位期间出版或公开发表的论着、论文 |
致谢 |
四、中文OCR与数字化图书馆建设(论文参考文献)
- [1]IQA在数字化文献质量评估中的应用研究[J]. 张海燕. 大学图书情报学刊, 2016(06)
- [2]传统出版企业数字出版创新研究[D]. 王东. 北京理工大学, 2015(04)
- [3]古籍数字化商业运作研究[J]. 毛建军. 图书馆学研究, 2011(19)
- [4]信息资源数字化文本型数字图像OCR识别准确度影响因素及提高策略研究[D]. 郭军. 郑州大学, 2011(04)
- [5]视觉文档图像识别预处理[D]. 田大增. 河北大学, 2007(03)
- [6]农业古籍数字化整理研究[D]. 曹玲. 南京农业大学, 2006(02)
- [7]我国高校图书馆特色数据库建设研究[D]. 李三凤. 湘潭大学, 2006(12)
- [8]低质量文本图像OCR技术的研究[D]. 孙羽菲. 中国科学院研究生院(计算技术研究所), 2005(02)
- [9]馆藏文献数字化:意义、进展与问题[J]. 王怀诗,沙勇忠. 图书馆学刊, 2004(02)
- [10]数字档案馆存储研究[D]. 毕建新. 苏州大学, 2004(01)
标签:ocr论文; ocr文字识别软件论文; 视觉文化论文; 中文数字论文; 文献研究法论文;