大数据时代的林业知识服务现状与展望
发布时间:2019-05-22 , 发布人:华恒智信分析员
大数据以容量大、类型多、存取速度快、应用价值高为主要特征。在大数据时代,每个人的工作都会涉及到大量的数据,通过人力或现行处理工具,在合理的时间和成本范围内,难以实现对相关数据的有效选取、管理、分析和处理,需要专门的知识库和知识服务系统作为支撑。知识服务是文献服务和信息服务的深化,是信息管理、知识管理与组织学习综合集成的一种服务。大数据知识服务是为适应信息服务业智慧化、协作化和泛在化的发展趋势而衍生的,是一种基于网络以解决结构化、半结构化及非结构化数据多维度处理的信息服务新模式,它充分利用各种资源,采用一定技术工具提取与挖掘知识的发现过程,强调用户参与和群体协同,是面向不同知识层次的服务,在服务过程中强调知识分享和知识创新。在互联网和大数据时代,知识成为生产力的关键要素。传统的信息服务已经不能满足用户需求,信息技术支撑下的知识服务将在当代信息社会中扮演重要角色。
一、林业大数据整合与知识库建设
数据资源是大数据知识服务发展最重要的驱动因素。中国林科院科信所1985年开始从事林业科技文献数据库建设,系统收集和整理国内外与林业相关的主要科学数据和文献资料,建成了80多个拥有自主知识产权的林业科技信息数据库群。1998年建成并开通的《中国林业信息网(www.lknet.ac.cn)》,已运营20年,是林业行业大型综合性网站,已成为林业行业中信息量最大的权威性行业网站。实现了林业信息资源的汇聚,建成了林业行业的云数据中心。同时,大力引进国内外林业数字化资源,截止目前,中国林业数字图书馆共引进了26个国内外林业数据库,其中全文数据库23个,文摘库3个,建成了中国知网、重庆维普、万方数据和超星等7个镜像站点和网络版授权访问资源。通过购买、采集、自建等多种方式,汇聚整合了一定规模的林业专业资源,构建了“集中+分布”的林业大数据知识仓储。建成了统一资源整合服务平台,解决异构林业数字资源的整合和检索问题,为用户提供“一站式”检索服务。
近年来,在中国工程院的支持下,建成了中国工程科技知识中心的林业分中心—林业专业知识服务系统。该系统以林业工程及相关学科的科学数据和文献资源为主,在已建林业数据库资源的基础上进行数据的规范化加工,整合林业行业丰富的科学数据和信息资源,完成了4大类45个数据库1100多万条数据的整合工作,建成了林业科技大数据知识仓储,构建了林业领域的知识词库系统。林业主题词和同义词库系统按林业学科组织,包括国家、中国行政区划、林业机构的全称、缩写、历史名称变更以及树种、花卉、动物、植物、昆虫、病虫害、主要林业术语等的异名词和别名等。按照上位词、下位词、同义词、英文名、拉丁名组织,实现语义检索,形成知识图谱。
二、林业知识服务平台构建
大数据时代的知识服务需要集成化的知识服务平台支撑。知识服务平台是大数据时代知识服务的基础设施,需要进行科学的规划和设计,搭建合适的平台架构,选择合理的建设模式,适应知识服务的领域和规模要求。
林业知识服务平台是一个基于大数据技术的数据获取、存储、组织、分析、资源和服务共享与协作的智慧平台,采用Elastic Search分布式全文搜索引擎技术和Spring MVC框架,搭建了系统服务器集群,系统具有林业知识的深度搜索、学科导航、知识链接、大数据分析、知识图谱和可视化分析等服务功能,实现了基于语义关联的林业知识发现服务。
“林业搜索”检索系统致力于帮助用户精准发现、获取与沉淀学术精华,提供强大的检索、实时分组和统计分析能力,通过一次操作可得到多次聚合的结果,自动排序。依托主题词表,构建了多维度、多层次、内容深度关联的知识组织脉络;支持检索结果的细化分层和多维聚类,帮助用户在海量资源中快速定位最佳匹配结果。为用户从整体上掌握学术发展趋势,洞察知识之间错综复杂的交叉关系,发现高价值学术文献,激发创新灵感提供高效而权威的学习和研究工具。系统支持统一检索、高级检索外、特色是同义词、上位词、下位词检索功能。实现检索结果的实时文献计量统计和可视化展示,检索结果能够以曲线图、柱状图、饼图等多种方式展示。动态生成和展示检索主题的相关图谱。包括:主题词图谱、相关关键词图谱、相关著者图谱、相关机构图谱、著者图谱、机构图谱等。
中国林业信息网、林业专业知识服务系统等10多个网站共享统一的数据库资源和用户身份认证系统,实现了林业各平台数据的有效打通和共享。各平台有独立WEB服务器对外运行,底层数据资源共享数据库服务器资源,保持数据更新与维护的一致性。网站、微信公众号和移动端统一对外提供信息服务。
三、林业知识服务模式优化和创新
大数据知识服务强调以用户需求为导向、由用户需求驱动,核心是满足不同用户的信息需求。知识服务产品开发要根据不同知识内容、不同用户、不同应用场景,选择不同的知识产品形式和运营模式。
(1)基于语义关联的知识发现服务
林业专业知识服务系统采取公共用户、手机实名注册用户、入网用户和授权IP用户4类进行分级分类管理。国家林业局、主要林业高等院校和科研院所已团体入网的授权IP用户,系统会自动检测并登录,共享网上林业数据资源,为用户提供了全面、便捷、智能多维度的林业知识服务。
(2)面向特定需求的个性化定制服务
林业统计数据可视化分析系统,对国内外林业统计数据进行可视化分析和地图展示,满足了不同用户的信息需求。包括:中国森林资源清查数据、中国湿地资源调查数据、荒漠化和沙化调查数据、中国石漠化调查数据、野生大熊猫调查数据、野生动植物资源调查数据、世界森林资源数据、世界森林碳汇数据、国际重要湿地数据、世界林产品贸易数据、中国自然保护区数据、中国林业产业类数据、中国森林灾害类数据、中国林业投资类数据、中国林业生态工程类数据、中国乡村林业类数据等。
林业GIS应用,接入天地图矢量地图、天地图遥感影像,实现底图切换管理。共享接入林业专题图、各类林业统计数据的GIS展示和统计分析、各类矢量型林业特色机构的GIS定位、查询与展示(包括:国家公园、国家森林城市、国家森林公园、国家湿地公园、国家地质公园、世界遗产名录、国际重要湿地名录等)。
(3) 基于深度融合的林业情报分析服务
开展世界林业发展动态跟踪、林产品进出口数据分析和专利预警分析研究,形成了一系列研究报告。建成世界林业科技发展动态跟踪分析平台,实时监测120多个国家及国际组织的最新林业政策、科技前沿、专利技术和林产品贸易等方面的最新动态信息, 开展世界林业发展动态跟踪分析服务。
运用数据挖掘技术和可视化技术,从海量、异构、分散的专利数据中挖掘和分析隐含的规律和发展趋势,实时监测和分析国内外林业重点领域的专利动态变化,增强知识产权预警能力和应急机制,为政策制定、技术创新提供信息支撑。选择林业行业容易遭到国外专利壁垒的重点林产品领域,以及林业科技创新前沿领域。采用定量和定性分析相结合的方法,聘请行业专家参与,根据数据分析结果结合专家意见,形成研究结果。已完成40多个技术领域的专利分析研究,出版专利分析报告8部。
(4)针对特定主题的专题知识服务
专题页面定制功能模块,快速生成专题知识应用。通过后台配置与某一专题相关的关键词、学科分类和数据库等要素,实现专题数据的自动抽取和聚类。 可灵活配置专题页面的布局和样式,图文并茂地展示该专题的数据资源。 采用数据挖掘技术,实现了专题各类数据资源的有效打通、统一管理、知识关联和可视化展示。一个专题也是一个独立网站,每日晚上同步更新。一带一路、乡村振兴、木材安全、知识产权、院士专题和中国林科院机构知识库等专题知识应用上线运行。
一带一路林业专题从林业专业知识服务系统中实时抽取和整合了一带一路沿线65个国家的林业数据资源,包括:动态、文献、树种、湿地、森林资源和林产品贸易等数据,专题数据量达到52万多条。
快速构建机构知识库。从林业专业知识服务系统中实时抽取和整合了中国林科院建院60年来的产出成果,包括:期刊论文、SCI收录论文、学位论文、科技成果、获奖成果、推广成果、申请专利、制定标准、软件著作权、授权植物新品种、林科专家等数据,并进行数据统计和可视化分析,建成了中国林科院机构知识库。针对任何一个机构、学科团队、知名专家均可快速构建自己的知识库和网站,实现自动采集、更新和可视化分析。
四、林业知识服务特色产品
开通“林业知识服务”微信公众号,跟踪世界林业科技前沿,每周发布原创的林业科技前沿文章。关注“林业知识服务”微信公众号,可使用我们面向用户开发的2个知识服务特色产品:林业搜索APP应用和树木识别微信小程序。
(1)林业搜索APP应用
采用微信公众号接口技术,开发了基于安卓系统和苹果系统的移动端应用—林业搜索,提供移动设备的“一站式”检索服务。包括推荐、位置、成果、标准、专利、期刊、动态、专家、机构、术语、法规、植物新品种、动植物资源、林木良种等12类数据资源。提供统一搜索、知识链接和原文获取(标准、专利)。移动端(林业搜索)与网站底层数据同步更新,用户可在线检索网站数据库中的数据,每日更新,免费获取,使用更为便捷和高效。
(2)树木识别微信小程序
以海量植物分类图片为基础,采用人工智能技术,通过机器学习自建模型图库实现树木植物的精准识别,只需拍摄树木、花卉等植物的花、茎、果、叶等部位,即可快速识别植物。能识别中国野生及栽培植物3000属,近5000种,几乎涵盖身边所有常见花草树木,把最完整的树木植物信息呈现给用户,为用户提供实时信息服务。
五、展望
近年来,林业行业充分利用大数据、虚拟现实、云计算、数据挖掘与可视化技术,整合林业行业丰富的科学数据和信息资源,构建了林业科技大数据知识服务平台,为林业科技创新和转型升级提供了信息支持,取得了一定成效。未来林业知识服务的主要任务和前景主要体现在以下几个方面:
(1)推进林业科学数据资源开放共享
加强林业基础数据的采集和整合,建设林业基础知识库系统,推进林业科学数据资源的开放共享。建立国家林业科技报告制度,汇集国家林业科学研究过程中的各类科学数据和科研报告,形成统一汇交和整合服务平台,保持科研工作的连续性。探索开展基于大数据的用户行为分析研究工作。
(2)建设国家林业科技信息共享平台
以高效服务科技创新和现代林业建设为目标,运用现代信息技术优化林业科技信息管理与服务平台,整合林业行业高等院校、科研院所的各类文献和数字资源,建设数字化、网络化、智能化和可视化的国家林业科技信息共享平台,促进林业科技信息资源的合理配置、开放共享和高效利用。建立以科研用户为中心、面向全国林业行业的数字资源网络服务体系,提供面向科研一线的林业数字资源保障与服务,面向个性化需求的分布式知识化信息服务,实现国外80%、国内95%以上各类林业科技文献资源的数字化共享,提高林业行业的科技文献保障和信息服务水平。
(3)建设国家林业科技成果转化应用平台
筛选优秀林业科技成果、林业专利和授权林业植物新品种,建立林业科技成果转化应用项目库,建成国家林业科技成果和知识产权交易服务平台,实现供需对接,项目评估和动态交易,提高林业科技成果的转化运用能力和水平,推动林业产业转型升级。
在大数据和人工智能技术的驱动下,知识服务将更加注重与用户潜在需求之间的智能响应,将以更智慧的方式进行知识传播和决策服务。以林业专业知识服务平台为基础,我们将不断推动林业科技大数据整合和知识服务创新,全面推动知识服务与科技创新的深度融合,推动知识服务向智能化、便捷化、个性化和多样化发展。
来源:中国林业网
作者:王忠明