产品中心 Product Center
全文检索 当前位置:首页 > 政府门户 > 产品中心 > 全文检索 > 

文图声像等非结构化信息统一存储与管理,全面支持半结构化数据与关系型数据库,海量数据检索秒级响应,是海量信息资源开发利用的基础性软件。

系统简介

进入互联网时代,信息总量在飞速增长。海量信息作为可开发利用的资源,通过汇聚、整理、共享和挖掘,为更多的人利用,产生新的知识,带来新的价值。信息资源管理与利用,成为增强组织机构业务核心能力的手段,日益受到关注,成为信息化建设的重中之重。这些信息大致可分为两类:结构化信息和非结构化信息,其中非结构化信息包括纯文本、电子邮件、办公文档、网页、设计图纸、纸张扫描件,还包括图像图形、音频视频等多媒体信息。据统计,非结构化信息占有整个信息量的80%以上。传统的关系型数据库是面向事务处理和数值分析的,只能解决结构化数据的管理问题。关系数据模型在管理大量非结构化信息上先天不足,尤其在处理复杂、海量的非结构化信息时无法胜任。因此,非结构化信息管理是信息资源管理的核心。

全文检索,简而言之,就是在海量的非结构化信息中,快速、准确地获得用户所需的信息。全文检索按照数据资料的内容而不是结构化特征来实现信息的检索。它能提供快捷的非结构化数据管理工具和强大的数据查询手段,帮助人们进行大量非结构化信息的整理和管理工作,快速方便地查到他们想要的任何信息。全文检索技术和产品是新一代知识管理应用的最基本技术和构件。全文检索已成为新一代非结构化信息管理系统的代名词。

CGRS全文检索系统是对纯文本、超大文本、电子文档、网页、语音、图像、活动影像等非结构化数据进行综合管理的大型软件,核心功能是实行非结构化信息的统一存储管理与全文检索,同时提供对包含元数据信息的半结构化数据及关系型数据库的良好支持。系统主要由全文数据库服务器、系统管理员客户端、检索客户端、WEB全文检索系统、二次开发接口等组成。CGRS全文检索系统己经在电子政务、数字图书馆、数字档案馆、电子媒体、电子商务等领域得到了广泛应用,成为国内海量信息管理与服务的基础性软件。

 

系统架构

http://192.168.1.120:8868/images/qwjs_1.jpg

◆标准的多层体系设计,系统由操作系统层、数据层、应用服务器层、表现层逐层构成,层与层之间接口界面清晰。

◆分布式体系架构,支持跨服务器、跨平台分布式内容管理,实现异构数据库联合检索;允许跨255个站点的数据库服务器分布式检索,实现检索响应时间最优化、服务器扩充简易化。

◆支持所有主流的操作系统、应用服务器及Web服务器。

◆支持J2EE及.NET体系架构。

◆32位平台支持64位数据库文件,即支持大于4G的数据库。

 

功能特点

完善的数据管理

1、结构化、非结构化数据的统一管理

◆支持多种结构化数据类型的管理:日期型、数值型、字符型、汉字型。

◆支持包括TEXT、HTML、RTF、MS OFFICE、PDF、S2/PS2/PS等多种格式文件的存储、索引和检索。

◆支持图像、文字、音频、视频等多媒体数据的关联管理与统一检索。

◆支持外部纸介质扫描识别形成的数字纸张、网页及网页自动提取内容的管理和检索。

◆采用领先于自动切分词技术的字元索引策略,支持按词索引、按字索引、字词混合索引。

2、丰富实用的数据管理工具

◆支持字段内容自动去重,数据批量自动标引。

◆支持基于主题词表的批量分类,对检索数据集批量处理。

◆支持数据库优化重组和分类导航树的管理。

◆支持数据库批量备份、增量备份及逻辑删除、物理删除。

◆支持数据库结构导入、导出及数据库批量恢复。

3、多语种、多编码管理

◆支持中英文、多语种混合检索。

◆系统内核支持GBK、GB2312/GB18030、BIG5、UTF8编码。

强大的用户管理

◆支持独立于操作系统的多级用户权限管理,实现灵活的用户—数据库授权机制,不同等级用户赋予不同权限。

◆支持用户分组管理、数据库转让等个性化用户管理功能。

◆支持用户操作审计及统计分析功能,如实记录用户检索日志与数据库维护日志,方便进行数据库检索频度、检索词频的统计与分析。

◆支持操作的安全审计、查询、报表。

高效快速的全文检索

1、信息自动发布

◆支持后台CGRS全文数据库中的文献记录实时动态地发布到WEB上。

◆支持页面的自动发布,系统生成页面链接,无需人工操作。

◆支持用户可视化编辑、自定义显示格式,满足信息发布的个性化需求。

2、智能检索

◆支持多种检索手段,100%查全率前提下的高速响应。允许使用任意字、词、片段、语句进行全匹配检索,支持中英文或者其他语种的多语种混合检索以及多种数据类型的混合检索。

◆支持多条件组合检索,提高查找准确率。提供关键词的拼音、笔画检索,支持逻辑运算符组合检索、距离检索/模糊检索、二次检索、渐进检索、历史检索、同义词/相关词扩检、增量检索。

◆ 支持文本、电子文档与图像、音频、视频等多媒体信息的关联检索。

◆采用领先的中文自然语言处理技术,提供辅助检索功能。基于先进的字元索引技术,在保证检索性能的同时达到100%查全率,保障了查准率;内置同义词与近义词表,用户可对词典进行维护;支持自动分类、主题词表分类;允许对文本自动提取和对网页进行模式提取;支持字段重复内容自动去重。

◆支持检索结果的快速排序与自动摘要,命中词高亮反显,方便实用。检索结果可按相关性排序,日期的高速全排序、字符串类型字段值排序,同时多服务器多库联检时对多库检索结果进行归并排序,支持根据检索词自动获取检索结果的摘要并对命中词高亮反显。

◆支持动态索引实时更新,采用多线程并发检索机制,保证大于1000个以上高并发用户的检索效率,达到G级数据秒级响应。

3、数据库关联检索

系统提供独创的多种关联检索手段:

◆源数据库的长文本字段与目标数据库的特征字段的外部关联;

◆以某一个特征字段的字段值作为检索词的特征关联;

◆源数据库的长文本字段与目标数据库的任意检索字段的词典关联;

◆基于内容联想的横向关联。

http://192.168.1.120:8868/images/qwjx_2.jpg

4、关系数据库检索

系统具有与RDBMS的接口网关,通过独立软件CGGATEWAY实现与主流关系数据库Oracle, SQL Server、Mysql、Sybase和DB2等无缝连接,提供全文检索引擎功能,从而实现用户关系数据库中记录的高效全文检索。

5、个性化服务

◆支持订阅检索。用户提交检索条件,系统根据用户的定制条件,通过独立软件CGPUSH自动定时发送检索结果到用户邮箱中。

◆支持检索结果的多种定制手段。用户根据喜好,可以定制文献显示的字体大小、颜色、显示字段、文献排列等。

◆用户可以在系统授权的情况下,进行在线修改文献内容、提交文献等操作。

完备的安全控制

◆提供系统级、数据库级、记录级以及字段级四级安全控制手段。

◆提供数据库文件加密、索引加密、库结构文件加密等安全机制。

◆支持通信加密,实现32级密级的记录级安全权限控制。

◆用户使用信息资源的授权机制、数据库中文献密级控制、用户文献存取数量控制。

◆安全审计功能,系统详细记录用户每次查询登录曰期、时间、登录IP地址、检索用时、检索次数、调阅文献篇数、脱机状态等日志信息,日志结果自动保存入库,并提供查询、报表、浏览、打印等功能,有效地防止用户越权操作与事后抵赖。

◆支持与外部CA认证系统的无缝集成,获得国家权威机构认可,用于核心敏感数据的安全存储和管理。

多种应用开发接口

系统提供标准的二次开发接口,可以开发运行于Uinx、Linux、Windows NT和WEB环境的各种应用,提供的标准接口包括:

◆CGRS Java API 类库接口,支持各种Java的应用服务器;

◆CGRS .NET API类库接口,支持ASP .NET应用服务器;

◆CGRS C++、C API接口,支持各种桌面开发IDE,如Visual C++、Visual Basic、Delphi、Lotus Notes、Powerbuilder等。

产品优势

开放性和可扩展的体系结构

◆支持各种主流操作系统平台、WEB应用服务器和WEB服务器。

◆支持32位和64位平台,单库容量可大于2G或者4G。

◆提供关系数据库同步工具,实现了与RDBMS的无缝集成。

◆支持主流关系数据库系统(Oracle、MS SQL Server、Sybase、MYSQL)的无缝集成,实现已有数据库系统中数据迁移和同步的标准二次开发接口。

◆支持大型应用中复杂表结构关系的同步,多表迁移和合并,并实现多任务服务模式,一次配置,透明运行。

◆支持多种RDB BLOB大对象字段中各种流内容的自动识别和索引。

◆支持RDB中FileName类型字段指向附件的自动索引,MS Office、PDF、HTML、XML等文档类型自动识别、建立全文索引,图像、音视频等多媒体附件自动识别和加载。

高可靠性、高可用性

1、24小时不间断运行的服务器设计,保障核心应用的可靠性和高可用性

◆多线程检索服务器,支持数百个用户的并发连接和检索。

◆保护进程设计,自动检测系统资源的繁忙情况,确保并发访问达顶峰时系统资源的有效分配和服务器的稳定运行。

◆自动容错和故障恢复机制,提供24小时不间断运行的高可用性。

◆提供监控客户端,方便管理员远程监测和控制后台服务的运行。

2、库群集和跨库检索,满足企业级海量数据应用

◆库群集,实现库容量的动态扩充。

◆跨库检索时多库检索结果按相关性或字段序归并,使得跨库检索对用户完全透明。

3、成熟产品历经时间考验

CGRS全文数据库及其相关产品拥有众多国家级高端用户,经过多年的积累和完善,产品成熟可靠,是非结构化海量信息全文管理的首选平台。

产品性能指标

◆ 数据库容量:每个数据库最多可存贮存42亿篇文献;

◆ 查词速度:百万篇文献查询的响应速度在毫秒级内;

◆ 联库检索:同时对500个数据库进行联合检索;

◆ 允许跨255个站点的数据库服务器分布式检索;

◆ 每个全文数据库服务器允许建立数据库可达936个;

◆ 允许管理30000个以上的用户。

系统架构

◆标准的多层体系设计,系统由操作系统层、数据层、应用服务器层、表现层逐层构成,层与层之间接口界面清晰。

◆分布式体系架构,支持跨服务器、跨平台分布式内容管理,实现异构数据库联合检索;允许跨255个站点的数据库服务器分布式检索,实现检索响应时间最优化、服务器扩充简易化。

◆支持所有主流的操作系统、应用服务器及Web服务器。

◆支持J2EE及.NET体系架构。

◆32位平台支持64位数据库文件,即支持大于4G的数据库。


完善的数据管理

1、结构化、非结构化数据的统一管理

◆支持多种结构化数据类型的管理:日期型、数值型、字符型、汉字型。

◆支持包括TEXT、HTML、RTF、MS OFFICE、PDF、S2/PS2/PS等多种格式文件的存储、索引和检索。

◆支持图像、文字、音频、视频等多媒体数据的关联管理与统一检索。

◆支持外部纸介质扫描识别形成的数字纸张、网页及网页自动提取内容的管理和检索。

◆采用领先于自动切分词技术的字元索引策略,支持按词索引、按字索引、字词混合索引。

2、丰富实用的数据管理工具

◆支持字段内容自动去重,数据批量自动标引。

◆支持基于主题词表的批量分类,对检索数据集批量处理。

◆支持数据库优化重组和分类导航树的管理。

◆支持数据库批量备份、增量备份及逻辑删除、物理删除。

◆支持数据库结构导入、导出及数据库批量恢复。

3、多语种、多编码管理

◆支持中英文、多语种混合检索。

◆系统内核支持GBK、GB2312/GB18030、BIG5、UTF8编码。

强大的用户管理

◆支持独立于操作系统的多级用户权限管理,实现灵活的用户—数据库授权机制,不同等级用户赋予不同权限。

◆支持用户分组管理、数据库转让等个性化用户管理功能。

◆支持用户操作审计及统计分析功能,如实记录用户检索日志与数据库维护日志,方便进行数据库检索频度、检索词频的统计与分析。

◆支持操作的安全审计、查询、报表。

高效快速的全文检索

1、信息自动发布

◆支持后台CGRS全文数据库中的文献记录实时动态地发布到WEB上。

◆支持页面的自动发布,系统生成页面链接,无需人工操作。

◆支持用户可视化编辑、自定义显示格式,满足信息发布的个性化需求。

2、智能检索

◆支持多种检索手段,100%查全率前提下的高速响应。允许使用任意字、词、片段、语句进行全匹配检索,支持中英文或者其他语种的多语种混合检索以及多种数据类型的混合检索。

◆支持多条件组合检索,提高查找准确率。提供关键词的拼音、笔画检索,支持逻辑运算符组合检索、距离检索/模糊检索、二次检索、渐进检索、历史检索、同义词/相关词扩检、增量检索。

◆ 支持文本、电子文档与图像、音频、视频等多媒体信息的关联检索。

◆采用领先的中文自然语言处理技术,提供辅助检索功能。基于先进的字元索引技术,在保证检索性能的同时达到100%查全率,保障了查准率;内置同义词与近义词表,用户可对词典进行维护;支持自动分类、主题词表分类;允许对文本自动提取和对网页进行模式提取;支持字段重复内容自动去重。

◆支持检索结果的快速排序与自动摘要,命中词高亮反显,方便实用。检索结果可按相关性排序,日期的高速全排序、字符串类型字段值排序,同时多服务器多库联检时对多库检索结果进行归并排序,支持根据检索词自动获取检索结果的摘要并对命中词高亮反显。

◆支持动态索引实时更新,采用多线程并发检索机制,保证大于1000个以上高并发用户的检索效率,达到G级数据秒级响应。

3、数据库关联检索

系统提供独创的多种关联检索手段:

◆源数据库的长文本字段与目标数据库的特征字段的外部关联;

◆以某一个特征字段的字段值作为检索词的特征关联;

◆源数据库的长文本字段与目标数据库的任意检索字段的词典关联;

◆基于内容联想的横向关联。

 

4、关系数据库检索

系统具有与RDBMS的接口网关,通过独立软件CGGATEWAY实现与主流关系数据库Oracle, SQL Server、Mysql、Sybase和DB2等无缝连接,提供全文检索引擎功能,从而实现用户关系数据库中记录的高效全文检索。

5、个性化服务

◆支持订阅检索。用户提交检索条件,系统根据用户的定制条件,通过独立软件CGPUSH自动定时发送检索结果到用户邮箱中。

◆支持检索结果的多种定制手段。用户根据喜好,可以定制文献显示的字体大小、颜色、显示字段、文献排列等。

◆用户可以在系统授权的情况下,进行在线修改文献内容、提交文献等操作。

完备的安全控制

◆提供系统级、数据库级、记录级以及字段级四级安全控制手段。

◆提供数据库文件加密、索引加密、库结构文件加密等安全机制。

◆支持通信加密,实现32级密级的记录级安全权限控制。

◆用户使用信息资源的授权机制、数据库中文献密级控制、用户文献存取数量控制。

◆安全审计功能,系统详细记录用户每次查询登录曰期、时间、登录IP地址、检索用时、检索次数、调阅文献篇数、脱机状态等日志信息,日志结果自动保存入库,并提供查询、报表、浏览、打印等功能,有效地防止用户越权操作与事后抵赖。

◆支持与外部CA认证系统的无缝集成,获得国家权威机构认可,用于核心敏感数据的安全存储和管理。

多种应用开发接口

系统提供标准的二次开发接口,可以开发运行于Uinx、Linux、Windows NT和WEB环境的各种应用,提供的标准接口包括:

◆CGRS Java API 类库接口,支持各种Java的应用服务器;

◆CGRS .NET API类库接口,支持ASP .NET应用服务器;

◆CGRS C++、C API接口,支持各种桌面开发IDE,如Visual C++、Visual Basic、Delphi、Lotus Notes、Powerbuilder等。

运行环境

服务器:

支持各种高档微机、PC服务器、中小型计算机,2G内存,推荐4G以上内存。

操作系统:

Windows NT / 2000 Server/2003 Server;Linux 2.0及以上;Sun Solaris2.3及以上、IBM AIX4.2及以上、HP-UX 10.10及以上、Compaq True64 UNIX 3.2、SGI IRIX6.3及以上。

WEB应用服务器:

支持IIS 5.0以上、Tomcat、WebSphere、WebLogical等。

应用领域

◆ 网站内容管理平台;

◆ 海量电子资料库建设平台;

◆ 数字图书馆、数字档案馆应用支撑平台;

◆ 新闻机构数字资产管理系统;

◆ 数字医院病历数字化管理平台;

◆ 企业竞争情报系统;

◆ 企业搜索引擎系统;

◆ 银行、证券、金融。