信息抽取组件 Minidx
<p>Minidx 这一组件是专门为开发人员准备的,利用Minidx Extract-Text Com组件,您可以轻松的从Word,Xls,Pdf……等200多种文件格式中读取文本内容。该组件本身用C++编写,以Com组件的形式调用,您可以 在一切可以调用Com组件的开发语言中调用这一组件,快速的抽取各种文本内容。</p> <p><strong>Minidx是一个文件管理系统。它具有:</strong><br /> <span style="color:#ff0000;">*</span>自带超高速全文搜索引擎,瞬间找到所需要的文件<br /> <span style="color:#ff0000;">*</span>具有自己的存储系统,安全的管理重要文档<br /> <span style="color:#ff0000;">*</span>可存储与管理TB级别的数据,数据量的大小对系统运行的效率影响甚微<br /> <span style="color:#ff0000;">*</span>采用IFilter抽取文本,无须安装例如Office的应用程序即可阅读内容<br /> <span style="color:#ff0000;">*</span>基于Unicode编码,可正常输入/显示多国语言<br /> <span style="color:#ff0000;">*</span>高亮语法显示,方便地阅读多种文档<br /> <span style="color:#ff0000;">*</span>检索结果高亮显示,方便查看<br /> <span style="color:#ff0000;">*</span>模糊查询,自动识别同义词 例如要查询where时,输入whe也能得到结果<br /> <span style="color:#ff0000;">*</span>自带Web服务器,可方便的在Internet/局域网共享所管理的文档<br /> <span style="color:#ff0000;">*</span>独立的P2P功能,可自由选择启动服务端/客户端,或者同时启动<br /> <span style="color:#ff0000;">*</span>可以根据创建时间,修改时间,访问时间,标题,存储路径,内容等各项属性分等级,分目录地实现精确查询<br /> <span style="color:#ff0000;">*</span>可方便设定过滤字段</p> <p><strong>搜索引擎特性:</strong><br /> <span style="color:#ff0000;">*</span>整个引擎非常小,由2万多行C/C++代码实现<br /> <span style="color:#ff0000;">*</span>标准C/C++编写,几乎可以运行在所有的系统<br /> <span style="color:#ff0000;">*</span>无需太多内存,在较低的硬件环境下也可以运行而不影响效率<br /> <span style="color:#ff0000;">*</span>方便的集成到各种系统,利用Minidx引擎,仅仅需要添加几行代码就可以让系统具有全文检索功能<br /> <span style="color:#ff0000;">*</span>超高速检索,百万条记录也能在毫秒内返回结果<br /> <span style="color:#ff0000;">*</span>字,词,句检索<br /> <span style="color:#ff0000;">*</span>条件”与”,”或”查询,以及他们的组合查询<br /> <span style="color:#ff0000;">*</span>采用UNICODE字符集,多国语言字符串混合查询<br /> <span style="color:#ff0000;">*</span>精确查询,甚至一个标点符号也可以精确定位<br /> <br /> </p> <p><strong>项目主页:</strong><a href="http://www.open-open.com/lib/view/home/1326804245608" target="_blank">http://www.open-open.com/lib/view/home/1326804245608</a></p>
本文由用户 fmms 自行上传分享,仅供网友学习交流。所有权归原作者,若您的权利被侵害,请联系管理员。
转载本站原创文章,请注明出处,并保留原始链接、图片水印。
本站是一个以用户分享为主的开源技术平台,欢迎各类分享!