一、 主要功能
乐思文本采集系统的主要功能为:根据用户自定义的任务配置,批量而精确地抽取目标文本文件中的内容,转化为为结构化的记录,保存在本地数据库中。
特别适用于网络博客/Blog文章采集,RSS/ATOM XML内容采集,Text/CSV内容采集,任意格式XML采集,自定义结构文本内容采集等。功能示意图如下所示:
二、 系统特点
支持远程HTTP或者FTP服务器上的文本文件内容抽取
支持本地文本文件内容抽取
支持常用的文件格式: *.TXT, *.CSV, *.XML, *.HTM
支持任意后缀名的文本文件
内置六种记录块分割方式,几乎可以支持任意格式数据的抽取
支持命令行格式,可以Windows任务计划器配合,定期抽取目标数据
支持记录唯一索引,避免相同信息重复入库
支持数据库表结构完全自定义
保证信息的完整性与准确性
支持各种主流数据库,如MSSQL、Access、MySQL、Oracle、DB2、Sybase等
三、 运行环境
操作系统:Windows XP/NT/2000/2003
内存:最低32M内存,建议128M或以上
硬盘:最少20M空余硬盘空间
四、 行业应用
Web Text Miner主要用于:网络实时数据的抽取,本地特殊格式数据的抽取。
门户网站
可以做到:
每天定时抽取目标网站的新闻RSS聚合或者Blog聚合中的信息(标题,作者,内容等)到数据库中
利益:
轻松整合不同来源的网络新闻与网络日志
股票证券行业
可以做到:
每天定时自动将指定的远程文本文件或网页中的行情数据采集到数据库中
利益:
轻松获取行情数据库
实时行情分析
金融行业
可以做到:
每天定时自动将指定的远程文本文件或网页中的金融信息采集到数据库中
利益:
轻松获取行情数据库
实时行情分析
科研机构
可以做到:
某些科研应用程序的输出只能为文本文件,可以同过本软件将其转换到数据库中
利益:
在无需编程人员的帮助下,就可以轻松转换数据,每分钟可以处理几十M的数据
|