论文部分内容阅读
现代企业信息化水平日益提高,长期积累下来的大量信息往往形态各异,且分散于企业网络或者员工电脑的各个角落,导致企业人员找到自己需要的数据变得十分困难,必须借助搜索引擎来解决这一难题。通过深入分析,研究Lucene的优点及其系统结构、数据流和索引结构,最后以Lucene为核心,结合ICTCLAS分词系统,成功构建了一个企业搜索引擎系统,实现了对PDF、Word、HTMI。这些非结构化数据的全文检索。