`
okwangxing
  • 浏览: 28737 次
  • 性别: Icon_minigender_1
  • 来自: 杭州
社区版块
存档分类
最新评论

Lucene之索引建立

阅读更多
Lucene可对email,网页,文本资料,doc,pdf之类的文档进行索引建立,在建立索引的时候可为以后的排序做些处理.但运行到分布式的环境中,需要考虑建立索引的性能问题,并发问题,多线程问题,死锁问题,一个Document中包含多个Field.

Index的建立大致步骤:

1.源数据文本化
由于index无固定schema,这样就允许了使用者随时的改变index,可以追加字段,重建Document.索引的建立都是分析源数据,从中提取出文本信息,对文本信息进行分析,并储存为索引.源数据可为html,xml,pdf,ms office 文件.这里需要注意的对其文本信息的提取,例如针对xml/html中的标签的过滤.这里可以用到Tika框架.

2.当源数据文本化后,需要对其做处理—analysis
这就对应到Document中的Fields,可调用IndexWriter的addDocument对其分析的数据添加进入索引.在这其中包含很多可选操作,比如:针对大小写区分的LowerCaseFilter.禁词的StopFilter.由此可以,自己可以建立自己的过滤链.

3.文件的存储
分析好的索引需要存储磁盘,而lucene存储的结构是倒排索引(inverted indexed).有利于节省磁盘空间和关键词快速查找.当前主流的搜索引擎皆是利用的倒排索引.

例如:
Xxx – abcd cde x
索引本身告诉外界,xxx我已经在abcd cde x这个句子里面了.


每个数据都有自己的格式,lucene也不例外,针对索引的存储有自己的格式.
每个索引(index)包含一个或者多个块segment,每个块是一个独立的索引.块的创建是在索引的添加,删除的时候,而在搜索的时候会分开访问块,再最终合并到一起.

块文件命名更是 segments_<N>,Lucene第一次打开的就是这些文件,再会打开被块文件引用到的文件.N值会随着索引的改变次数而增加的.格式为整型数.

addDocument(Document)//利用默认的分析器,与创建IndexWriter的分析器相同.
addDocument(Document,Anayzer)


添加索引
a.new Document
b.new Field->添加内容
c.document.add(field);
d.indexWriter.add(document);
Document doc = new Document();
doc.add(new Field("id", ids[i]/*array*/, Field.Store.YES,
Field.Index.NOT_ANALYZED));
doc.add(new Field("city", text[i] /*array*/, Field.Store.YES,
					Field.Index.ANALYZED));
writer.addDocument(doc);

删除索引
在删除或者添加比较多的时候,会影响到索引的吞吐量,推荐做逼批处理的添加或者删除,来获得更好的性能.在这里的删除是"软删除",可调用expungeDeletes来删除磁盘上的所以已标识删除的数据.
a.Term/Query
b.indexWriter.deleteDocument(??)
deleteDocuments(Term)// deletes all documents containing the provided term.
deleteDocuments(Term[])// deletes all documents containing any of the terms in the provided array.
deleteDocuments(Query)// deletes all documents matching the provided query.
deleteDocuments(Query[])// deletes all documents matching any of the queries in the provided.

@Test
public void testDelete() throws Exception{
	IndexWriter iw = new IndexWriter(directory,new WhitespaceAnalyzer(),IndexWriter.MaxFieldLength.UNLIMITED);
	Term term = new Term("id", "1");
	iw.deleteDocuments(term);
	iw.optimize();
	assertEquals(iw.numDocs(), 1);
	iw.close();
}

通过各Term删除单个document.
IndexWriter,IndexReader中的maxDoc()与numDocs()
maxDoc()返回下一个可取得文档的内部编号.
numDocs()返回未被删除的document数目.

更新索引
updateDocument(Term, Document)// first deletes all documents containing the provided term and then adds the new document using the writer’s default analyzer.
updateDocument(Term, Document, Analyzer)// does the same, but uses the provided analyzer instead of the writer’s default analyzer.

@Test
public void testUpdate() throws Exception {
	IndexWriter iw = new IndexWriter(directory, new WhitespaceAnalyzer(),IndexWriter.MaxFieldLength.UNLIMITED);
	Term term = new Term("id", "1");
	Document doc = new Document();
	doc.add(new Field("id", "3", Field.Store.YES,
					Field.Index.NOT_ANALYZED));
	iw.updateDocument(term, doc);
	iw.optimize();
	assertEquals(iw.maxDoc(),2);
	iw.close();
}


从以上程序中可看出Field是个极其重要的类.在这里定义了几个枚举类型
Index,Store,TermVector

Index:
Index.ANALYZED 
Index.NOT_ANALYZED 
Index.ANALYZED_NO_NORMS
Index.NOT_ANALYZED_NO_NORMS
Index.NO

查询会用到Field,会关系到Field的存储类型
Store
Store.YES //保存,可以被IndexReader说读取.
Store.NO  //不保存.

介于Store与 Index之间的参数,用来提供向量机制的模糊查询
TermVector
TermVector.YES //保存term vectors
TermVector.WITH_POSITIONS //保存term vectors(保存值和token位置信息)
TermVector.WITH_OFFSETS //保存term vectors (保存值和token offset信息)
TermVector.WITH_POSITIONS_OFFSETS //保存term vectors (保存值和token位置信息,token offset信息)
TermVector.NO //不保存term vectors
  • 大小: 11.6 KB
分享到:
评论
4 楼 okwangxing 2010-02-25  
ladybird2010 写道
求Lucene结合Hibernate的配置实例 急。。
您若有Lucene的例子工程,帮忙发一个好吗?最好是可以分词。
Email: gao.guangpei@zte.com.cn 或者ggp123@126.com
非常感谢你!

具体说明,已发邮件到你的邮箱,请查收.
3 楼 okwangxing 2010-02-25  
JArcher 写道
最近在研究Lucene?

是的,需要用到这个东西.
2 楼 ladybird2010 2010-02-25  
求Lucene结合Hibernate的配置实例 急。。
您若有Lucene的例子工程,帮忙发一个好吗?最好是可以分词。
Email: gao.guangpei@zte.com.cn 或者ggp123@126.com
非常感谢你!
1 楼 JArcher 2010-02-25  
最近在研究Lucene?

相关推荐

Global site tag (gtag.js) - Google Analytics