Lucene可对email,网页,文本资料,doc,pdf之类的文档进行索引建立,在建立索引的时候可为以后的排序做些处理.但运行到分布式的环境中,需要考虑建立索引的性能问题,并发问题,多线程问题,死锁问题,一个Document中包含多个Field.
Index的建立大致步骤:
1.源数据文本化
由于index无固定schema,这样就允许了使用者随时的改变index,可以追加字段,重建Document.索引的建立都是分析源数据,从中提取出文本信息,对文本信息进行分析,并储存为索引.源数据可为html,xml,pdf,ms office 文件.这里需要注意的对其文本信息的提取,例如针对xml/html中的标签的过滤.这里可以用到
Tika框架.
2.当源数据文本化后,需要对其做处理—analysis
这就对应到Document中的Fields,可调用IndexWriter的addDocument对其分析的数据添加进入索引.在这其中包含很多可选操作,比如:针对大小写区分的LowerCaseFilter.禁词的StopFilter.由此可以,自己可以建立自己的过滤链.
3.文件的存储
分析好的索引需要存储磁盘,而lucene存储的结构是倒排索引(inverted indexed).有利于节省磁盘空间和关键词快速查找.当前主流的搜索引擎皆是利用的倒排索引.
例如:
Xxx – abcd cde x
索引本身告诉外界,xxx我已经在abcd cde x这个句子里面了.
每个数据都有自己的格式,lucene也不例外,针对索引的存储有自己的格式.
每个索引(index)包含一个或者多个块segment,每个块是一个独立的索引.块的创建是在索引的添加,删除的时候,而在搜索的时候会分开访问块,再最终合并到一起.
块文件命名更是 segments_<N>,Lucene第一次打开的就是这些文件,再会打开被块文件引用到的文件.N值会随着索引的改变次数而增加的.格式为整型数.
addDocument(Document)//利用默认的分析器,与创建IndexWriter的分析器相同.
addDocument(Document,Anayzer)
添加索引
a.new Document
b.new Field->添加内容
c.document.add(field);
d.indexWriter.add(document);
Document doc = new Document();
doc.add(new Field("id", ids[i]/*array*/, Field.Store.YES,
Field.Index.NOT_ANALYZED));
doc.add(new Field("city", text[i] /*array*/, Field.Store.YES,
Field.Index.ANALYZED));
writer.addDocument(doc);
删除索引
在删除或者添加比较多的时候,会影响到索引的吞吐量,推荐做逼批处理的添加或者删除,来获得更好的性能.在这里的删除是"软删除",可调用expungeDeletes来删除磁盘上的所以已标识删除的数据.
a.Term/Query
b.indexWriter.deleteDocument(??)
deleteDocuments(Term)// deletes all documents containing the provided term.
deleteDocuments(Term[])// deletes all documents containing any of the terms in the provided array.
deleteDocuments(Query)// deletes all documents matching the provided query.
deleteDocuments(Query[])// deletes all documents matching any of the queries in the provided.
@Test
public void testDelete() throws Exception{
IndexWriter iw = new IndexWriter(directory,new WhitespaceAnalyzer(),IndexWriter.MaxFieldLength.UNLIMITED);
Term term = new Term("id", "1");
iw.deleteDocuments(term);
iw.optimize();
assertEquals(iw.numDocs(), 1);
iw.close();
}
通过各Term删除单个document.
IndexWriter,IndexReader中的maxDoc()与numDocs()
maxDoc()返回下一个可取得文档的内部编号.
numDocs()返回未被删除的document数目.
更新索引
updateDocument(Term, Document)// first deletes all documents containing the provided term and then adds the new document using the writer’s default analyzer.
updateDocument(Term, Document, Analyzer)// does the same, but uses the provided analyzer instead of the writer’s default analyzer.
@Test
public void testUpdate() throws Exception {
IndexWriter iw = new IndexWriter(directory, new WhitespaceAnalyzer(),IndexWriter.MaxFieldLength.UNLIMITED);
Term term = new Term("id", "1");
Document doc = new Document();
doc.add(new Field("id", "3", Field.Store.YES,
Field.Index.NOT_ANALYZED));
iw.updateDocument(term, doc);
iw.optimize();
assertEquals(iw.maxDoc(),2);
iw.close();
}
从以上程序中可看出Field是个极其重要的类.在这里定义了几个枚举类型
Index,Store,TermVector
Index:
Index.ANALYZED
Index.NOT_ANALYZED
Index.ANALYZED_NO_NORMS
Index.NOT_ANALYZED_NO_NORMS
Index.NO
查询会用到Field,会关系到Field的存储类型
Store
Store.YES //保存,可以被IndexReader说读取.
Store.NO //不保存.
介于Store与 Index之间的参数,用来提供向量机制的模糊查询
TermVector
TermVector.YES //保存term vectors
TermVector.WITH_POSITIONS //保存term vectors(保存值和token位置信息)
TermVector.WITH_OFFSETS //保存term vectors (保存值和token offset信息)
TermVector.WITH_POSITIONS_OFFSETS //保存term vectors (保存值和token位置信息,token offset信息)
TermVector.NO //不保存term vectors
- 大小: 11.6 KB
分享到:
相关推荐
Lucene创建索引步骤: 1、创建Directory(索引位置) 2、创建IndexWrite(写入索引) 3、创建Document对象 4、为Document添加Field(相当于添加属性:类似于表与字段的关系) 5、通过IndexWriter添加文档到索引中
在Eclipse环境中运用java,Lucene建索引及查询关键字
Lucene3.0创建索引 读取目录下的所有txt文档格式的文件,然后生成一个索引文件到某目录下!
lucene 对 xml建立索引 建立索引就是怎么简单 呵呵
Lucene创建索引,查询索引的简单使用。
java创建Lucene索引
基于lucene技术的增量索引,实现索引的首次创建,动态增删改
lucene并行索引
lucene索引结构原理
本源码演示了Lucene结合Sql建立索引,把Sql中的数据通过建立索引用Lucene来检索 【该源码由51aspx提供】 源码 " onerror="this.src='/images/ifnoimg.gif'" src="/uploads/allimg/090904/1039152O5-0.jpg...
iTextPDFExtractor.java ------ ...--PDFBox创建PDF文件的Lucene索引 PDFBoxPathIndex.java ------- --PDFBox创建指定目录PDF文档索引 POIOfficeExtractor.java ----- -- POI处理Excel和Word文档代码
为了快速查询,加快查询速度,减少与数据库交互,经常需要用到lucene实现创建索引和查询
基于lucene 2.4简单的一个索引和搜索实例
lucene建立数据库索引的问题,在这里,把其中的一些问题补充说明,希望对大家有新的帮助,希望大家相互提出问题,相互学习,共同进步!!
该程序代码属于本人2015所写,虽然尚有不足,却实现了对多个文件夹下的数据进行Lucene建立索引和查询功能,并包含了所需的所有jar包,工程直接导入即可运行。
Lucene建立索引jar包和Paoding庖丁分词jar包,Lucene结合Paoding庖丁分词创建索引索引jar包汇总
最简单的Lucene建立、搜索索引的方法,工程基于Myeclipse10
lucene 4.7.2支持java 6 ,之后的版本需要java 7以上,创建、删除、修改索引,搜索支持通用对象(可以根据对象类型搜索),可以范围搜索、排序、高亮,希望有所帮助
Lucene(这里用到的是Lucene.net版本也成为DotLucene)是一个...本源码演示了Lucene结合Sql建立索引,把Sql中的数据通过建立索引用Lucene来检索 支持简单的中文分词,同时提供了Lucene.Net-2.0-004版本的源码给大家
使用lucene,建索引。倒排索引现在在搜索引擎涌出很大,本工程为入门提供参考