摘要: 这是我扩展的Extractor 1 package isearch.heritrix; 2 3 4 import java.io.IOException; 5 import java.io.UnsupportedEncodingException; 6 import java.util.ArrayList; 7 import java.util.Collection; 8 import java.util.HashMap; 9 import java.util.Iterator; 10 import java.util.logging.Level; 11 import j... 阅读全文
posted @ 2011-10-10 10:47 情非得已swust 阅读(1200) 评论(3) 推荐(1) 编辑
摘要: 1、概述不管程序性能有多高,机器处理能力有多强,都会有其极限。能够快速方便的横向与纵向扩展是Nut设计最重要的原则,以此原则形成以分布式并行计算为核心的架构设计。以分布式并行计算为核心的架构设计是Nut区别于Solr、Katta的地方。Nut是一个Lucene+Hadoop分布式并行计算搜索框架,能对千G以上索引提供7*24小时搜索服务。在服务器资源足够的情况下能达到每秒处理100万次的搜索请求。Nut开发环境:jdk1.6.0.23+lucene3.0.3+eclipse3.6.1+hadoop0.20.2+zookeeper3.3.2+hbase0.20.6+memcached+mongo 阅读全文
posted @ 2012-07-04 09:15 情非得已swust 阅读(260) 评论(0) 推荐(0) 编辑
摘要: Lucene简单介绍(该部分摘自网络)Lucene是一个高效的,基于Java的全文检索库。所以在了解Lucene之前要费一番工夫了解一下全文检索。那么什么叫做全文检索呢?这要从我们生活中的数据说起。我们生活中的数据总体分为两种:结构化数据和非结构化数据。结构化数据:指具有固定格式或有限长度的数据,如数据库,元数据等。非结构化数据:指不定长或无固定格式的数据,如邮件,word文档等。当然有的地方还会提到第三种,半结构化数据,如XML,HTML等,当根据需要可按结构化数据来处理,也可抽取出纯文本按非结构化数据来处理。非结构化数据又一种叫法叫全文数据。按照数据的分类,搜索也分为两种:对结构化数据的搜 阅读全文
posted @ 2012-03-04 19:58 情非得已swust 阅读(767) 评论(0) 推荐(0) 编辑
摘要: 在Lucene3.5中,对索引操作主要是IndexReader类控制,现在写个实例(基本操作都包括了),但是有些东西在3.5中已经过时了,具体现在不详说---------这几天我发布都是带代码的实例,明白会写个总结,包括3.5中部分的概念,以及过时的方法的替换都将详述等东西。//目前这几篇文章不适合初学者入门看,需要有点概要基础的能看懂,写在这儿只是给自己一个存档,没有专门为大家而写,请原谅,有时间会写个总结性东西,大家参考着并结合API,应该能理解的/好了下面是今天的学习的 1 package cn.swust.lucene; 2 import java.io.File; 3 impo... 阅读全文
posted @ 2012-03-03 20:41 情非得已swust 阅读(1320) 评论(1) 推荐(0) 编辑
摘要: 暂时现写个实例,等有时间在慢慢详写 1 package cn.swust.lucene; 2 3 import java.io.File; 4 import java.io.IOException; 5 6 import org.apache.lucene.analysis.Analyzer; 7 import org.apache.lucene.analysis.standard.StandardAnalyzer; 8 import org.apache.lucene.document.Document; 9 import org.apache.lucene.index.CorruptI.. 阅读全文
posted @ 2012-03-01 20:33 情非得已swust 阅读(830) 评论(0) 推荐(0) 编辑
摘要: (转:来源无从考证)大数据量的问题是很多面试笔试中经常出现的问题,比如baidu google 腾讯 这样的一些涉及到海量数据的公司经常会问到。下面的方法是我对海量数据的处理方法进行了一个一般性的总结,当然这些方法可能并不能完全覆盖所有的问题,但是这样的一些方法也基本可以处理绝大多数遇到的问题。下面的一些问题基本直接来源于公司的面试笔试题目,方法不一定最优,如果你有更好的处理方法,欢迎与我讨论。1.Bloom filter适用范围:可以用来实现数据字典,进行数据的判重,或者集合求交集基本原理及要点:对于原理来说很简单,位数组+k个独立hash函数。将hash函数对应的值的位数组置1,查找时如果 阅读全文
posted @ 2012-02-29 18:08 情非得已swust 阅读(735) 评论(0) 推荐(0) 编辑
摘要: 备注:Field.Store.YES,标志该数据源(字段)被存储,如果为NO当然闪不存储Field.Index.ANALYZED标志该数据源(字段)被索引,如果为NO当然是不索引,注意这里索引闪经过了分词解释器处理后得结果API解释为:Enum Constant SummaryANALYZEDIndex the tokens produced by running the field's value through an Analyzer.ANALYZED_NO_NORMSExpert: Index the tokens produced by running the field 阅读全文
posted @ 2012-02-28 21:23 情非得已swust 阅读(826) 评论(0) 推荐(0) 编辑
该文被密码保护。 阅读全文
posted @ 2011-12-25 13:28 情非得已swust 阅读(1) 评论(0) 推荐(0) 编辑
摘要: Struts2的结果类型在struts-default.xml中定义了Struts2内置的所有可用的<result-type/>所有的Struts2结果处理类都要直接或间接的实现com.opensymphony.xwork2.Result接口在struts-default.xml中的<result-types/>里面,有这样一行声明Deprecated name form scheduled for removal in Struts 2.1.0. The camelCase versions are preferred.即:不建议使用以下两种结果类型,在Struts- 阅读全文
posted @ 2011-12-13 16:05 情非得已swust 阅读(1834) 评论(0) 推荐(0) 编辑
摘要: 最近做了一个信息系统,有个表命名为right,后来操作时发现select始终提示语法错误,纠结了很久,反复验证自己写的sql语句没有错误!最后比较了其他表,我把right表名改为rights,就ok了;分析可能是mysql默认right是不能用的。。。记录下,希望大家看到了以后避免这个错误 阅读全文
posted @ 2011-12-08 10:44 情非得已swust 阅读(386) 评论(0) 推荐(0) 编辑
摘要: 转自:http://ld-21.iteye.com/blog/744779jsonjQueryStrutsJavaEEXML刚学的东东,搞了很久的一个小成果,在此与大家分享。。。1.创建struts_JSON项目,加入struts2所需的六个包,分别为:commons-fileupload-1.2.1.jar, commons-io-1.3.2.jar, freemarker-2.3.15.jar , ognl-2.7.3.jar, struts2-core-2.1.8.1.jar , xwork-core-2.1.6.jar 。2.创建web.xml 和 struts.xml 代码分别如下: 阅读全文
posted @ 2011-11-12 23:17 情非得已swust 阅读(700) 评论(0) 推荐(0) 编辑