情非得已swust

[置顶] 我用heritrix抓取当当网的商品页面，结果只抓到首页就结束了，请大家帮忙看看，谢谢！

摘要：这是我扩展的Extractor 1 package isearch.heritrix; 2 3 4 import java.io.IOException; 5 import java.io.UnsupportedEncodingException; 6 import java.util.ArrayList; 7 import java.util.Collection; 8 import java.util.HashMap; 9 import java.util.Iterator; 10 import java.util.logging.Level; 11 import j... 阅读全文

posted @ 2011-10-10 10:47 情非得已swust 阅读(1200) 评论(3) 推荐(1) 编辑

2012年7月4日

lucene + hadoop 分布式搜索运行框架 Nut 1.0a9

摘要： 1、概述不管程序性能有多高，机器处理能力有多强，都会有其极限。能够快速方便的横向与纵向扩展是Nut设计最重要的原则，以此原则形成以分布式并行计算为核心的架构设计。以分布式并行计算为核心的架构设计是Nut区别于Solr、Katta的地方。Nut是一个Lucene+Hadoop分布式并行计算搜索框架，能对千G以上索引提供7*24小时搜索服务。在服务器资源足够的情况下能达到每秒处理100万次的搜索请求。Nut开发环境：jdk1.6.0.23+lucene3.0.3+eclipse3.6.1+hadoop0.20.2+zookeeper3.3.2+hbase0.20.6+memcached+mongo 阅读全文

posted @ 2012-07-04 09:15 情非得已swust 阅读(260) 评论(0) 推荐(0) 编辑

2012年3月4日

Lucene3.5自学4--建索引相关知识总结

摘要： Lucene简单介绍（该部分摘自网络）Lucene是一个高效的，基于Java的全文检索库。所以在了解Lucene之前要费一番工夫了解一下全文检索。那么什么叫做全文检索呢？这要从我们生活中的数据说起。我们生活中的数据总体分为两种：结构化数据和非结构化数据。结构化数据：指具有固定格式或有限长度的数据，如数据库，元数据等。非结构化数据：指不定长或无固定格式的数据，如邮件，word文档等。当然有的地方还会提到第三种，半结构化数据，如XML，HTML等，当根据需要可按结构化数据来处理，也可抽取出纯文本按非结构化数据来处理。非结构化数据又一种叫法叫全文数据。按照数据的分类，搜索也分为两种：对结构化数据的搜阅读全文

posted @ 2012-03-04 19:58 情非得已swust 阅读(767) 评论(0) 推荐(0) 编辑

2012年3月3日

Lucene3.5自学系列3-索引的操作-IndexReader

摘要：在Lucene3.5中，对索引操作主要是IndexReader类控制，现在写个实例（基本操作都包括了），但是有些东西在3.5中已经过时了，具体现在不详说---------这几天我发布都是带代码的实例，明白会写个总结，包括3.5中部分的概念，以及过时的方法的替换都将详述等东西。//目前这几篇文章不适合初学者入门看，需要有点概要基础的能看懂，写在这儿只是给自己一个存档，没有专门为大家而写，请原谅，有时间会写个总结性东西，大家参考着并结合API，应该能理解的/好了下面是今天的学习的 1 package cn.swust.lucene; 2 import java.io.File; 3 impo... 阅读全文

posted @ 2012-03-03 20:41 情非得已swust 阅读(1320) 评论(1) 推荐(0) 编辑

2012年3月1日

Lucene3.5自学系列2-查询的建立--IndexSearch

摘要：暂时现写个实例，等有时间在慢慢详写 1 package cn.swust.lucene; 2 3 import java.io.File; 4 import java.io.IOException; 5 6 import org.apache.lucene.analysis.Analyzer; 7 import org.apache.lucene.analysis.standard.StandardAnalyzer; 8 import org.apache.lucene.document.Document; 9 import org.apache.lucene.index.CorruptI.. 阅读全文

posted @ 2012-03-01 20:33 情非得已swust 阅读(830) 评论(0) 推荐(0) 编辑

2012年2月29日

常用大数据量、海量数据处理方法 / 算法总结

摘要： (转：来源无从考证)大数据量的问题是很多面试笔试中经常出现的问题，比如baidu google 腾讯这样的一些涉及到海量数据的公司经常会问到。下面的方法是我对海量数据的处理方法进行了一个一般性的总结，当然这些方法可能并不能完全覆盖所有的问题，但是这样的一些方法也基本可以处理绝大多数遇到的问题。下面的一些问题基本直接来源于公司的面试笔试题目，方法不一定最优，如果你有更好的处理方法，欢迎与我讨论。1.Bloom filter适用范围：可以用来实现数据字典，进行数据的判重，或者集合求交集基本原理及要点：对于原理来说很简单，位数组+k个独立hash函数。将hash函数对应的值的位数组置1，查找时如果阅读全文

posted @ 2012-02-29 18:08 情非得已swust 阅读(735) 评论(0) 推荐(0) 编辑

2012年2月28日

Lucene3.5自学系列1-建立索引

摘要：备注：Field.Store.YES,标志该数据源（字段）被存储，如果为NO当然闪不存储Field.Index.ANALYZED标志该数据源（字段）被索引，如果为NO当然是不索引，注意这里索引闪经过了分词解释器处理后得结果API解释为：Enum Constant SummaryANALYZEDIndex the tokens produced by running the field's value through an Analyzer.ANALYZED_NO_NORMSExpert: Index the tokens produced by running the field 阅读全文

posted @ 2012-02-28 21:23 情非得已swust 阅读(826) 评论(0) 推荐(0) 编辑

2011年12月25日

Boyer-Moore 算法学习

该文被密码保护。阅读全文

posted @ 2011-12-25 13:28 情非得已swust 阅读(1) 评论(0) 推荐(0) 编辑

2011年12月13日

Struts2的ResultType和Action处理链

摘要： Struts2的结果类型在struts-default.xml中定义了Struts2内置的所有可用的<result-type/>所有的Struts2结果处理类都要直接或间接的实现com.opensymphony.xwork2.Result接口在struts-default.xml中的<result-types/>里面，有这样一行声明Deprecated name form scheduled for removal in Struts 2.1.0. The camelCase versions are preferred.即：不建议使用以下两种结果类型，在Struts- 阅读全文

posted @ 2011-12-13 16:05 情非得已swust 阅读(1834) 评论(0) 推荐(0) 编辑

2011年12月8日

mysql sql出现语法错误特殊原因（表名不能为right）

摘要：最近做了一个信息系统，有个表命名为right，后来操作时发现select始终提示语法错误，纠结了很久，反复验证自己写的sql语句没有错误!最后比较了其他表，我把right表名改为rights，就ok了；分析可能是mysql默认right是不能用的。。。记录下，希望大家看到了以后避免这个错误阅读全文

posted @ 2011-12-08 10:44 情非得已swust 阅读(386) 评论(0) 推荐(0) 编辑

2011年11月12日

Struts2+JSON+JQuery实现简单验证

摘要：转自：http://ld-21.iteye.com/blog/744779jsonjQueryStrutsJavaEEXML刚学的东东，搞了很久的一个小成果，在此与大家分享。。。1.创建struts_JSON项目，加入struts2所需的六个包，分别为：commons-fileupload-1.2.1.jar， commons-io-1.3.2.jar， freemarker-2.3.15.jar ， ognl-2.7.3.jar， struts2-core-2.1.8.1.jar ， xwork-core-2.1.6.jar 。2.创建web.xml 和 struts.xml 代码分别如下：阅读全文

posted @ 2011-11-12 23:17 情非得已swust 阅读(700) 评论(0) 推荐(0) 编辑

公告