2010年11月21日星期日

用NutchWAX搭建本地搜索引擎

目的:
使用NutchWAX对使用Heritrix抓下来的arc(Internet Archive)文件进行索引, 并搭建检索系统.

环境:
ubuntu 10.10
OpenJDK 6.x
NutchWAX 0.13
tomcat 6.x

步骤:
 * tar xzvf nutchwax-0.13.tar.gz
 * cd nutchwax-0.13
 * 创建文件manifest, 内容如下:
/absolute/path/to/your/somearchive0.arc.gz mycollection
/absolute/path/to/your/somearchive1.arc.gz mycollection
 * bin/nutchwax import manifest
 * bin/nutchwax index indexes segments/*
 * bin/nutchwax merge index indexes  
 * sudo apt-get install tomcat6
 * sudo mkdir /var/lib/tomcat6/crawl
 * sudo mv index /var/lib/tomcat6/crawl
 * sudo mv indexes /var/lib/tomcat6/crawl
 * sudo mv segments /var/lib/tomcat6/crawl
 * sudo cp nutch-1.0.war /var/lib/tomcat6/webapps/


现在打开http://localhost:8080/nutch-1.0应该可以进行搜索了.
下面稍微对nutch的界面进行一下修改:

修改/var/lib/tomcat6/webapps/nutch-1.0/search.jsp :


1. 将 int hitsPerSite = 2; 修改为:
int hitsPerSite = 0;
这样就不会在显示搜索结果时只显示两个了.

2. 默认搜索结果页面只有"下一页"按钮, 很不方便, 所以需要添加分页显示功能. 在尾部添加:

(代码就不贴了, 贴出来是乱码...具体参考Nutch的分页功能)


这样可以显示附近11页(这段代码是别人写的, 可能有点bug )的页面链接.




TODO:
1. 中文分词?
2. wayback网页快照?
3. 排序算法?





参考:
HOWTO.txt
Nutch的分页功能
搜索引擎nutch分页功能
NutchWAX-0.12.9 Japanization

2010年11月6日星期六

入手华为U8220

昨天上午下的单,今天下午到的.

T-Mobile的小内存版, 响应稍微有点慢, 不过可以忍受.
屏幕色彩数低, 有些有渐变的图标仔细看来会觉得惨不忍睹.
机器平放之后总是转到横屏...
其它--目前看来还可以, 毕竟只是1K出头的机子, 别指望有四五千的机器的表现.

装驱动遇到问题, PC套件和adb都检测不到, 后来下来一个Win7下面的驱动更新之后才能识别.
然后调程序的时候又发现logcat中无输出, Google之后找到解决方案:

http://www.eoeandroid.com/thread-30265-1-1.html
问题表现:连接手机与电脑后,保证驱动安装正确,debug模式打开,在ddms中可以看到进程信息,但是logcat中无信息输出
问题原因:一些rom默认关闭logcat
问题说明:ddms中设备名字显示为问号不影响,即adb get-serialno显示为问号不影响.
解决方法:
   1.需要root权限(部分rom不需要)
   2.打开logcat,并设置level
    adb shell
    echo 1 > /sys/kernel/logger/log_main/enable // 这里为注释,将1写入开关文件,1为开,0为关
    echo 2 >/sys/kernel/logger/log_main/priority // 里为注释,将代表level的2写入优先级文件
   3.重启adb,如果使用eclipse,先关闭eclipse,再重启adb,再启动eclipse
     adb kill-server
     adb start-server
   4.此时70%的logcat应该能正常工作了.如果此时logcat仍旧不工作,更新adb(只是一条指令,不需联网,很快执行完毕)
     android update adb
   5.重复第3步.此时80%的logcat应该能正常工作了
   6.如果logcat仍旧不工作
      找到个人主目录下的android目录,如我的是C:\Documents and Settings\lypoint\.android
      找到这个目录下的adb_usb.ini文件,其内容默认只有三行,全为注释,在后面添加一行,内容为0x12d1
   7.重复第三步,此时90%的logcat应该能正常工作了
   8.未完待续...
   9.G客工作室原创www.gker.net,转载请注明.

>>>>>>>>>>>>>>>>>>>>>

顺便记录一下Android 2.1的一个bug:

就是tablelayout中的button的文字会对不齐.

解决方法: 用linearlayout + layout_weight代替

参考: Buttons in TableLayout cropped on Android 1.6 and 2.1 (but not on 1.5 or 2.2)


>>>>>>>>>>>>>>>>>>>>>

祈祷我在Google Android 应用开发中国大学生挑战赛中拿手机吧!
哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈

话说回来, 程序还没进行完整的测试……