<?xml version="1.0" encoding="utf-8"?><?xml-stylesheet href='http://feeds.feedsky.com/styles/temp01.xsl' type='text/xsl' ?><!--这是一个由Feedsy提供技术支持的Feed，为了提高读者阅读的体验，以及满足用户美化自己Feed的需要，我们设计了多种精美的Feed模板，提供给大家选择，所有最终呈现出来的样式，皆由用户自愿选择使用，未经许可，任何团体和个人，请不要擅自修改样式或者盗用，这是对于用户选择权的尊重。--><rss xmlns:atom="http://www.w3.org/2005/Atom" xmlns:fs="http://www.feedsky.com/namespace/feed" xmlns:wfw="http://wellformedweb.org/CommentAPI/" xmlns:slash="http://purl.org/rss/1.0/modules/slash/" xmlns:trackback="http://madskills.com/public/xml/rss/module/trackback/" xmlns:dc="http://purl.org/dc/elements/1.1/" version="2.0"><channel><atom:link href="http://feeds.feedsky.com/csdn.net/thebigforest" type="application/rss+xml" rel="self"></atom:link><fs:self_link href="http://feeds.feedsky.com/csdn.net/thebigforest" type="application/rss+xml"></fs:self_link><lastBuildDate>Sun, 21 Oct 2007 09:51:00 GMT</lastBuildDate><title>thebigforest的专栏</title><description>热爱生活，热爱自然！</description><link>http://blog.csdn.net/thebigforest/</link><item><title>Nutch使用汇总</title><link>http://blog.csdn.net/thebigforest/archive/2007/10/21/1835336.aspx</link><wfw:comment>http://blog.csdn.net/thebigforest/comments/1835336.aspx</wfw:comment><slash:comments>0</slash:comments><wfw:commentRss>http://blog.csdn.net/thebigforest/comments/commentRss/1835336.aspx</wfw:commentRss><trackback:ping>http://tb.blog.csdn.net/TrackBack.aspx?PostId=1835336</trackback:ping><description>网上有好多的Nutch使用的文章,但其实只是几篇文章翻来覆去的拷贝而已!

1.Nutch 初体验
很经典,讲了nutch与lucene 以及其他一些爬虫的比较。和建立一个抓取企业内部网(Intranet crawling)实例。但是可能是版本的问题。其中少了关键的一步。
nutch是一个完整的搜索引擎，但是它只是一个搜索引擎他可以订制的东西太少！例如加中文分词好像要改动源文件，这样做对以后的升级维护都是麻烦。
&lt;img src =&quot;http://blog.csdn.net/thebigforest/aggbug/1835336.aspx&quot; width = &quot;1&quot; height = &quot;1&quot; /&gt;</description><pubDate>Sun, 21 Oct 2007 17:51:00 +0800</pubDate><author>thebigforest</author><comments>http://blog.csdn.net/thebigforest/archive/2007/10/21/1835336.aspx#Feedback</comments><guid isPermaLink="false">http://blog.csdn.net/thebigforest/archive/2007/10/21/1835336.aspx</guid><dc:creator>thebigforest</dc:creator></item><item><title>Notepad的妙用</title><link>http://blog.csdn.net/thebigforest/archive/2007/10/14/1823712.aspx</link><wfw:comment>http://blog.csdn.net/thebigforest/comments/1823712.aspx</wfw:comment><slash:comments>0</slash:comments><wfw:commentRss>http://blog.csdn.net/thebigforest/comments/commentRss/1823712.aspx</wfw:commentRss><trackback:ping>http://tb.blog.csdn.net/TrackBack.aspx?PostId=1823712</trackback:ping><description>平时总是在桌面上新建一个.txt文件来及一些琐碎的东西！每次都用Notepad。今天发现了一个有趣的应用。

那就是在文本的第一行写下“.LOG”，Notepad就会把它当作日志文件，每次打开的时候都会新建一行然后插入当前日期。
&lt;img src =&quot;http://blog.csdn.net/thebigforest/aggbug/1823712.aspx&quot; width = &quot;1&quot; height = &quot;1&quot; /&gt;</description><pubDate>Sun, 14 Oct 2007 08:19:00 +0800</pubDate><author>thebigforest</author><comments>http://blog.csdn.net/thebigforest/archive/2007/10/14/1823712.aspx#Feedback</comments><guid isPermaLink="false">http://blog.csdn.net/thebigforest/archive/2007/10/14/1823712.aspx</guid><dc:creator>thebigforest</dc:creator></item><item><title>ubuntu运行tomcat</title><link>http://blog.csdn.net/thebigforest/archive/2007/09/24/1798870.aspx</link><wfw:comment>http://blog.csdn.net/thebigforest/comments/1798870.aspx</wfw:comment><slash:comments>0</slash:comments><wfw:commentRss>http://blog.csdn.net/thebigforest/comments/commentRss/1798870.aspx</wfw:commentRss><trackback:ping>http://tb.blog.csdn.net/TrackBack.aspx?PostId=1798870</trackback:ping><description>其实，这跟在跟在windows里设置没什么区别，在windows里面，我们运行startup.cmd，在ubuntu里面，我们运行startup.sh。就这么简单。下面，我说一下具体的步骤：
安装jdk
&lt;img src =&quot;http://blog.csdn.net/thebigforest/aggbug/1798870.aspx&quot; width = &quot;1&quot; height = &quot;1&quot; /&gt;</description><pubDate>Tue, 25 Sep 2007 01:56:00 +0800</pubDate><author>thebigforest</author><comments>http://blog.csdn.net/thebigforest/archive/2007/09/24/1798870.aspx#Feedback</comments><guid isPermaLink="false">http://blog.csdn.net/thebigforest/archive/2007/09/24/1798870.aspx</guid><dc:creator>thebigforest</dc:creator></item><item><title>运行heritrix成功！</title><link>http://blog.csdn.net/thebigforest/archive/2007/09/24/1797732.aspx</link><wfw:comment>http://blog.csdn.net/thebigforest/comments/1797732.aspx</wfw:comment><slash:comments>2</slash:comments><wfw:commentRss>http://blog.csdn.net/thebigforest/comments/commentRss/1797732.aspx</wfw:commentRss><trackback:ping>http://tb.blog.csdn.net/TrackBack.aspx?PostId=1797732</trackback:ping><description>看了自己动手做搜索引擎那本书，上面写的运行heritrix的方法挺麻烦的！后来发现bin文件夹里面本来就有一个heritrix.cmd的文件，我想着一定就是windows下的运行文件，运行了一下，提示输入用户名密码！查了一些资料原来是默认的配置文件有问题，将 %HERITRIX_HOME%\heritrix-1.12.1.jar 解压到临时目录，拷贝其中的profiles目录到 %HERITRIX_HOME%\conf\目录下。&lt;img src =&quot;http://blog.csdn.net/thebigforest/aggbug/1797732.aspx&quot; width = &quot;1&quot; height = &quot;1&quot; /&gt;</description><pubDate>Mon, 24 Sep 2007 08:36:00 +0800</pubDate><author>thebigforest</author><comments>http://blog.csdn.net/thebigforest/archive/2007/09/24/1797732.aspx#Feedback</comments><guid isPermaLink="false">http://blog.csdn.net/thebigforest/archive/2007/09/24/1797732.aspx</guid><dc:creator>thebigforest</dc:creator></item><item><title>Eclipse插件安装的3种方法</title><link>http://blog.csdn.net/thebigforest/archive/2007/09/16/1787303.aspx</link><wfw:comment>http://blog.csdn.net/thebigforest/comments/1787303.aspx</wfw:comment><slash:comments>0</slash:comments><wfw:commentRss>http://blog.csdn.net/thebigforest/comments/commentRss/1787303.aspx</wfw:commentRss><trackback:ping>http://tb.blog.csdn.net/TrackBack.aspx?PostId=1787303</trackback:ping><description>Eclipse作为一个开放的IDE有很多优秀的插件，用一个好的插件可以大大的提高我们的工作效率，插件的安装方法大体有以下几种：把插件文件直接覆盖到eclipse目录里是最直接也是最愚蠢的一种方法！使用link文件，就是把插件存放到任一的地方（例如/eclipse/MyPuls）,然后。&lt;img src =&quot;http://blog.csdn.net/thebigforest/aggbug/1787303.aspx&quot; width = &quot;1&quot; height = &quot;1&quot; /&gt;</description><pubDate>Mon, 17 Sep 2007 01:16:00 +0800</pubDate><author>thebigforest</author><comments>http://blog.csdn.net/thebigforest/archive/2007/09/16/1787303.aspx#Feedback</comments><guid isPermaLink="false">http://blog.csdn.net/thebigforest/archive/2007/09/16/1787303.aspx</guid><dc:creator>thebigforest</dc:creator></item><item><title>抓取百度搜索结果——解密百度狗</title><link>http://blog.csdn.net/thebigforest/archive/2007/06/13/1650307.aspx</link><wfw:comment>http://blog.csdn.net/thebigforest/comments/1650307.aspx</wfw:comment><slash:comments>0</slash:comments><wfw:commentRss>http://blog.csdn.net/thebigforest/comments/commentRss/1650307.aspx</wfw:commentRss><trackback:ping>http://tb.blog.csdn.net/TrackBack.aspx?PostId=1650307</trackback:ping><description>网上有很多类似“百度狗” 的元搜索引擎，他们抓取百度和google的搜索结果，然后合并在一个网页里。

且不说这样做有什么意义，但是这的确是一件好玩的事，自己想了一下原理，写了这样一个类，可以抓取百度里的搜索结果。

原理很简单：

通过搜索关键和页码字进入百度，例如“http://www.baidu.com/s?wd=搜索关键字&amp;pn=页码（这里的页码计算公式是：10*（页码-1）） 
找到真正有用的那一行，把信息读出来， 
按照每一个项的特点把他们切开，例如URL前面都有“class=f”…… 
然后存起来 
下面是代码：
&lt;img src =&quot;http://blog.csdn.net/thebigforest/aggbug/1650307.aspx&quot; width = &quot;1&quot; height = &quot;1&quot; /&gt;</description><pubDate>Wed, 13 Jun 2007 20:42:00 +0800</pubDate><author>thebigforest</author><comments>http://blog.csdn.net/thebigforest/archive/2007/06/13/1650307.aspx#Feedback</comments><guid isPermaLink="false">http://blog.csdn.net/thebigforest/archive/2007/06/13/1650307.aspx</guid><dc:creator>thebigforest</dc:creator></item><item><title>shell入门 3</title><link>http://blog.csdn.net/thebigforest/archive/2007/05/08/1601192.aspx</link><wfw:comment>http://blog.csdn.net/thebigforest/comments/1601192.aspx</wfw:comment><slash:comments>0</slash:comments><wfw:commentRss>http://blog.csdn.net/thebigforest/comments/commentRss/1601192.aspx</wfw:commentRss><trackback:ping>http://tb.blog.csdn.net/TrackBack.aspx?PostId=1601192</trackback:ping><description>　　l .bash_history ：记录了您以前输入的命令，

　　l .bash_logout ：当您退出 shell 时，要执行的命令，

　　l .bash_profile ：当您登入 shell 时，要执行的命令，

　　l .bashrc ：每次打开新的 shell 时，要执行的命令。
&lt;img src =&quot;http://blog.csdn.net/thebigforest/aggbug/1601192.aspx&quot; width = &quot;1&quot; height = &quot;1&quot; /&gt;</description><pubDate>Wed, 09 May 2007 07:11:00 +0800</pubDate><author>thebigforest</author><comments>http://blog.csdn.net/thebigforest/archive/2007/05/08/1601192.aspx#Feedback</comments><guid isPermaLink="false">http://blog.csdn.net/thebigforest/archive/2007/05/08/1601192.aspx</guid><dc:creator>thebigforest</dc:creator></item><item><title>shell入门2</title><link>http://blog.csdn.net/thebigforest/archive/2007/05/08/1601189.aspx</link><wfw:comment>http://blog.csdn.net/thebigforest/comments/1601189.aspx</wfw:comment><slash:comments>0</slash:comments><wfw:commentRss>http://blog.csdn.net/thebigforest/comments/commentRss/1601189.aspx</wfw:commentRss><trackback:ping>http://tb.blog.csdn.net/TrackBack.aspx?PostId=1601189</trackback:ping><description>l ll ：将执行‘ls -l -k‘（以长格式列出目录内容，包括一些文件属性，并以 KB 而不是 byte 为单位显示文件大小）l ls ：将执行‘ls -F --color=auto‘（列出目录内容，加上文件类型标识，并使用颜色）第三篇：命令的排列／命令的任务调度／命令的替换。将先在屏幕上列出目录中的所有内容，然后列出所有目录及其子目录所占磁盘大小。&lt;img src =&quot;http://blog.csdn.net/thebigforest/aggbug/1601189.aspx&quot; width = &quot;1&quot; height = &quot;1&quot; /&gt;</description><pubDate>Wed, 09 May 2007 07:08:00 +0800</pubDate><author>thebigforest</author><comments>http://blog.csdn.net/thebigforest/archive/2007/05/08/1601189.aspx#Feedback</comments><guid isPermaLink="false">http://blog.csdn.net/thebigforest/archive/2007/05/08/1601189.aspx</guid><dc:creator>thebigforest</dc:creator></item><item><title>shell入门 1</title><link>http://blog.csdn.net/thebigforest/archive/2007/05/08/1601186.aspx</link><wfw:comment>http://blog.csdn.net/thebigforest/comments/1601186.aspx</wfw:comment><slash:comments>0</slash:comments><wfw:commentRss>http://blog.csdn.net/thebigforest/comments/commentRss/1601186.aspx</wfw:commentRss><trackback:ping>http://tb.blog.csdn.net/TrackBack.aspx?PostId=1601186</trackback:ping><description>这些机器的操作系统由汇编语言、机器语言写成，所以运行起来效率很高，但都无法移植(unportable)。每家计算机公司都给自己的机器配上独有的操作系统，然后再销售。（Thompson 曾经参加了一个项目：MULTICS，Unix 是与这有关的一个玩笑词）其实，Dennis Ritchie 为这个新的操作系统设计了一种新的编程语言-- C 语言后，事情才真正开始。虽然 Unix 的效率不及原来的操作系统，但有三个突出的优点：可以任意移植到其他机器，其中的 C 语言大大简化了编程，而且这些都 free 。很快，全美国的大学都忙着开始为机器安装 Unix 。&lt;img src =&quot;http://blog.csdn.net/thebigforest/aggbug/1601186.aspx&quot; width = &quot;1&quot; height = &quot;1&quot; /&gt;</description><pubDate>Wed, 09 May 2007 07:06:00 +0800</pubDate><author>thebigforest</author><comments>http://blog.csdn.net/thebigforest/archive/2007/05/08/1601186.aspx#Feedback</comments><guid isPermaLink="false">http://blog.csdn.net/thebigforest/archive/2007/05/08/1601186.aspx</guid><dc:creator>thebigforest</dc:creator></item><item><title>Linux  初学者笔记</title><link>http://blog.csdn.net/thebigforest/archive/2007/05/06/1598240.aspx</link><wfw:comment>http://blog.csdn.net/thebigforest/comments/1598240.aspx</wfw:comment><slash:comments>0</slash:comments><wfw:commentRss>http://blog.csdn.net/thebigforest/comments/commentRss/1598240.aspx</wfw:commentRss><trackback:ping>http://tb.blog.csdn.net/TrackBack.aspx?PostId=1598240</trackback:ping><description>这里写的方法都是在 http://forum.ubuntu.org.cn 里面搜到的方法！安装传说中的livecd真不是吹得，光盘就像是 “深山红叶” 可以自动启动一个操作系统，但是神奇的是他还能在这个操 作系统里把自己安装了。安装方法其实真的是特别简单,只要记住选择手动分区，然后分两个区，一个是swap格式的，大小是512，如果是1G内存，那就设置成1G的。&lt;img src =&quot;http://blog.csdn.net/thebigforest/aggbug/1598240.aspx&quot; width = &quot;1&quot; height = &quot;1&quot; /&gt;</description><pubDate>Mon, 07 May 2007 01:18:00 +0800</pubDate><author>thebigforest</author><comments>http://blog.csdn.net/thebigforest/archive/2007/05/06/1598240.aspx#Feedback</comments><guid isPermaLink="false">http://blog.csdn.net/thebigforest/archive/2007/05/06/1598240.aspx</guid><dc:creator>thebigforest</dc:creator></item></channel></rss>