真水无香――我的典型生活

来源: BlogBus 原始链接: http://www.blogbus.com:80/blogbus/blog/index.php?blogid=16038&m=20040624 存档链接: https://web.archive.org/web/20040924003535id_/http://www.blogbus.com:80/blogbus/blog/index.php?blogid=16038&m=20040624

真水无香――我的典型生活有时候感到很无奈，有时候感到很无聊，有时候感到很无助，更多时候感到很无知......但是，我还是要继续热爱它，anymay，它是我最可信赖，最可依靠的――我的知识，我的专业。我想叫它做我未来的基石。首页软件技巧 (23) 读书笔记 (6) 自己文章 (6) 思想火花 (13) 今日新知 (13) 我的绿卡 (10) 无香心语 (15) 他山之石 (2) 2004 年 6 月 Sun Mon Tue Wen Thu Fri Sat 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 最后更新我喜欢划船。好久没有上这么多的课了。一起大吃牛肉面一篇好文章又见老同学八成我是个乐观的人也不一定呢好久没到图书馆看书了。我是一劳永逸型今天我过生日整理自己的文件夹，头大了最新评论勇敢的夏天 : 不会游泳，所以不. besure : 呵，一个人偷吃呢. besure : 小姐，又来？服了. besure : 乐啥子呢？又老了. besure : 不是累，是拿回宿. yetyi : 米兰昆德拉喵喵. 清眉 : 头本来就大，^^. 清眉 : 头本来就大，^^. 勇敢的夏天 : 没有搭讪？. 清眉 : 呵呵，色女，不过. 存档报刊浏览 Dovebear的音乐杂记广告狂热者翻译馆跑跑的右边最爱老友记温故而知新女性杂志中国电化教育想做加菲猫天极――美工设计月凉如水我常去的音乐网与君同行清眉的流年勇敢的夏天我的链接应该加上他山之石的分类。 - 2004-06-24 19:26 我觉得也应该设立一个“他山之石”之类的板块。因为我常常在别人的帖子上看到值得一表的内容。比如，我常去的几个网站有新浪网，chinaren校友录，还有几个博客在这个站点中就有广告狂热者的，还有一个是跑跑的右边。当然，还有好多数都数不清的强人的博客据点，我真的觉得他们都很有毅力的。广告狂热者――何轩，我固执得认为这就是他的真名，虽然，我知道在这里留真名不是必备的美德，但是从他每天不断的更新他的日志，有自己掏钱维护网站，使我们这些谈不上是狂热者的人可以更方面的欣赏广告。而跑跑也是这样，她让我感受到她来自狮子座的活力与自信。我只身来上海求学，但在学校这样一个环境中并没有接触到太多的传说中的上海女生。通过读了她的博客，我渐渐开始喜欢上海女生了，当然如果她能具有代表性的话。其实，她们勤奋，她们进取心极强，她们还很自信。总之，如果她们身上带有某种与生俱来的优越感的话，那也是这座城市与她们自身完美结合的结果。现在就动手，加上一个他山之石的分类。安妮薇发表于 19:26 | 阅读全文 | 评论(2) | 引用trackback(0) | 编辑一篇信息采集的文章 - 2004-06-24 19:23 搜索技术面面观 ――教育信息采集网上行一．引言 21世纪基于知识经济的信息社会，无论是个体还是社会组织都对自身学习的关注提到了前所未有的高度。信息的大爆炸要求我们必须提高学习效率，基于知识的竞争，要求我们必须要有高度的信息能力，即要有高度的信息获取、分析加工、表达发布能力。其中关键的第一步就是信息的获取:学习首先要构建学习内容的信息采集系统。这里的学习信息采集系统分层架构，一是构建专家人脉资源，二是构建专业学科知识结构，三是捕获泛在的网络信息资源。专家人脉资源采集就是逐步了解跟进与个体学习兴趣或专业研究相关的领域前沿专家，了解他们研究方向、动态、思想体系。专业学科知识结构构建，就是要通过学科课程、专业杂志、相关协会等构建领域的知识框架。网络信息资源就是通过互联网络选择自己感兴趣的社群、网站等以获取最新的信息。在逐步构建学习内容的信息采集系统的过程中，就要形成信息采集系统的知识地图，并采用一定的形式对其进行管理，以保持动态更新。本文就将重点介绍一下网络信息采集的方法。二．网络教育信息采集方法众所周知，随着因特网的迅猛发展、WEB信息的增加，学习者要在信息海洋里查找信息，就像大海捞针一样，搜索引擎技术恰好解决了这一难题（它可以为学习者提供信息检索服务）。目前，搜索引擎技术正成为计算机工业界和学术界争相研究、开发的对象。搜索引擎（Search Engine）是随着WEB信息的迅速增加，从1995年开始逐渐发展起来的技术。据发表在《科学》杂志1999年7月的文章《WEB信息的可访问性》估计，全球目前的网页超过8亿，有效数据超过9T，并且仍以每4个月翻一番的速度增长。搜索引擎以一定的策略在互联网中搜集、发现信息，对信息进行理解、提取、组织和处理，并为学习者提供检索服务，从而起到信息导航的目的。搜索引擎提供的导航服务已经成为互联网上非常重要的网络服务，搜索引擎站点也被美誉为"网络门户"。 2.1 搜索引擎系统分类按照信息搜集方法和服务提供方式的不同，搜索引擎系统可以分为三大类： 1 ．目录式搜索引擎：以人工方式或半自动方式搜集信息，由编辑员查看信息之后，人工形成信息摘要，并将信息置于事先确定的分类框架中。信息大多面向网站，提供目录浏览服务和直接检索服务。该类搜索引擎因为加入了人的智能，所以信息准确、导航质量高，缺点是需要人工介入、维护量大、信息量少、信息更新不及时。这类搜索引擎的代表是： YAHOO 、 LookSmart 、 Open Directory 、Go Guide等。 2 ．机器人搜索引擎：由一个称为蜘蛛（Spider）的机器人程序以某种策略自动地在互联网中搜集和发现信息，由索引器为搜集到的信息建立索引，由检索器根据学习者的查询输入检索索引库，并将查询结果返回给学习者。服务方式是面向网页的全文检索服务。该类搜索引擎的优点是信息量大、更新及时、毋需人工干预，缺点是返回信息过多，有很多无关信息，学习者必须从结果中进行筛选。这类搜索引擎的代表是： AltaVista 、Northern Light、Excite、Info seek、Inktomi、FAST、 Lycos 、 Google ；国内代表为：" 天网 "、悠游、Open Find等。 3 ．元搜索引擎：这类搜索引擎没有自己的数据，而是将学习者的查询请求同时向多个搜索引擎递交，将返回的结果进行重复排除、重新排序等处理后，作为自己的结果返回给学习者。服务方式为面向网页的全文检索。这类搜索引擎的优点是返回结果的信息量更大、更全，缺点是不能够充分使用所使用搜索引擎的功能，学习者需要做更多的筛选。这类搜索引擎的代表是WebCrawler、InfoMarket等。具体说来，元搜索引擎（Metasearch Engine），是一种调用其它独立搜索引擎的引擎,亦称“搜索引擎之母（The mother of search engines)”。在这里，“元”（Meta）为“总的”、“超越”之意，元搜索引擎就是对多个独立搜索引擎的整合、调用、控制和优化利用。相对元搜索引擎，可被利用的独立搜索引擎称为“源搜索引擎”（source Engine），或“搜索资源”（searching resources），整合、调用、控制和优化利用源搜索引擎的技术，称为“元搜索技术”（Meta-searching technique），元搜索技术是元搜索引擎的核心。元搜索引擎分为并行处理式和串行处理式两大类。并行处理式元搜索引擎将学习者的查询请求同时转送给它调用链接的多个独立型搜索引擎进行查询处理，串行处理式元搜索引擎将学习者的查询请求依次转送给它调用链接的每一个独立型搜索引擎进行查询处理。元搜索引擎是学习者同时利用多引擎进行网络搜索的中介。检索时，元搜索引擎根据学习者提交的检索请求，调用源搜索引擎进行搜索，对搜索结果进行汇集、筛选、删除并等优化处理后，以统一的格式在同一界面集中显示。元搜索引擎虽没有网页搜寻机制，亦无独立的索引数据库，但在检索请求提交、检索接口代理和检索结果显示等方面，均有自己研发的特色的元搜索技术支持。如提交检索请求时，根据源搜索引擎的特点和技术参数，指定优先顺序，并对检索时间、检索结果数量进行控制；作为若干元搜索引擎的检索接口代理，元搜索引擎必须具有较强的字符和语法转换功能，使学习者的检索请求为各具语法特点的不同的元搜索引擎为人所知和接受；而对检索结果的显示，不同的元搜索引擎有不同的处理技术，由于元搜索引擎设定的检索结果排序依据、最大返回结果数量、相关度参数及优化机制等不同，调用相同的源搜索引擎的不同元搜索引擎显示检索结果的数量多少、排序先后、结果信息描述选择亦有较大差异。知道了这些搜索引擎的分类后，下面介绍一些搜索的方法/ 搜索技巧： 2.2 搜索的方法 / 搜索技巧 1 ．搜索之前先思考搜索引擎本事再大，也搜索不到网上没有的内容，而且，有些内容虽然存在网上，却因为各种原因，而成为漏网之鱼。所以在你使用搜索引擎搜索之前，应该先花几秒种想一下，我要找的东西网上可能有吗？如果有，可能在哪里，是什么样子的？网页上会含有哪些关键字？有些东西你根本用不着麻烦搜索引擎的，比如要找个公司的电话，打个114的速度大概比搜索引擎快得多。又有些问题，可能很难用合适的关键字描述，或者不能直接用搜索引擎搜到，那你可以尝试找个精通这个问题的朋友，或者寻找这方面的热门论坛来问，这也是一种搜索方法。有时，你能选择的最好搜索方法是放弃网络，跑一趟附近的图书馆，图书馆里有网上找不到的成吨的 “ 信息 ” 。各种搜索引擎的特点泾渭分明，如果你没有为每次搜索分别选择正确的搜索工具，你将浪费掉大量的时间。这次搜索，你应该使用新浪还是搜狐? Google还是百度? 分析你的需求，比较不同搜索引擎的强项和弱点，然后为这次搜索选择最适合的搜索工具。 2 ．学会使用两个关键词搜索如果一个陌生人突然走近你，向你问道： “ 北京 ” ，你会怎样回答？大多数人会觉得莫名其妙，然后会再问这个人到底想问 “ 北京 ” 哪方面的事情。同样，如果你在搜索引擎中输入一个关键词 “ 北京 ” ，搜索引擎也不知道你要找什么，它也可能返回很多莫名其妙的结果。因此你要养成使用多个关键词搜索的习惯，当然，大多数情况下使用两个关键词搜索已经足够了，关键词与关键词之间以空格隔开。比如，你想了解北京旅游方面的信息，就输入 “ 北京旅游 ” 这样才能获取与北京旅游有关的信息；如果想了解北京暂住证方面的信息，可以输入 “ 北京暂住证 ” 搜索；如果要下载名叫 “ xxxx ” 的MP3，就输入 “ xxxx 下载 ” 来搜索。 3 ．学会使用减号 “ － ” “

” 的作用是为了去除无关的搜索结果，提高搜索结果相关性。有的时候，你在搜索结果中见到一些想要的结果，但也发现很多不相关的搜索结果，这时你可以找出那些不相关结果的特征关键词，把它减掉。比如，你要找 “ 申花 ” 的企业信息，输入 “ 申花 ” 却找到一大堆申花队踢足球的新闻，在发现这些新闻的共同特征是 “ 足球 ” 后，输入 “ 申花 -足球 ” 来搜索，就不会再有体育新闻来麻烦你了。 4 ．用字段检索字段检索（field）是一种用于限定提问关键词在数据库记录中出现的区域，控制检索结果的相关性，提高检索效果的检索方法，多以字段限定方式实现。搜索引擎常用的字段有：Title/t、Subject、Text、host（主机）、URL/u、domain（域名）、link（链接）等。 Title:（或t：）表示查找标题中包含检索提问式的页面； URL:（或/u：）表示查找URL中包含检索提问式的页面； Link：表示查找含有链接至URL的页面； host：表示在指定的服务器上查找页面； domain：表示查找指定域名的各页面； subject：表示查找主题中包含检索提问式的页面； text：表示文本中包含检索提问式的页面。 5 ．用自然语言检索自然语言检索就是一种直接采用自然语言中的字、词甚至整个句子作为提问式进行检索的方法。也就是说，您可以用What is the Weather in London这样的自然语言表达式作为检索提问式。 6 ．位置检索法位置检索是指允许指定二个单词之间的词序和词距的检索。词序指单词之间前后顺序，词距指二个单词之间间隔单词数。其操作符多为“NEAR”。例如，网络 NEAR 图书馆，表示检索结果中网络与图书馆二词之间的位置比较临近。每个支持位置检索的搜索引擎对NEAR操作的字段间隔数的设置是不同的，有的设置在25个单词之内。 7 ．概念检索法概念检索是指使用某一检索提问词进行检索时，能同时对该词的同义词、近义词、广义词、狭义词同样进行检索，以达到扩大检索，避免漏检的目的。例如，当您使用自行车检索时，检索结果不仅包括自行车的内容，还包含脚踏车、单车等的内容。 8 ．点击搜索结果前先思考当你得到十几，几十页的结果时如何确定合适的结果呢？一次成功的搜索由两个部分组成：正确的搜索关键词，有用的搜索结果。在你点击任何一条搜索结果之前，快速地分析一下你的搜索结果的标题、网址、摘要，会有助于你选出更准确的结果，帮你节省大量的时间。当然，到底哪一个是你需要的内容，取决于你在寻找什么，评估网络内容的质量和权威性是搜索的重要步骤。一次成功的搜索也经常是由好几次搜索组成的，如果对自己搜索的内容不熟，即使是搜索专家，也不能保证第一次搜索就能找到想要的内容。搜索专家会先用简单的关键词测试，他们不会忙着仔细查看各条搜索结果，而是先从搜索结果页面里寻找更多的信息，再设计一个更好的关键词重新搜索，这样重复多次以后，就能设计出很棒的搜索关键词，也就能搜索到满意的搜索结果了。 9 ．善于改正错误经常会有这样的事情发生：你似乎已尽了全力来搜索，但是依然没有找到需要的答案。这个时候，请不要放弃，认真回顾检查你的搜索过程，也许只是因为一个小差错。一个看上去毫无希望的搜索，很有可能在你检讨完自己的搜索策略后获得成功。 2.3 易犯的错误：下面描述了初学者搜索时容易犯的5个低级错误和解决方法，正是因为你经常犯这些错误，所以你总是得到无用的、荒谬的或者完全没有意义的搜索结果。而一旦你认识到这些错误，将很容易把这些小鬼从你的搜索经历中永远驱逐出去。常见错误 1 ：错别字经常发生的一种错误是，你输入的关键词含有错别字。笔者所做的统计表明，常有大量的错误搜索，光一个谢霆锋就有 “ 谢霆锋 ” 、 “ 谢庭锋 ” 、 “ 谢霆峰 ” 、 “ 谢廷锋 ” 、 “ 谢庭峰 ” 、 “ 谢廷峰 ” 6种查法，还有什么 “ 星际争吧 ” 、 “ 以德制国 ” 之类的，这样的关键词能搜索到什么有用资料吗？所以每当你觉得某种内容网上应该有不少、却搜索不到结果时，你应该先查一下是否有错别字。常见错误 2 ：关键词太常见搜索引擎对常见词的搜索存在缺陷，因为这些词曝光率太高了，以至于出现在成百万网页中，使得它们事实上不能被用来帮你找到什么有用的内容。比如，搜索 “ 电话 ” , 有无数网站提供跟 “ 电话 ” 相关的信息，从网上黄页到电话零售商到个人电话号码都有。所以当搜索结果太多太乱的时候，你应该尝试使用更多的关键词或者减号来搜索，不使用过于通用的词汇来搜索，设计一个类似 “ 上海常用电话 ” 这样特殊的搜索关键词，会给你真正有用的结果。当然，如果你想找的是一串汽车网站或一串MP3网站，那么用 “ 汽车 ” 、 “ MP 3 ” 搜索就是正确的。常见错误 3 ：多义词要小心使用多义词，比如搜索 “ Java ” ，你要找的信息究竟是太平洋上的一个岛、一种著名的咖啡、还是一种计算机语言？搜索引擎是不能理解辨别多义词的。最好的解决办法是，在搜索之前先问自己这个问题，然后用短语、用多个关键词或者用其他的词语来代替多义词作为搜索关键词。比如用 “ 爪哇印尼 ” 、 “ 爪哇咖啡 ” 、 “ Java 语言 ” 分别搜索可以满足不同的需求。常见错误 4 ：不会输关键词，想要什么输什么搜索失败的另一个常见原因是类似这样的搜索： “ 现代爱情故事歌词 ” 、 “ 信息早报在济南发行情况 ” 、 “ 铃羊车的各种图案 ” 、 “ 上海到成都列车时刻表 ” 。网友错把搜索引擎当成是听话的服务员了，其实搜索引擎是很机械的，当你用关键词搜索的时候，它只会把含有这个关键词的网页找出来，根本不管网页上的内容是什么。而问题在于，没有一个网页上会含有 “ 现代爱情故事歌词 ” 和 “ 上海到成都列车时刻表 ” 这样的关键词，所以搜索引擎也找不到这样的网页。但是真正含有你想找的内容的网页，应该含有的关键词是安妮薇发表于 19:23 | 阅读全文 | 评论(0) | 引用trackback(0) | 编辑最近考试，好久没写博客。 - 2004-06-24 18:59 总算考试结束，但是学习仍将继续。其实我因为考试复习而忽略博客也是说不过去的，我就看到有的人可以在考研般紧张的日子中仍然没有间断博客。其实这段时间在图书馆也看了不少书，本来想好好整理一下贴上来的，可是，现在又觉得没有什么冲动了。但我可以把书名记下了，如果有一天我又想起来的时候，可以再去翻翻的。首先是三本传记，关于两个伟大的思想家的――牛顿和达尔文。看过之后果然受益良多。以前我说过，这类“超”人类的专记我不大喜欢读，因为感觉相去甚远。但是读过以后，才发现每个伟人都是一步一个脚印走过来的。天资自然聪颖，但是后天的勤奋和严谨也是必不可少的。然后还有几本红楼梦的评转一类的书，因为这段时间小燕鱼在看，常常和我谈起红楼。勾起了我对红楼的美好回忆，禁不住又拿起了相关书籍。但是总是悲凉的感觉，我不喜欢读悲剧。再就是几本访问学者的游记，都是些关于英国，巴黎等世界一流大城市的印象。但是我并不觉得非常的生动。我喜欢看一些图文并茂的书籍。安妮薇发表于 18:59 | 阅读全文 | 评论(0) | 引用trackback(0) | 编辑