主题:【转帖】关于分类检索的基本理论

浏览0 回复14 电梯直达
风行
结帖率:
100%
关注:0 |粉丝:0
新手级: 新兵
该帖子已被bing_xuhong设置为精华;
关于分类与检索的基本理论 
 
(一)分类法
1、基本概念:图书分类法是按照一定的思想观点,以科学分类为基础,结合图书资料的内容和特点,分门别类组成的分类表。
2、中图法:分类法有很多,国内图书情报机构普遍使用的一部综合性的分类法是《中国图书馆分类法》(简称《中图法》),上海电大图书馆对图书资料分类也采用该分类法。该分类法用大写英文字母表示一级类目名称,下面各级类目以阿拉伯数字来表示。
(二)索书号
对于任意一本书或一份文献,只要进入馆藏,都会有一个馆藏号,对图书而言则就是索书号。
本馆索书号的构成为:“分类号/作者号”,馆藏图书按索书号的顺序逐字排列。
例:张永平编著的《电脑游戏技巧》,分类号为TP399,著者号为ZYP,则索书号为:TP399/ZYP。
(三)检索方式简介
为了从浩如烟海的信息源中找到所需的有用信息,必须用到一些专门的检索方法。常用的有:
1、分类检索:即从分类的角度进行搜索,多用于目录搜索引擎。您无需输入任何文字,只要根据目录搜索引擎提供的主题分类目录,层层点击进入,便会查找到您所需的网络信息资源。例如,如果您想查找“上海电视大学”的网址,您可以在Yahoo(http://cn.yahoo.com/)中按照网站分类点击“教育”大类下的“大专院校”-> 点击“远程教学”,便可链接到“上海电视大学”的相关网站。
2、关键词检索
此种检索方式几乎是每种搜索引擎提供的最基本功能。当您想快速查找所需的网络资源,或者您无法确定所要搜索的网络资源的类别时,您可以使用此种检索方法。您只需在搜索引擎的提问框中输入合适的提问关键词,按回车键之后,搜索引擎便会将与该提问关键词匹配的结果反馈于您。几乎所有的搜索引擎都提供这种检索功能。
3、布尔逻辑检索
布尔逻辑检索一般指用“与”、“或”、“非”三种运算模式来进行文献查询的方式,它实际上是多种方法的整合。
逻辑“与”用“AND”、“and”或“&”符号表示。其含义是只有相“与”的提问词全部出现时,所检索到的结果才算符合条件。
逻辑“或”用“OR”、“or”或“|”符号表示。其含义是只要相“或”的提问词中有任何一个出现,所检索到的结果均算符合条件。
逻辑“非”则用“NOT”、“not”或“!”符号表示。其含义是搜索结果中不应含有“NOT”后面的提问关键词。
每个搜索引擎可以使用的布尔运算符是不同的,有的只允许使用大写的“AND”、“NOT”、“OR”运算符,有的大小写通用,有的可支持“&”、“|”、“!”符号操作,有的不支持或仅支持其中的一个等等。
其它还有很多检索方法,原理基本如上,各种方法可根据需要和现有条件来选择。
为您推荐
您可能想找: 气相色谱仪(GC) 询底价
专属顾问快速对接
立即提交
可能感兴趣
风行
结帖率:
100%
关注:0 |粉丝:0
新手级: 新兵
掌握了这些基本知识,你就可以多些检索的技巧,对于获取知识很重要。
风行
结帖率:
100%
关注:0 |粉丝:0
新手级: 新兵
我的七条搜索准则 
 
几年前,当我第一次为搜索初学者做一份书目指南之前,我不得不静下心去想,到底什么是我能教给他们的最简单、最重要的东西?什么是我们职业搜索者知道的,而这些学生不懂的?什么课程是导致找到和找不到区别产生的原因以及是他们需要学习的?我的脑海中逐渐浮现四句话,我在办公室中把它们写在一张纸上:我的四条搜索准则。在逝去的这几年中,我已在这基础上加了一些内容。但是,我和我的同行们仍然清楚的了解并在实践它们,在我看来,这就是我们职业搜索者和普通用户之所以区别的地方。

  我没有发明这些准则,我只是使它们条理化文字化。条理化文字化--当职业搜索者收到人们的问题时做的另一件事。


准则一: 去信息应该在的地方
(Rule One:Go Where It Is )

  普通人或许以为,象我们这样擅长搜索的人,一定是因为知道一些使用搜索引擎的秘籍。其实,我们真正知道的,恰恰是这个事实:对于很多问题,是无法用搜索引擎解决的,因为互联网上并不存在所需信息。也许答案藏在1935年出版的一本《哈泼的》中(Harper's),或者藏在1865年出版的一张《纽约时报》中,或者藏在一本对比不同欧洲国家医疗保险管理政策的书中,或者藏在一段未发表的论文中,或者藏在一份宝时洁(P&G)做的产权市场调查中,或者藏在1965年的一场参议院听证会记录中。


  当任何人向我们提出一个问题时,无论是否熟悉该领域,我们做的第一件事,是搜寻我们脑海中积累的信息地理图。当我们说出"让我们试一下联机医学文献分析和检索系统(MEDLINE)"时,我们已经评估过用户的需求(关于某种医药环境下的特殊疗法)和知识水平(医学教授或学生),并确定了哪里最可能找得到符合他们需求的信息(医疗文献中的文章)。


  无论那问题是什么,我们都会经历同样的信息地理图搜寻和确认过程:被问及艺术品的复制时,我们会去搜寻艺术百科全书或者互联网;被问及1966年1美元可以买到什么时,我们会去搜寻《美国历史统计》(Historical Statistics)或《美国统计摘要》(Statistical Abstracts)或者1966年的本地报纸广告。不同的工具可以找回不同的信息,而图书馆员们的技巧正是了解哪一种工具可以最好的完成哪一种任务。


  当一个图书馆员问我特拉华流域(Delaware watershed)的原始信息时,我的第一个反应是:

· 美国陆军工程军团(Army Corps of Engineers).
· 美国渔业及野生动物服务(U.S. Fish and Wildlife Service).
· 美国环保局(Environmental Protection Agency).
· 特拉华州的同类部门(equivalent agencies for the state of Delaware).

  明确了这个主题,我就在searchgov.com作了一次搜索,果然,从联邦政府的这几个部门和其它部门发现了一大堆相关文件。但是联想到大多数关心流域问题的人都是科学家,我也用了SciSeek.com去搜索互联网上的科学网站,那使我找到了大量其它与这个流域的环境、化学、工程相关的信息。


  然后,我通过EBSCOhost 搜索多个全文数据库,那使我找到了从包括科学杂志、旅行杂志和体育杂志上的相关文章。


  图书馆员们也明白,不同信息源的风格是互相不可代替的。杂志和报纸会用读者简明易懂的语言解释复杂晦涩的主题,而学术和专业杂志则发表原始的研究文章(仅仅是普通用户问题中的"研究"可能自动把我们送向一个杂志全文检索库)。但是因为"研究"必然被限制在一个主题的很小的、可掌控的领域,它就象一个难题的小块。当我们想看这一个小块的风格时,或者当我们想知道一个主题的广泛背景时,我们会去找书,书会概括和让你理解一个最初的研究。政府文件则会提供统计、法律、金融信息,甚至会有关于"我们是谁?"、"我们拥有什么?"、"我们已经到了哪一步?"等公开资料。


  我们了解每一种信息源风格的长处和短处。互联网长于图片和示范,对于政府文件,对于FAQ文档,对于讨论组,对于传输全文数据库;但是我们也知道,互联网对于1995年前的杂志和政府文件,几乎是没什么用的。对于这些资料,我们仍然需要使用我们的旧索引和期刊备份。我们也比仅仅信任互联网权威和准确性知道得更多,你也许会在互联网上找到一段引证 -- 甚至它的好几个版本-- 但是不要指望找到它的正确起源。我们对于互联网信息源的态度是冷战式的怀疑:信任它,但是只有在确证以后。


  我们知道谁最可能制造不同类别的信息。对于大多数严肃的统计数据,我们会从《美国统计摘要》开始,但是对于生活类统计数据,我们会去搜寻那些为需要推广产品的广告主们做的专业的市场调研报告。被问及美国男孩洗澡的频度时,我查询了一个全文商业期刊数据库,查找会在诸如《美国人口统计数据》(American Demographics)等杂志上发表的市场调研报告。(顺便提一下那问题的答案,答案有违我们的直觉:超过三分之一的男孩,每天至少洗澡两次。)


  我们知道,有时最好的信息源正是普通的人,作为个体的或作为群体之一的,对某主题有热情的人。当我们的用户需要关于糖尿病的可靠的、权威的信息时,我们会带他们去美国糖尿病协会(American Diabetes Association)的网站;当我们的用户想和有相同疾病经验的人交流,想了解糖尿病患者如何生活时,我们会带他们去相关的支持团体。


  当我们想知道一种崭新科技或策略是否有效时,我们会去找互联网上的相关讨论组。而当一个主题非常偏僻晦涩时,我们会直接上网,因为互联网是那些拥有古怪偏好(如风笛、中世纪地图、劣质的涂鸦作品)的人们分享他们热情的最佳场所。


  我们职业搜索者,完全可以被描述成信息世界中旅行者的向导: 我们之所以能帮助我们的旅行者快速到达目的地 ,是因为我们知道目的地在哪里,是因为我们知道最佳的路线是什么,因为我们知道应该坐飞机,火车,还是汽车。
风行
结帖率:
100%
关注:0 |粉丝:0
新手级: 新兵
准则二: 你得到什么答案,取决于你怎么提问
(Rule Two:The Answer You Get Depends on the Questions You Ask)
 推论:问题决定答案,如果你不喜欢答案,那么换问题吧


  普通人或许以为,图书馆员们一定知道所有的答案。其实,我们真正知道的,是如何问出好问题。我们知道如何在宽泛和特殊之间自如滑动调节搜索范围,直到我们找到那任务最关键的影响因素。


  我们用来滑动调节搜索范围的方法之一,是语言。如果我们用一个特殊关键词没有发现足够的信息,我们就会转向概念更宽泛的一个层面;如果我们发现了太多信息,我们就会尝试更特殊的关键词。


  举例来说,当我们被要求寻找这方面的研究资料:肥胖者与身材标准者做相同的工作,是否肥胖者挣的钱更少? 一些我们会尝试的关键词,可能是"肥胖"或"体重"(obesity or weight),"薪水"或"工资"或"收入"(salary or wages or pay),"歧视"或"区别"(discrimination or differential)。我们也有可能使用更宽泛的陈述:肥胖和雇用歧视(Obesity and employment discrimination),这或许会找回各种关于歧视的研究资料:面试,薪水,评估,提升,等等。不管我们用哪种关键词组合,我们都知道,我们会得到不同的搜索结果,因此,我们当然会使用所有想得到的合理关键词。而且,当我们点击到有价值的新发现时,我们还会使用我们从连续的搜索过程中遇到的网页中发现的任何新关键词。


  此外,我们还使用其它方法来滑动调节搜索范围。当我们决定搜索主题标题时,我们会从最特殊的关键词开始,以保证我们找回的文件和主题完全相关。当我们对找到什么相关内容几乎不存指望,-- 当我们需要的只是damn fool luck, -- 我们会从最宽泛的关键词开始搜索。一旦我们找到了什么资料,我们就会用尽技巧利用它,顺藤摸瓜连本带利找出更多相关资料。


  当我们从概念最宽泛的关键词开始搜索时,我们会使用"OR"组织关键词,就象用一个拖网捕捉到四分之一英里内半径内的每一条鱼;并使用"AND"组织关键词,用这个方法来滑动调节到最狭窄的搜索范围,就象扔掉不合格的鱼。


  当我们想搜索无限信息宇宙中的一小块时,-- 一个卡片目录,或者《联机医学文献分析和检索系统》,或者一个特殊搜索引擎如searchgov.com -- 我们也是在搜索一个统一体的狭窄概念领域。


  狭窄搜索的风险是:某些相关信息中并不含有我们使用的关键词,或者我们选择的特殊搜索引擎或数据库中并没有索引某些相关信息,因此我们可能错过这些相关信息。而当我们从最宽泛概念开始搜索时,也要冒只找到无效结果的风险,比如当我测遍搜索引擎寻找一个名叫"E."的歌手信息时。


  通过在宽泛和狭窄的概念之间滑动调节;组合不同的关键词、不同的搜索方法、不同的搜索资源;总是想着还能找到其它什么内容;我们大幅度提高了这种可能性:不是为顾客发现一个答案,而是为顾客发现一个最佳答案。



准则三: 答案必须迎合需求
(Rule Three:The Answer Should Match the Information Need)


  图书馆员们需要理解的,不仅是问题,还需要理解:哪一种答案会使顾客满意。如果我们给他们的答案不是他们想要的那一种,那我们能算是回答了他们吗:有人要一篇百科全书文章,你给他一摞书,虽然那摞书中有答案?有人要一个特定问题的口头答案,你给他一个网站,虽然那网站中有答案?有位病人要了解他刚被诊断患上的一种疾病的信息,你给他一本专业医学学术杂志上的晦涩文章,虽然那文章中有答案?有人仅仅想打印几篇文章好带回家去看,你给他一打文摘?


  接受这个假设:图书馆员是一群迷失在猎获的战栗中的好学者。我们总是能更顽强的追溯蛛丝马迹,跟那些在某方面有需求或感兴趣的顾客相比,我们总是能找到更多的信息。除非我们是在帮一个学者做研究,我们面临的问题通常不是找到信息,而是知道什么时候该停下来。-- 给一个礼貌的建议,当然,存在其它用户可采用的途径,他们应该要求更多。


准则四: 搜索是一个多步骤的过程
(Rule four:Research Is a Multi-Stage Process)

  有时,猎获过程只能是迂回曲折的。为了寻找歌手"E."的信息,我需要从一本摇滚百科全书或摇滚网站开始,我去了"终极乐队名单"(UBL.com),在那里找到了"E."的一个传记,一个音乐唱片分类目录,他现在的乐队The Eels的信息,他们的官方网站,以及巡回演出信息。


  如果有人真的想寻找某个主题所有最细枝末节的信息,这会激活我们侦探犬般灵敏的本能,引发我们拥有的每一丝技巧。首先,我们会去每一个我们认为可能有所找信息的地方,搜索不止一个数据库,而是每一个似乎可能的数据库。我们会搜寻期刊数据库,论文摘要,OCLC联机联合编目目录(WorldCat),会议论文索引,等等。我们会急速走遍整个互联网,既使用普通搜索引擎,也使用特殊搜索引擎、专业网站和看不见的数据库。


  每当我们发现什么的时候,我们都会从中观察发掘更多线索。跟随书目中的每一条信息,搜寻这些作者的更多作品,找到那些作者的e-mail,进行引用搜索,查找谁在引用他们的作品。每当我们发现有用的新关键词时,我们都会回到我们已搜索过的地方,使用新关键词再次搜索。当我们找到一些正是我们的顾客脑海中所想信息时,我们会极尽利用数据库或搜索引擎提供的任何功能-- 可点击的主题或者一个"more like this"的功能-- 寻找更多的类似条目。


准则五: 信息本身是无意义的,只有人提问之后才有价值
(Rule Five:信息 Is Meaningless Until Queried by Human Intelligence)


数据:瑞典是最大的烹调酱用户。
数据:51%的圣路易士居民说他们从未去过圣路易士拱门。
数据:根据NEC研究院的资料,1.5% 的网站是色情网站。

  现在你知道这些数据了,你更聪明了还是更happy了?事实上,你能有什么理由关心这些呢?没有上下文,这些数据只是数据,不是信息。只有在我们象这样提问时,它们才成为有价值的信息:

· 如果我计划在瑞典做销售莎莎酱,会面临什么样的竞争?
· 圣路易士是否应该面向本地居民做旅行宣传广告?
· 互联网上的色情问题到底有多严重? (注意:解答这个问题需要远超过以上数据的信息)

  这个世界充满了无穷无尽的内容:箭头,陶器碎片,软体动物化石,古老的文字和日记,五十年代的菜谱,垒高拼装玩具,芭比娃娃。


  所有这些数据都是无意义的,直到有人做一些事-- 提一个问题,把它们与其它数据放在一起,思考它们的意义,直到有人归并这些碎片并发现一个过去的文明,或者在破烂文字中发现政治阴谋的痕迹,或者从这些旧菜谱中得知罐装汤和袋装食品是什么时候开始渗入我们生活的。


  除非你知道自己要用它们做什么,随便的数据堆积是无意义的。你必须从一个问题开始,或者一个主题,最好有一个明确的陈述不仅让你明白什么信息是你需要的,而且让你明白什么信息对你是无用的。如果你说你想找到专利权的经济效果,你完全可以只聚焦于成功者和失败者。


  这意味着你可以忽略保护专利权的争论以及什么发明可以授予专利的辩论。你的数据应该聚焦于股价、资产平衡表、和价格目录。


准则六: 向你的答案提问
风行
结帖率:
100%
关注:0 |粉丝:0
新手级: 新兵
简单实用:搜索引擎应用技巧三则 

  下载图书馆的书
  
  在搜索引擎下载一般图书馆的书,可在搜索框上输入“index of/ inurl:lib ”(注意输入时不带引号,下同),其搜索结果有大量图书馆的资料,点击相关链接可以看到该图书馆的图书列表,如果你对某类图书感兴趣,还可以在关键字后面加上一些限制,例如,文学、科幻等等。下载带有特别入口(如CNKI、VIP、超星)图书馆的书:在搜索框上输入“index of/ inurl:cnki”,回车可以看到一个个庞大的期刊数据库,你需要下载什么就随便下吧!需要注意的是,该搜索关键词适用于Google和百度。
  
  注意:下载的时候请注意版权问题,以免引起不必要的麻烦。
  
  Google的各类特色入口
  
  不同风格的入口:微软风格http://www.google.com/microsoft;MAC风格http://www.google.com/mac;Linux风格http://www.google.com/linux;FreeBSD风格http://www.google.com/bsd。宗教入口http://www.google.com/intl/xx-elmer/;小猪入口http://www.google.com/intl/xx-piglatin/ ;Google多通道入口http://google.tohot.com/;google工作机会http://www.google.com/jobs ;Google广告管理入口http://www.sowang.com/google/login.htm;火狐的Google入口http://www.google.com/firefoxm,如果打不开,先到Preferences参数中把界面设置为English,再重新打开。
  
  快速搜索明星档案
  
  如果想了解明星的生日、三围、主要成就等,除了到官方网站和门户网站的明星频道上找,也可以通过网页搜索直接获取。这些档案页面,通常有一些特定的词汇,如“身高”、“籍贯”、“档案”等;而明星的名字,则通常出现在网页标题中。用明星名字加上这些特征词,就可以快速找到明星档案。 比如:蔡依林 墙纸;档案 intitle:张柏芝。
风行
结帖率:
100%
关注:0 |粉丝:0
新手级: 新兵
Google的特殊功能简介 

1、查询电话号码
Google的搜索栏中最新加入了电话号码和美国街区地址的查询信息。
个人如想查找这些列表,只要填写姓名,城市和省份。
如果该信息为众人所知,你就会在搜索结果页面的最上方看到搜索的电话和街区地址
你还可以通过以下任何一种方法找到该列表:
名字(或首位大写字母),姓,电话地区号
名字(或首位大写字母),姓,邮递区号
名字(或首位大写字母),姓,城市(可写州)
名字(或首位大写字母),姓,州
电话号码,包括区号
名字,城市,州
名字,邮递区号

2、查找PDF文件
现在GOOGLE的搜索结果中包括了PDF文件。尽管PDF文件不如HTML文件那么多,但他们经常具备一些其他文件不具备的高质量信息
为了显示一个搜索结果是PDF文件而不是网页,PDF文件的标题开头显示蓝色文本。
这就是让你知道ACRTOBAT READER程序会启动来阅读文件
如果你的计算机没装有该程序,计算机会指导你去能免费下载该程序的网页。
使用PDF文件时,相关的网页快照会由“TEXT VERSION”代替,它是PDF文档的复制文件,该文件除去了所有格式化命令。
如果你在没有PDF链接的情况下想看一系列搜索结果,只要在搜索栏中打上-inurl:pdf加上你的搜索条件。

3、股票报价
用Google查找股票和共有基金信息,只要输入一个或多个NYSE,NASDAQ,AMEX或
共有基金的股票行情自动收录机的代码,也可以输入在股市开户的公司名字。
如果Google识别出你查询的是股票或者共有基金,它回复的链接会直接连到高质量的金融信息提供者提供的股票和共有基金信息。
在你搜索结果的开头显示的是你查询的股市行情自动收录器的代码。如果你要查找一家公司的名字(比如,INTEL),请查看“股票报价”在Google搜索结果的金融栏里会有那个公司的主页的链接(比如,www.INTEL.COM)。
Google是以质量为基础来选择和决定金融信息提供者的,包括的因素有下载速度,用户界面及其功能。

4、找找谁和你链接
有些单词如果带有冒号就会有特殊的意思。比如link:操作员。查询link:siteURL,就会显示所有指向那个URL的网页。举例来说,链接www.Google.com会向你显示所有指向GOOGLE主页的网页。但这种方法不能与关键字查询联合使用。

5、查找站点
单词site后面如果接上冒号就能够将你的搜索限定到某个网站。具体做法是:在c搜索栏中使用site:sampledomain.com这个语法结构。比如,在斯坦福找申请信息,输入:
admission site:www.stanford.edu

6、查找字典释意
查找字典释意的方法是在搜索栏中输入你要查询的内容。在我们根据要求找到所有的字典释意都会标有下划线,位于搜索结果的上面,点击链接你会找到字典提供者根据要求给出的相关定义。 7、用GOOLGE查找地图
想用Google查找街区地图,在Google搜索栏中输入美国街区地址,包括邮递区号或城市/州(比如165大学大街PALO ALTO CA)。通常情况下,街区地址和城市的名字就足够了。
当Google识别你的要求是查找地图,它会反馈给你有高质量地图提供者提供的链接,使你直接找到相关地图。我们是以质量为基础选择这些地图提供者。值得注意的是Google和使用的地图信息提供者没有任何关联。
风行
结帖率:
100%
关注:0 |粉丝:0
新手级: 新兵
帖子名子很重要,是理论没有人看,要是密集,爆料,大精,大家点击热情很高。
风行
结帖率:
100%
关注:0 |粉丝:0
新手级: 新兵
zxy_0418
结帖率:
100%
关注:0 |粉丝:0
新手级: 新兵
zhangxulin111
结帖率:
100%
关注:0 |粉丝:0
新手级: 新兵
lwdyhm
结帖率:
100%
关注:0 |粉丝:0
新手级: 新兵
猜你喜欢最新推荐热门推荐更多推荐
品牌合作伙伴