发博文

网络文明环境创造者之家

个人资料
博客日历
个性签名
爱拼才会赢
好友

现在还没有好友

最近来访 全部
  • 访问量: 141790
  • 本日访问数: 1
  • 昨日访问数: 45
  • 本周访问数: 235
更多
博文
标签:

搜索技术

分类:信息检索与过滤
发表者:吴军,Google 研究员

前言: Google 一直以 “整合全球信息,让人人能获取,使人人能受益” 为使命。那么究竟每一条信息应该怎样度量呢?

信息是个很抽象的概念。我们常常说信息很多,或者信息较少,但却很难说清楚信息到底有多少。比如一本五十万字的中文书到底有多少信息量。直到 1948 年,香农提出了“信息熵”(shāng) 的概念,才解决了对信息的量化度量问题。

一条信息的信息量大小和它的不确定性有直接的关系。比如说,我们要搞清楚一件非常非常不确定的事,或是我们一无所知的事情,就需要了解大量的信息。相反,如果我们对某件事已经有了较多的了解,我们不需要太多的信息就能把它搞清楚。所以,从这个角度,我们可以认为,信息量的度量就等于不确定性的多少。

那么我们如何量化的度量信息量呢?我们来看一个例子,马上要举行世界杯赛了。大家都很关心谁会是冠军。假如我错过了看世界杯,赛后我问一个知道比赛结果的观众“哪支球队是冠军”? 他不愿意直接告诉我, 而要让我猜,并且我每猜一次,他要收一元钱才肯告诉我是否猜对了,那么我需要付给他多少钱才能知道谁是冠军呢? 我可以把球队编上号,从 1 到 32, 然后提问: “冠 ...
标签:

搜索技术

分类:信息检索与过滤
数学之美 系列三 -- 隐含马尔可夫模型在语言处理中的应用 uT("time114523190259377514"); 发表者:吴军,Google 研究员

前言:隐含马尔可夫模型是一个数学模型,到目前为之,它一直被认为是实现快速精确的语音识别系统的最成功的方法。复杂的语音识别问题通过隐含马尔可夫模型能非常简单地被表述、解决,让我不由由衷地感叹数学模型之妙。

自然语言是人类交流信息的工具。很多自然语言处理问题都可以等同于通信系统中的解码问题 -- 一个人根据接收到的信息,去猜测发话人要表达的意思。这其实就象通信中,我们根据接收端收到的信号去分析、理解、还原发送端传送过来的信息。以下该图就表示了一个典型的通信系统:



其中 s1,s2,s3...表示信息源发出的信号。o1, o2, o3 ... 是接受器接收到的信号。通信中的解码就是根据接收到的信号 o1, o2, o3 ...还原出发送的信号 s1,s2,s3...。

其实我们平时在说话时,脑子就是一个信息源。我们的喉咙(声带),空气,就是如电线和光缆般的信道。听众耳朵的就是接收端,而听到的声音就是传送过来的信号。根据声学信号来推测说 ...
标签:

搜索技术

分类:信息检索与过滤
谈谈中文分词----- 统计语言模型在中文处理中的一个应用

上回我们谈到利用统计语言模型进行语言处理,由于模型是建立在词的基础上的,对于中日韩等语言,首先需要进行分词。例如把句子 “中国航天官员应邀到美国与太空总署官员开会。”

分成一串词:
中国 / 航天 / 官员 / 应邀 / 到 / 美国 / 与 / 太空 / 总署 / 官员 / 开会。

最容易想到的,也是最简单的分词办法就是查字典。这种方法最早是由北京航天航空大学的梁南元教授提出的。

用 “查字典” 法,其实就是我们把一个句子从左向右扫描一遍,遇到字典里有的词就标识出来,遇到复合词(比如 “上海大学”)就找最长的词匹配,遇到不认识的字串就分割成单字词,于是简单的分词就完成了。这种简单的分词方法完全能处理上面例子中的句子。八十年代,哈工大的王晓龙博士把它理论化,发展成最少词数的分词理论,即一句话应该分成数量最少的词串。这种方法一个明显的不足是当遇到有二义性 (有双重理解意思)的分割时就无能为力了。比如,对短语 “发展中国家” 正确的分割是“发展-中-国家”,而从左向右查字典的办法会将它分割成“发展-中国-家”,显然是错了。另外,并非所有的最长匹配都一 ...
标签:

搜索技术

分类:信息检索与过滤
从本周开始,我们将定期刊登 Google 科学家吴军写的《数学之美》系列文章,介绍数学在信息检索和自然语言处理中的主导作用和奇妙应用。

发表者: 吴军, Google 研究员

前言

也许大家不相信,数学是解决信息检索和自然语言处理的最好工具。它能非常清晰地描述这些领域的实际问题并且给出漂亮的解决办法。每当人们应用数学工具解决一个语言问题时,总会感叹数学之美。我们希望利用 Google 中文黑板报这块园地,介绍一些数学工具,以及我们是如何利用这些工具来开发 Google 产品的。

系列一: 统计语言模型 (Statistical Language Models)

Google 的使命是整合全球的信息,所以我们一直致力于研究如何让机器对信息、语言做最好的理解和处理。长期以来,人类一直梦想着能让机器代替人来翻译语言、识别语音、认识文字(不论是印刷体或手写体)和进行海量文献的自动检索,这就需要让机器理解语言。但是人类的语言可以说是信息里最复杂最动态的一部分。为了解决这个问题,人们容易想到的办法就是让机器模拟人类进行学习 - 学习人类的语法、分析语句等等。尤其是在乔姆斯基(Noam Chomsky 有史以来最伟大的语言学家)提出 “形式语言” 以后,人们 ...
标签:

技术

分类:信息检索与过滤

说的简单易懂一些,网络爬虫跟你使用的〖离线阅读〗工具差不多。说离线,其实还是要跟网络联结,否则怎么抓东西下来?那么不同的地方在哪里?

1)网络爬虫高度可配置性。

2)网络爬虫可以解析抓到的网页里的链接

3)网络爬虫有简单的存储配置

4)网络爬虫拥有智能的根据网页更新分析功能

5)网络爬虫的效率相当的高

那么依据特征,其实也就是要求了,如何设计爬虫呢?要注意哪些步骤呢?

1)url 的遍历和纪录

这点 larbin 做得非常的好,其实对于url的遍历是很简单的,例如:

cat [what you got]  tr \" \\n   gawk '{print $2}'   pcregrep ^http://

就可以得到一个所由的 url 列表

2)多进程 VS 多线程

各有优点了,现在一台普通的PC 例如 booso.com 一天可以轻松爬下5个G的数据。大约20万网页。

3)时间更新控制

最傻的做法是没有时间更新权重,一通的爬,回头再一通的爬。

通常在下一次爬的的数据要跟上一次进行比较,如果连续5次都没有变化,那么将爬这个网页的时间间隔扩大1倍。

如果一个网页在连续5次爬取 ...

标签:

教育

素质

品行

培养

分类:感悟生活
无知者无畏并不可怕,真正可怕的是无知者还无所谓
  在昨天晚上的选修课上,我把3个学生礼貌、友好地请出了教室。这是我十几年来第一次在自己的课堂上遇到这样的学生,也是第一次把学生请了出去,尽管是礼貌而友好的。
   整个晚上直到现在,我的心里都很不好受,有对自己的自责,更多的是深深的思考和沉重的责任感。
   这3位学生从上课开始始终在偶有间断地接听手机和相互大声说话,在我友好地提醒了两次后仍然是这样。其他学生都向他们投去了厌恶和无奈的目光,也向我投来了同情和征询的目光。我平静地对他们说,如果有什么事情没处理完,就出去说吧,不要影响讲课和听课。我以为他们会安静下来,但一个学生竟然真地站了起来走出去了,另两名学生在稍稍迟疑后也跟着走了出去。这时候课堂上很静,我反倒突然感到自己的不妥和尴尬。尽管整堂课充满了笑声和掌声,我心底还是多了一丝自责和沉重。在下课前,我当着近300名学生表达了自责和歉意。下课后,几个学生过来对我说,老师,你没有错,他们真是太过分了,也真的影响我们听课了。
   但我想的是更深层的问题。
   我有很多政府、企业和教育、文化界的朋友,他们对大学生的成长、就业 ...
(2008-03-13 22:47:20)
分类:杂谈经典
国外计算机类期刊列表 [ BugEyes 发表于 2007-8-13 16:54:00 ] 0 推荐1. Artificial Intelligence ( SCI 源刊 EI源刊)
 http://www.elsevier.com
http://www.elsevier.com/wps/find/journaldescription.cws_home/505601/description#description

ISSN: 0004-3702
ARTIFICIAL INTELLIGENCE
Monthly
ISSN: 0004-3702
ELSEVIER SCIENCE BV, PO BOX 211, AMSTERDAM, NETHERLANDS, 1000 AE

2.  Computational Linguistics (1996年以前EI源刊非核心)  0891-2017  http://mitpress.mit.edu

3.  Computer Processing of Chinese and Oriental Languages (非EI源刊)
  http://www.ksi.edu/seke/cpol.html

4. Computational Intelligence (EI源刊核心) 0824-7935
  Blackwell Publishing Inc., Malden, MA 02148, United States

5. Information Sciences (SCI EI源刊) 
http://www.elsevier.com/wps/find/journaldescription.cws_home/505730/description#description
ISSN: 0020-0255
INFORMATION SCIENCES
Biweekly
ISSN: 0020-0 ...
Web3.0概念提前问世,智能网络受风投青睐(转载)

就在Web2.0行业诸多厂商普遍未能证明生存能力之时,Web3.0的概念在2007年春天悄悄来到了人们身边。3月20日,上海赢思软件公司宣布推出个性化智能互联网为标志的Web3.0概念产品——新一代小i机器人,这也是Web3.0概念第一次在国内互联网行业被正式确立。

昨日为赢思公司第一个举起Web3.0大旗助阵的有互联网领域著名的五家风险投资商Jafco Asia、DFJ ePlanet、Intel Capital、Zero2ipo Capital和IDG VC签署了融资协议,其中IDG已是第二次注资该公司,。同时获得五家风险投资的青睐,赢思公司CEO袁辉认为这得益于该公司独特的创意,但昨日他并未透露此次获得五家风投机构投资的总金额。

据介绍,小i机器人是赢思软件在2004年推出的国内第一款网络智能机器人,目前已经成功捆绑QQ互动空间、Yahoo Messenger,并且成为微软Windows Live Messenger机器人的官方接入平台,用户量突破2000万。依靠这一与各大即时通讯工具平台互通的智能机器人,用户可以与其进行聊天、搜索、定制服务等。相比较之前的单品小i,新的小i机器人更加聪明、更加拟人化。它不但能与用户聊天、吹牛、开玩笑,而且还整合和拓展了以往所有 ...
分类:web 2.0
Web3.0概念提前问世,智能网络受风投青睐(转载)

from:http://www.360doc.com.cn/showWeb/0/0/408197.aspx

就在Web2.0行业诸多厂商普遍未能证明生存能力之时,Web3.0的概念在2007年春天悄悄来到了人们身边。3月20日,上海赢思软件公司宣布推出个性化智能互联网为标志的Web3.0概念产品——新一代小i机器人,这也是Web3.0概念第一次在国内互联网行业被正式确立。

昨日为赢思公司第一个举起Web3.0大旗助阵的有互联网领域著名的五家风险投资商Jafco Asia、DFJ ePlanet、Intel Capital、Zero2ipo Capital和IDG VC签署了融资协议,其中IDG已是第二次注资该公司,。同时获得五家风险投资的青睐,赢思公司CEO袁辉认为这得益于该公司独特的创意,但昨日他并未透露此次获得五家风投机构投资的总金额。

据介绍,小i机器人是赢思软件在2004年推出的国内第一款网络智能机器人,目前已经成功捆绑QQ互动空间、Yahoo Messenger,并且成为微软Windows Live Messenger机器人的官方接入平台,用户量突破2000万。依靠这一与各大即时通讯工具平台互通的智能机器人,用户可以与其进行聊天、搜索、定制服务等。相比较之前的单品小i,新的小i机器人更加聪明、更加拟人化。 ...
中科院软件所 malefactor 2005年11月    相关提示也是几乎所有搜索引擎提供的一个附加功能,所谓相关提示,就是对于用户提交的查询进行分析,然后根据其它用户相似的查询给予用户提示,比如我输入查询”大长今”,检索系统会提示其它象”大长今主题曲”,”大长今下载”等等相关的一些其它用户查询.    那么搜索引擎是根据什么原则对于其它用户的查询进行选择来提示用户相关查询呢?我们还是以百度为例子来看看怎么实现这个功能.要实现这个功能主要解决如下三个问题:   问题一.从哪里获得其它用户的查询信息?这个问题对于搜索引擎来说不是难事,因为搜索引擎都有用户查询LOG的功能,在一段时间内每一个用户提交给搜索引擎的查询都被记录在LOG文件里面,所以从这个文件里面可以获得其它用户的查询信息.这个LOG还可以用作其它功能的基本素材,比如搜索排行榜或者搜索风云榜,就是根据这个LOG文件,对用户查询归类,相同的归为一类,然后统计一段时间内这个类别的出现次数,按照降序排列,选择前列K个作为输出即可.    问题二.搜索引擎拿到用户的查询比如”大长今”,用户查询LOG里面有成千上万的不同查询,那么选择哪些作为提示呢?这里面牵涉到 ...
  

关于博客 | 网站地图 | 服务条款 | 博客公告 | 联系我们 | 广告服务

南宁创高营销广告公司  ©1999-2017   经营许可证编号:桂B2-20010010