自动下载网页 :网络爬虫 (Web Crawlers)
搜索引擎的索引:布尔代数(布尔(George Boole) 是十九世纪英国一位小学数学老师。他生前没有人认为他是数学家。==可怜的娃)
衡量网页的质量:Page Rank(GOOGLE专利)
确定网页和查询的相关:TF/IDF(term frequency/inverse document frequency)
详细请看吴军的写文章:http://googlechinablog.com/2006/06/blog-post_27.html
[ 本帖最后由 麦可 于 2008-11-18 17:12 编辑 ] Page Rank是Stanford的专利而不是Google的专利,Google用PageRank可是拿股票换来使用权的……
虽然说到PageRank都知道是Google…… 百度的结果就我使用中发现的情况来说至少包括三部分:
1靠自己技术实力得出的中文搜索结果
2竞价排名的人为干预
3大量未知因素
提到3,是因为同样的关键词可以在不同的机器上得到完全不同的结果。比如外野争过的那个心脏病,我的机器上仅仅有两个广告,其他人机器上可以有一满屏的广告。 扫盲
http://zh.wikipedia.org/wiki/PageRank 想到前几天百度那件事,竞价排名影响还是很大的 我在中文系统上,搜心脏病,仍然只有两个广告。
也许和地区有关。
总之,这纠纷绝对不简单。 百度渣是因为每次找有用的资料全都找不到
百度渣还因为第一页基本上全是广告
百度渣更因为小而有特色的网站拒绝付广告费而被百度屏蔽 谷歌渣是因为所谓的普世价值 百度太渣了
请在百度搜索
干
这个字 原帖由 refo 于 2008-11-19 22:03 发表 http://bbs.saraba1st.com/images/common/back.gif
谷歌渣是因为所谓的普世价值
普哪里的世? 谷歌渣是因为没有搜索中文的能力
页:
[1]