第1733章准备创立百度公司

第1733章准备创立百度公司 (第1/2页)

横店陈园别墅的客厅里，吊灯洒下暖黄色的光。
　　
　　陈浩靠在皮质沙发上，手里拿着几张写满字的纸。
　　
　　贾瀞雯坐在他对面，穿着米白色的针织衫，长发松松地挽在脑后。
　　
　　“瀞雯，今天要跟你说的事，可能会改变很多东西。”陈浩放下纸张，身体微微前倾。
　　
　　贾瀞雯眨了眨眼，端起茶几上的茶杯：“你说，我听着。”
　　
　　“你知道现在国内能上网的人还很少。”陈浩说，“但用不了几年，互联网会像电视一样普及。
　　
　　到那时候，每个人都能在网上发布信息，能建自己的网页，写文章，传图片。”
　　
　　“然后呢？”贾瀞雯放下茶杯。
　　
　　“然后问题就来了。”陈浩站起来，走到窗边又转回来，“信息太多，就像把全世界的书都堆在一个房间里，没有目录，没有分类。
　　
　　你想找某个具体的东西，得一本一本翻。”
　　
　　贾瀞雯点点头：“我懂这个意思。
　　
　　上次我想查国外的电影资料，找了两个小时都没找到想要的。”
　　
　　“对！”陈浩眼睛亮起来，“所以我们需要一个工具，一个能在这堆乱糟糟的信息里，快速找到你想要的东西的工具。”
　　
　　“什么工具？”
　　
　　“搜索引擎。”陈浩坐回沙发，语速加快，“你打开电脑，在一个框里输入你想找的内容，比如‘横店影视城’。
　　
　　按下回车，几秒钟后，所有包含这个关键词的网页都会列出来，按照相关程度排好序。”
　　
　　贾瀞雯微微张开嘴，想象着那个画面：“这……可能吗？”
　　
　　“完全可能。”陈浩拿起那几张纸，“技术上已经具备条件了。
　　
　　我把它叫做‘百度’，取‘众里寻他千百度’的意思。”
　　
　　他从第一页开始讲解：“首先，我们需要写一个程序，叫网络爬虫。
　　
　　它会像蜘蛛一样，从一个网页爬到另一个网页，把网上所有的内容都收集起来。”
　　
　　“所有？”贾瀞雯惊讶地问，“网上有多少网页啊？”
　　
　　“现在不多，但以后会有几十亿，几百亿。”陈浩平静地说，“所以这个爬虫要日夜不停地工作，发现新网页就存下来，已经有的就更新。”
　　
　　他翻到第二页：“存下来的网页要建立索引。
　　
　　就像图书馆的目录卡片，把每个网页里重要的词摘出来，记录这个词出现在哪个网页、出现了多少次、在什么位置。”
　　
　　贾瀞雯努力理解着：“就是说，如果有人搜‘汽车’，我们马上能知道哪些网页提到了‘汽车’？”
　　
　　“聪明！”陈浩赞许地看她一眼，“但还不够。
　　
　　如果只是简单匹配，会搜出太多没用的结果。
　　
　　比如有人搜‘苹果’，他可能想找水果，也可能是找苹果电脑，或者叫‘苹果’的乐队。”
　　
　　“那怎么办？”
　　
　　“这就是最核心的部分——排名算法。”陈浩的声音里带着兴奋，“我们要给搜索结果排序，把最可能符合用户需求的网页放在最前面。
　　
　　这需要考虑很多因素：关键词出现的频率、位置、网页本身的重要性、其他网页链接到这个网页的数量……”
　　
　　贾瀞雯皱起眉：“等一下，我有点跟不上了。
　　
　　网页的重要性怎么判断？”
　　
　　“如果一个网页被很多其他网页链接，说明它可能比较权威。”陈浩耐心解释，“就像一篇论文被引用的次数越多，通常越重要。
　　
　　

（本章未完，请点击下一页继续阅读）

零点看书

第1733章 准备创立百度公司

第1733章准备创立百度公司