维基百科的中心在哪里?

来源:百度文库 编辑:神马文学网 时间:2024/06/30 22:16:57
感谢MooN的投递
你听说过六度空间理论吗?所谓六度空间理论,是指你和任何一个陌生人之间所间隔的人不会超过六个,也就是说,最多通过六个人你就能够认识任何一个陌生人。美国演员Kevin Bacon当年由于此理论当选为“好莱坞人士中心”(以Bacon为出发点,可以将好莱坞所有人士在6度之内连接起来)。我们知道,世界上最大的知识库维基百科里面的所有文章之间都以链接形式而相互关联,那么以哪篇文章为起点,就可以最少的点击数而遍历整个知识库呢?
最近一位名叫Stephen Dolan的都柏林大学圣三一学院学生证明了,维基百科的中心就是一篇名为“2007”的文章,以这篇文章为起点,平均只需要3.45次点击,就可以到达维基百科中其余的2111479篇文章。按前面所述的方法进行排列,路径最短的前10名是:2007, Deaths in 2004, 2006, 2004, List of accidents and incidents on commercial aircraft, Star Alliance destinations, 1990s, List of town tramway systems in North America, 2005 和 1967。
如果除去那些仅仅是对事件和年代进行罗列的文章,那么真正的维基百科中心是名为“United Kindom”的文章,通过它,平均只需要3.67次点击,就可以遍历整个数据库。紧随其后的两篇文章分别是:“Billie Jean King”(3.68次点击)和“United States”(3.69次点击)。事实上,以维基百科中的任意文章为起点,通过4.573次的点击就能到达你想去的任何一个地方。你可在这里下载到所有的路径数据(110M,UTF-8编码)。该名学生甚至放了一个数据查询入口在他的网页上,你可以通过它来找到两篇文章的最短路径。例如:从“Ancient”到“Modern”的距离是3(Ancient history - Archaeology - Bureaucracy - Modern),从“Home”到“Mars”的距离也是3(Home - Cooking - Water - Mars),从“Boy”到“Girl”的距离只有1(Boy - Girl)。(如果遇到无法连接数据库的错误,应该是访问人数过多的原因所致,多试几遍就行了。)
这个学生是怎么做到的呢?我们知道,维基百科每隔几个月就会将数据库放到网上供大家下载,而这个可下载的数据库里面有个叫做“pages-articles.xml.bz2”的文件容量高达3.5G,它就是维基里面所有文章的囊括(不包含历史编辑以及讨论页面)。Stephen Dolan将它解压后,通过一定的处理只保留了里面的文章标题和链接信息,为每篇文章分配一个整数,用牵涉到排序和图论的算法,使用学校计算机系里面的计算机进行6天时间的分布式计算后,得到了最后的结论。(事实上,他只是借用了实验室里的一部分计算机CPU空闲处理来进行分析,所有工作其实能够在36小时内完成。)