设为首页加入收藏业务一览表公司历程公司介绍联系我们
当前位置网站运营 >> 2010年谷歌图书占全世界所有图书的数量 一共约1亿2986万

2010年谷歌图书占全世界所有图书的数量 一共约1亿2986万

每一个网站都以一个标准的情势全部打包?一个名为 InternetArchive网站就在做全数因特网的存档任务。但是怀疑这项使命真的那么无心义吗?由于我现在根蒂就看不懂两千年前的数据,另一个问题是如何存档存有巨量信息的因特网?现在有人在做这种工作。那两千年以后的人能看懂现在保留的数据吗?

其统计了停止2010年8月1号全世界所有图书的数目,导语:谷歌搜索公司谷歌搜索图书(GooglBook团队在其官方博客上发表博文称。一共约1亿2986万4880本。科技博客CrunchGear发表攻讦文章对谷歌搜索图书计划做了批评,感到该计划实施难度庞大,但影响将会不可估量。以下是攻讦全文:

书的数量可以或许说不计其数。谷歌搜索图书将使世界上所有的图书都可以在线搜索,谷歌搜索的目标一向是将地球上所有的数据都电子化、分类、索引到其巨大的服务器里。谷歌搜索图书生怕是这个庞大的工程中最有野心的布局之一。但是不要忘了人类将文字和聪明记实入图书里已经有了五、六千年的汗青。影响将是不可估计的谷歌搜索为了完成这一浩大的工程,利用了当今很多最新的科技手法。

报告了如何计算出世界上所有的图书有1亿2986万4880本这个他感到相对正确的数字的谷歌搜索图书团队刚在其官方博客发了一篇博客。

但是很乐意看到主动去挑战海量的数据。因为这意味着,实在我对他详细是如何得出这一数字并不感兴趣。将来我尚有很多东西可以或许进修,尚有很多关于如何处理数据的成就会被提出。

还要与浩大大学藏书楼、公共藏书楼、私人保藏、博物馆等等非常多的机构单干,举个例子说:谷歌搜索要处理非常多类似于ISBN海内标准书号)图书数据。处理这些机构供应的类似的图书记实,并分辩出这些记录的藐小差别。假想高效的算法来从这些重叠非常多的图书记录中找到每一本书的最初版本不是一件容易的事,毫无疑问必要频仍的人工干涉干与。谷歌搜索必要利用了类似于算法的轨范分辨、分类、分析大批的图片。

利用OCR光学字符识别)技术扫描图书并非易事。比方:错误率要控制在几多?对于不合印刷技巧的书是否需要不同的扫描仪?否必要人工清理册页的褶皱?手动翻书的人的手指挡住了部分内容信息怎么办?如此之类的成就数不胜举。

书籍作品自己的规律必定程度上降低了扫描任务的难度。大部分图书作品都有很清晰的开头和结尾,固然。期刊和杂志都是定期发行编号清晰等等。
 

[来源:来自网络] [作者:abc123] [日期:10-08-07] [阅读:]