大数据究竟有多“大”?谷歌搜索的规模为 62 PB,排名倒数第一

日期:2022-03-07 18:07:13 / 人气:145

众所周知,算法、算力与数据是人工智能(AI)开展的“三驾马车”,吴恩达等学者也常说:以数据爲中心的AI,或数据驱动的AI。由此可见,近年来激增的数据量是 AI 起飞的源动力之一,数据在 AI 中扮演重要角色。那麼,人们口中常说的“大数据”,规模终究有多大呢?出于猎奇心,一位意大利物理研讨者 Luca Clissa 调查了 2021 年几个知名大数据源(谷歌搜索、Facebook、Netflix、亚马逊等等)的规模大小,并将它们与大型强子对撞机(LHC)的电子设备所检测到的数据做了比照。地址:https://arxiv.org/pdf/2202.07659.pdf毫无疑问,LHC 的数据量是惊人的,高达 40k EB。但商业企业的数据量也不容小觑,比方,亚马逊S3存储的数据量也到达了大约 500 EB,大致相当于谷歌搜索(62 PB)的 7530 倍。此外,流数据在大数据市场中也占有一席之地。Netflix 和电子通讯等效劳发生的流量比单纯的数据消费者要多一到两个数量级。1LHC 的数据量依据 Luca Clissa 的调查,2021年各大知名数据源的体量大约如下:图注:2021年的大数据规模右上角(灰色局部)是欧洲核子研讨组织(CERN)大型强子对撞机(LHC)实验的电子设备所检测到的数据,规模最大。在上一次运转(2018 年)中,LHC 在四个次要实验(ATLAS、ALICE、CMS 和 LHCb)中的每一个实验里,每秒发生大约 24 亿次粒子碰撞,每次碰撞可以提供约 100 MB 数据,因而估计年产原始数据量约爲 40k EB(=10亿千兆字节)。但依据目前的技术和预算,存储 40k EB 数据是不能够的。而且,实践上只要一小局部数据有意义,因而没有必要记载一切数据。记载的数据量也降低到了每天大约 1 PB,2018 年的最初一次真实数据只采集了 160 PB,模仿数据 240 PB。此外,搜集的数据经过 WLCG (全球LHC计算网络)不时传输,2018 年发生了 1.9k PB 的年流量。不过,欧洲核子研讨组织(CERN)正在努力增强 LHC 的才能,停止 HL-LHC 晋级。这个进程估计生成的数据量将添加 5 倍以上,到 2026 年,每年估量发生 800 PB的新数据。2大厂数据量比照大企业的数据量很难追踪,且数据通常不会地下。对此,Luca Clissa 采用了费米预算法(Fermi estimation),将数据消费进程分解爲其原子组成局部,并做出合理的猜想。比方,针对特定数据源,检索在给定工夫窗口内发生的内容量。然后经过对这些内容的单位大小的合理猜想来推断数据总量,例如均匀邮件或图片大小,1 小时视频的均匀数据流量等等。他对谷歌搜索、YouTube、Facebook等等数据源停止了预算,结论如下:谷歌搜索:最近的一项剖析估量,Google 搜索引擎包括 30 到 500 亿个网页。依据 Web Almanac 所提供的信息,假定谷歌的年度均匀页面大小约爲 2.15 MB,截至 2021 年,Google 搜索引擎的数据总规模应约爲62 PB。YouTube:依据 Backlinko 的数据,2021 年用户每天在 YouTube 上上传的视频时长爲 72 万小时。假定均匀大小爲 1 GB(规范明晰度),2021年 YouTube 的数据大小约爲263 PB。Facebook 与 Instagram:Domo 的 Data Never Sleeps 9.0 报告估量,2021 年 Facebook 与 Instagram 每分钟上传的图片数量辨别爲 240k 和 65k。假定均匀大小爲 2 MB,则总共大约爲252 PB 和 68 PB。DropBox:虽然 Dropbox 自身不发生数据,但它提供了云存储处理方案来托管用户的内容。2020年,企业宣布新增用户 1 亿,其中付费订阅用户到达 117 万。经过揣测收费和付费订阅的占用率辨别爲 75%(2 GB)和 25%(2 TB),Dropbox 用户在 2020 年所需的存储量约爲733 PB。电子邮件:依据 Statista 的数据,从 2020 年 10 月到 2021 年 9 月,用户大约传送了近 131,000 亿次电子通讯(包括 71,000 亿封电子邮件和 60,000 亿封渣滓邮件)。假定规范邮件和渣滓邮件的均匀大小辨别爲 75 KB 和 5 KB ,我们可以估量电子邮件的总流量约爲5.7k PB。Netflix:Domo 估量,2021 年 Netflix 用户每天耗费 1.4 亿小时的流媒体播放,假定每小时 1 GB(规范定义),总计大约51.1k PB。亚马逊:亚马逊网络效劳 (AWS) 的首席布道师 Jeff Barr称,截至 2021 年,亚马逊 S3 (Simple Storage Service)中存储了超越 100 万亿个对象。假定均匀每桶的对象大小爲 5 MB ,那麼存储在 S3 中的文件的总大小则约等于500 EB。总的来说,迷信数据可以在数量上与商业数据源相媲美。参考链接:1.https://towardsdatascience.com/how-big-are-big-data-in-2021-6dc09aff5ced2.https://firstsiteguide.com/google-search-stats/3.https://backlinko.com/4.https://mms.businesswire.com/media/20210929005835/en/911394/5/data-never-sleeps-9.0-1200px.jpg?download=15.https://backlinko.com/dropbox-users6.https://www.statista.com/7.https://aws.amazon.com/cn/blogs/aws/amazon-s3s-15th-birthday-it-is-still-day-1-after-5475-days-100-trillion-objects/8.https://atlas.cern/

作者:卧龙娱乐平台官网




现在致电 5243865 OR 查看更多联系方式 →

COPYRIGHT 卧龙娱乐 版权所有