博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
基于AWS云服务的大数据与大规模计算的应用架构 ...
阅读量:5963 次
发布时间:2019-06-19

本文共 697 字,大约阅读时间需要 2 分钟。

AWS对于大规模计算方案是很受欢迎的,如科学计算,模拟和研究项目。这些方案包括从科研设备,测量设备,或其他计算作业的大量数据集的采集。采集后,使用大规模计算作业的分析来生成最终数据集。通常,这些结果将提供给更多的受众。

1.  为了将大数据集上传到AWS,关键是拥有最多的可用带宽。 通过多客户端的并行处理,就可以把数据上传到S3, 每个客户端采用多线程技术实现并行上传或上传多部分以便进一步并行处理。像窗口调整和确认选择等TCP设置是可以调整的,以便进一步增强吞吐量。 通过适当的优化,一天上传几TB是可能的。另一种上传大数据集的方法是Amazon Import/Export功能, 这一功能支持将存储设备发送给AWS同时直接插入到Amazon S3 或者 Amazon EBS。

 

2.  大规模作业的并行处理是关键,现存的并行处理应用能够运行在多个EC2 实例上. 如果应用程序需要一个POSIX风格的文件系统,那么无论是直接使用HTTP或使用FUSE层(例如,S3FS或SubCloud),并行应用程序对所有节点都可以从S3高效地读取和写入数据。

 

3.  一旦计算完成,结果数据也被存储到S3, EC2 实例可以被关闭,并且将结果数据集就可被下载了,或者通过授予读取权限来指定用户,指定所有人或使用有限时间的URL,完成输出数据与他人的共享。

 

4.  如果不用 S3, 也可以使用 Amazon EBS保存输入数据,作为临时存储区,或者获得输出结果。 在上传期间,要同样采用并行流上传和TCP调整的技术。另外,还可以使用UDP使上传加速。结果数据集可以被写入EBS卷,时间快照可采取共享卷的方式。

转载地址:http://oznax.baihongyu.com/

你可能感兴趣的文章
HDU 4430 Yukari's Birthday 二分
查看>>
JS面试Q&A(续2): Rest parameter,Arrow function 等
查看>>
Tomcat学习总结(2)——Tomcat使用详解
查看>>
寒假作业二:币值转换
查看>>
20165105预备作业3 Linux安装及学习
查看>>
数据分析图例
查看>>
C#设计模式(1)-单例模式
查看>>
莫比乌斯反演学习记录(最菜的垃圾而浅薄基础的总结)
查看>>
OC--类和对象
查看>>
webgl像机世界
查看>>
微信浏览器打开 点击下载app 无需提示使用浏览器打开--代码分享
查看>>
Go:二分查找
查看>>
北风设计模式课程---外观模式(门面模式)
查看>>
php正则怎么使用(最全最细致)
查看>>
课后作业03-验证课件上的代码,并将所有的动手动脑或要求发表博客作业部分整理成一篇博客...
查看>>
leetcode -- Valid Parentheses
查看>>
C#的常见算法(面试)(转)
查看>>
MVC_学习笔记_2_Authorize
查看>>
pycharm修改hosts文件
查看>>
DSP模块之:EDMA
查看>>