会议记录
时间: 2014年4月2日 2:00pm
###地点: 01510 ###记录人: 关国栋 ###报告人: 李曌、杨浩、邓聃婷、王跃、关国栋 ###参与老师: 滕飞老师
#主要内容:
邓聃婷
更改
- 更改参数,重新使用实验数据计算。
结果:
- 数据还没有处理完。
下一步:
- 更改配方利用率排序算法,根据时间顺序排序,时间密集度小的排在前面
- 把打包算法整理清晰
- 遍历虚拟机时,要注意当增加一个虚拟机时,所有与它相关的时间都要重算
- 争取把验证结果做好
关国栋
进度
- 指明了任务副版本与hdfs中数据副本的区别,同时说明map任务和reduce任务都可以有任务副版本。
- 弄清了进程故障与机器故障的概念。
- 设计了在map任务较少的情况下同构集群和异构集群中任务副版本的分配方法。
结果
- 提出了在同构集群中运行mapreduce任务时,若map任务数大于总map槽数该如何分配任务副版本的问题。
下一步
- 将map任务以阶梯形式分块进行处理,设计出新的可靠性计算公式,并使用该公式做实验,产生出任务副版分配方案
王跃
进度
- 对蛙跳算法在map中的实现做优化
结果
- 找出了影响结果数据个数与假设不一致的原因,并完成了蛙跳算法在map中实现程序的优化
下一步
- 考虑数据非本地性的原因,若为异地数据需要加上一个固定的传输时间
- 使用蛙跳算法在reduce中实现
- 将map与reduce结合使用蛙跳算法
- 尽力完成调度工作
杨浩
进度
- 学会了使用distributedshell来对yarn中任务的执行进行相关控制。
结果
- 能够使任务在不同的节点上执行。
下一步
- 继续想方法实现负载匀衡的控制。
- 在设计过程中要考虑动态迁移数据的问题。