存放代码资源,交流大数据开发技术。共同成长,一同进步。 这里可以讨论的不光是Hadoop相关的技术,还有理想...
每周(在课设结束之前吧~)至少在这个github项目厂库上提交一个issue
,作为每周回顾总结,截至时间是每周周日,内容可以包含:
- 本周学习到的东西,对于课程项目的进展与认识,新的想法等。(言简意赅,分点陈述)
- 学习过程中遇到的问题。(附问题描述和截图或查找的相关博客)其他人可以评论相关问题,给予解答。
- 学习过程中遇到的好的资源,可以放到这里。比如好的博客、算法讲解教程、视频资源等(附链接+评论,为什么推荐这个)。
标题:Review-{yyyy.mm.dd(必须为当周周日的日期)}-{姓名}
例如:Review-2018-10-22-罗登
使用Markdown
标记语言提交issue
。
Markdown编辑可以使用在线的作业部落, 或原生支持Markdown的Atom,或者VS Code加插件预览等方式。
每周六进行一次线下见面讨论,交流这周的进度情况,以及将各自学习到的东西与大家分享、交流。
知识的价值在于交流,分享出来才有意义。
规则如下,每周有一到两名同学来讲解Hadoop相关的技术知识,将自己学习到的东西记录下来成为笔记(一定多些笔记)资源,并且演示给其他同学看。一方面锻炼自己,同时节约大家学习的成本和时间,团队合作,。
- Linux基础命令
- HDFS基础操作
- MapReduce并行计算框架简介
- HDFS原理及技术细节讲解
- 分布式数据库Hase安装和使用
- 分布式数据仓库Hive安装和使用
- 基于内存的大数据技术Spark的学习
- B站视频Hadoop基础
- 中国大学MOOC大数据技术原理与应用
- 厦门大学大数据实验室Hadoop安装教程
- Hadoop官方文档
- Spark中文文档
- 演示在服务器上Hadoop的一些操作。以及
HDFS
的基本操作。 - 学习github的使用。基本操作,
clone
,push
,pull
,如何些README.md
,如何提交issue
,评论等。每个人都要有github
的账号,方便以后存放或者下载别人的代码。 - 讨论关于每周工作汇报以及分工讲解的问题。拟定计划如下:前一周确定下周要学习的东西,每周至少有一个同学来讲解这周学习的东西。如
HDFA
的相关命令操作,M/R
的过程讲解,Spark
相关内容。这样可以节省大家的时间。 - 学习IntelliJ Idea的使用。创建
Java
项目,使用MAVEN
管理,基本的快捷键。
- 张松鸣讲解Linux基本命令。
- 宋文宇讲解HDFS基本命令。
- 复习讲解Linux中与文件相关的常用Shell命令。
- 讲解并演示HDFS文件系统下的常用命令,并与Linux文件系统进行对比。了解了HDFS的基本原理,以及其对小文件存储的弊端。
- vim编辑器的基本使用以及配置方法。相关技术博客:一篇简单的vim入门练级教程,vim配置python教程
- 学习Hadoop并行计算框架Mapreduce。
- 讨论Hadoop家族相关组件,主要有那些组件,各有什么功能,完成分工学习和讨论。
- 学习并讲解并行计算框架MapReduce基本知识。
- 实操演练编写了求每年中最大温度的MapReduce程序。熟悉了使用开发工具Idea开发Hadoop应用程序的基本流程,Maven包管理配置,继承和重写方法的使用。
深入学习HDFS Hadoop分布式文件系统,需要涉及一些细节和具体操作。
- 宋文宇同学深入讲解HDFS解决的问题,优缺点。文件分块,读取文件以及文件写入的流程。并将PPT文件上传。
- 杨世雄同学拓展引入数据处理中数据倾斜和数据不均衡的问题。
- 下周考试原因停一次,下下周进入另一个主题非关系型数据库HBase的学习。
- 周雅婷同学讲解HBase,包含基本原理,运行方式和实现原理。强调了三级索引机制,
region server
对region
的索引,meta table
的索引和root table
的索引。面向行存储和面向列存储的区别。
- 介绍Hive的由来,数据仓库是什么。Hive的特性与所解决的问题。讲解了Hive的原理与转换成MapReduce任务的过程。
- 上机演示了Hive的基本操作,建表操作,向Hive中批量加载数据。以及安装的流程和需要注意的问题。安装流程参考厦门大学Hive安装流程,但有一些需要注意的地方,一个是
JDBC
驱动的版本和hive-site.xml
文件的修改。 - 补上了上周的
HBase
安装和编程实践的演示,具体代码和流程也可以参考这篇教程。
- 讲解Spark的由来和Spark与Hadoop的区别;了解了基于内存计算模型的概念;详细讲解了Spark RDD的概念,RDD的工作原理以及RDD的优势。
- 编程实践Spark-Shell以及pyspark,了解了RDD的转换操作与动作操作,并用Python API实现了加载文件,读取HDFS文件。
- 简单了解了函数式编程;介绍了通过PyCharm编写Python程序并提交Spark任务的过程。
- 宋文宇同学介绍了流计算的概念,并讲解了Storm的由来和基本架构。
添加了小学期大数据课程学习的实验报告
包含内容如下:
关于编译该文档的源代码、图片、脚本在此仓库。