北 京 大 数 据 研 究 院
BEIJING INSTITUTE OF BIG DATA RESEARCH

北京大数据研究院全国大学生大数据实训招生简章——基于大数据处理之离线处理和在线处理实习实训班

一、招生单位

北京大数据研究院在北京市委市政府的指导和中关村管委会、海淀区政府、北京大学、北京工业大学四方共同支持下,于2015年在北京大学成立。本单位是一家旨在建成国际一流的大数据教育、大数据共性关键技术研发创新和支持未来技术创业的大数据研究机构。

二、办班目的

通过贴近于现实工作场景的实训,提升受训学生在项目实践中独立解决问题的能力,促进学生将所学知识系统化和技能化,最终提升学生的求职竞争力。

、招生人数及招收学生应具有的素质
  • JAVA基础

  • 具备较好的数理基础和逻辑思维

  • 学费:3000/

、师资

外请目前具有丰富一线实际开发经验的研究人员,以其曾经主持过的现实项目为教学内容。

五、教学内容
课程名称技术关键点
大数据背景、Hadoop生态系统、Hadoop平台搭建行业背景、成果展示、架构设计和选型、Hadoop基础概念、Hadoop生态系统、Hadoop文件系 统框架、Hadoop计算框架介绍、Linux系统、虚拟机环境熟悉、虚拟机集群构建Hadoop平台、运行分布式计算案例。
内容:了解实训项目的背景和基本概念,从最终成果展示开始反推整个项目的实现过程,并且根据具体的需求设计整体架构,对每个组件做选型。介绍每个组件的基本概念、架构和使用场景,利于判断比较。
Hadoop的安装部署
安装Apache发行版Hadoop,分布式配置Hadoop发行版,通过Manager安装Cloudera发型版
zookeeper1.分布式协调框架
2.Zookeeper背景与介绍
3.分布式zookeeper环境及安装
4.Zookeeper源语命令操作
5.关于节点类型、版本、元数据信息的意义
6.Zookeeper 的api 环境java操作集群演示
7.事件注册与节点的变更
8.基于zookeeper的分布式协调案例
HDFS概念1.hadoop完全分布式集群搭建
2.hadoop3新特性
3.NameNode的Federation
4.NameNode-HA
5.NameNode-HA集群搭建
6.NameNode-HA手动切换
7.NameNode-HA自动切换
8.java客户端操作HDFS
MapReduce1.MapTask 输入方式的源码解析
2.MapTask 执行流程源码解析
3.MapTask 输出方式的源码解析
4.MapTask 环形缓冲区源码解析
5.RedueTask的shuffle 源码解析
6.ReduceTask分组的源码解析
7.ReduceTask输出的源码解析
离线分析案例:电商推荐系统理论、案例实战基于Flume+hdfs+mapreduce的离线准实时推荐系统,打造的电商推荐系统项目,就是以经过修改的中文亚马逊电商数据集作为依托,并以某电商网站真实的业务架构作为基础来实现的,其中包含了离线推荐与实时推荐体系,综合利用了协同过滤算法以及基于内容的推荐方法来提供混合推荐。具体实现的模块主要有:基于统计的离线推荐、基于隐语义模型的离线推荐、基于自定义模型的实时推荐,以及基于内容的、和基于Item-CF的离线相似推荐。
Redis缓存数据库1.redis特点、与其他数据库的比较
2.如何安装redis
3.如何使用命令行客户端
4.redis的字符串类型
5.redis的散列类型
6.redis的列表类型
7.redis的集合类型
8.如何使用java访问redis
9.redis的事务(transaction)
10.redis的管道(pipeline)
11.redis持久化(AOF+RDB)
12.redis优化
13.redis的主从复制
14.redis的sentinel高可用
15.twemproxy,codis实战
16.redis3.x集群安装配置
消息订阅分发系统Kafka1.Kafka介绍
2.Kafka原理与架构
3.Kafka使用场景
4.Kafka的核心概念
5.Kafka安装与部署
6.Kafka文件消费者案例
Flink实战1.Flink DataStream的使用
2.Flink SQL开发
3.Flink 性能监控
4.Flink调优
5.Flink SQL执行计划
6.Hive + Flink SQL
7.Kafka + Flink
8.Flume+Kafka+Flink+Hbase+Sqoop+Canal+MySQL案例实战。
在线分析案例:电商推荐系统理论、案例实战基于Flume+Kafka+Flink的在线实时推荐系统,打造的电商推荐系统项目,就是以经过修改的中文亚马逊电商数据集作为依托,并以某电商网站真实的业务架构作为基础来实现的,其中包含了离线推荐与实时推荐体系,综合利用了协同过滤算法以及基于内容的推荐方法来提供混合推荐。具体实现的模块主要有:基于统计的离线推荐、基于隐语义模型的离线推荐、基于自定义模型的实时推荐,以及基于内容的、和基于Item-CF的离线相似推荐。

、教学形式
  • 理论讲解(在校内专任教师授课基础上加强模型应用场景的分析)+案例分析(应对现实问题时如何使用相关技术)+课堂练习(结合程序语言,带领学生完成项目实现)

  • 小组课后作业+老师作业讲解(课后答疑)

  • 知识运用,进行开发实践

、教学目标
  • 学会数据分析,数据挖掘,并发处理

  • 掌握HbaseHiveSparkHadoop等知识

  • 项目、案例贯穿,主要是让学生更好的理解技术的应用

  • 经过此次培训,预计学生能达到在企业核心岗位全职实习12个月左右的水平

、所用学时
  • 每天3时,共计75时,授课时间为晚上或者周末在线教学

  • 课后下达任务,由学生完成下达的任务

  • 任课教师在线督促学生在规定时间内完成任务

  • 在师生约定时间,老师在线解答学生问题

、学生所学内容未来适用岗位
  • 大数据工程师

  • Spark开发工程师

  • 大数据开发

  • Hadoop开发

  • 平台架构师

  • 算法工程师

  • 数据挖掘工程师

  • 数据仓库工程师

十、管理与考核方式

1. 严格对学生出勤的考勤。有专门人员负责学生的考勤。

2. 设立专门的班级管理人员,管理学生,掌握并跟踪学生日常的学习状态及进度。管理人员负责建立实训班群,每天在群里公布学生的考勤状况。管理人员负责收集学生的在课堂上及课下遇到的各种问题,并及时反馈给授课讲师(授课老师会在指定的时间,针对学生的问题统一进行解答)

3. 学生的成绩考核分为部分:

1)项目成绩(本部分成绩占整体成绩的60%,由授课老师对学生实训的项目完成情况进行考核打分)。

2)平时的考勤(占比10%

3)平时成绩,平时完成老师留的作业的情况(占比30%


联系人:吴强老师

联系方式:13520977876   010-62766930

北京大数据研究院

2021414