北京大数据研究院在北京市委市政府的指导和中关村管委会、海淀区政府、北京大学、北京工业大学四方共同支持下,于2015年在北京大学成立。本单位是一家旨在建成国际一流的大数据教育、大数据共性关键技术研发创新和支持未来技术创业的大数据研究机构。
通过贴近于现实工作场景的实训,提升受训学生在项目实践中独立解决问题的能力,促进学生将所学知识系统化和技能化,最终提升学生的求职竞争力。
有JAVA基础
具备较好的数理基础和逻辑思维
学费:3000元/人
外请目前具有丰富一线实际开发经验的研究人员,以其曾经主持过的现实项目为教学内容。
课程名称 | 技术关键点 |
大数据背景、Hadoop生态系统、Hadoop平台搭建 | 行业背景、成果展示、架构设计和选型、Hadoop基础概念、Hadoop生态系统、Hadoop文件系 统框架、Hadoop计算框架介绍、Linux系统、虚拟机环境熟悉、虚拟机集群构建Hadoop平台、运行分布式计算案例。 |
内容:了解实训项目的背景和基本概念,从最终成果展示开始反推整个项目的实现过程,并且根据具体的需求设计整体架构,对每个组件做选型。介绍每个组件的基本概念、架构和使用场景,利于判断比较。 |
Hadoop的安装部署 |
安装Apache发行版Hadoop,分布式配置Hadoop发行版,通过Manager安装Cloudera发型版 |
zookeeper | 1.分布式协调框架 |
2.Zookeeper背景与介绍 |
3.分布式zookeeper环境及安装 |
4.Zookeeper源语命令操作 |
5.关于节点类型、版本、元数据信息的意义 |
6.Zookeeper 的api 环境java操作集群演示 |
7.事件注册与节点的变更 |
8.基于zookeeper的分布式协调案例 |
HDFS概念 | 1.hadoop完全分布式集群搭建 |
2.hadoop3新特性 |
3.NameNode的Federation |
4.NameNode-HA |
5.NameNode-HA集群搭建 |
6.NameNode-HA手动切换 |
7.NameNode-HA自动切换 |
8.java客户端操作HDFS |
MapReduce | 1.MapTask 输入方式的源码解析 |
2.MapTask 执行流程源码解析 |
3.MapTask 输出方式的源码解析 |
4.MapTask 环形缓冲区源码解析 |
5.RedueTask的shuffle 源码解析 |
6.ReduceTask分组的源码解析 |
7.ReduceTask输出的源码解析 |
离线分析案例:电商推荐系统理论、案例实战 | 基于Flume+hdfs+mapreduce的离线准实时推荐系统,打造的电商推荐系统项目,就是以经过修改的中文亚马逊电商数据集作为依托,并以某电商网站真实的业务架构作为基础来实现的,其中包含了离线推荐与实时推荐体系,综合利用了协同过滤算法以及基于内容的推荐方法来提供混合推荐。具体实现的模块主要有:基于统计的离线推荐、基于隐语义模型的离线推荐、基于自定义模型的实时推荐,以及基于内容的、和基于Item-CF的离线相似推荐。 |
Redis缓存数据库 | 1.redis特点、与其他数据库的比较 |
2.如何安装redis |
3.如何使用命令行客户端 |
4.redis的字符串类型 |
5.redis的散列类型 |
6.redis的列表类型 |
7.redis的集合类型 |
8.如何使用java访问redis |
9.redis的事务(transaction) |
10.redis的管道(pipeline) |
11.redis持久化(AOF+RDB) |
12.redis优化 |
13.redis的主从复制 |
14.redis的sentinel高可用 |
15.twemproxy,codis实战 |
16.redis3.x集群安装配置 |
消息订阅分发系统Kafka | 1.Kafka介绍 |
2.Kafka原理与架构 |
3.Kafka使用场景 |
4.Kafka的核心概念 |
5.Kafka安装与部署 |
6.Kafka文件消费者案例 |
Flink实战 | 1.Flink DataStream的使用 |
2.Flink SQL开发 |
3.Flink 性能监控 |
4.Flink调优 |
5.Flink SQL执行计划 |
6.Hive + Flink SQL |
7.Kafka + Flink |
8.Flume+Kafka+Flink+Hbase+Sqoop+Canal+MySQL案例实战。 |
在线分析案例:电商推荐系统理论、案例实战 | 基于Flume+Kafka+Flink的在线实时推荐系统,打造的电商推荐系统项目,就是以经过修改的中文亚马逊电商数据集作为依托,并以某电商网站真实的业务架构作为基础来实现的,其中包含了离线推荐与实时推荐体系,综合利用了协同过滤算法以及基于内容的推荐方法来提供混合推荐。具体实现的模块主要有:基于统计的离线推荐、基于隐语义模型的离线推荐、基于自定义模型的实时推荐,以及基于内容的、和基于Item-CF的离线相似推荐。 |
大数据工程师
Spark开发工程师
大数据开发
Hadoop开发
平台架构师
算法工程师
数据挖掘工程师
数据仓库工程师
1. 严格对学生出勤的考勤。有专门人员负责学生的考勤。
2. 设立专门的班级管理人员,管理学生,掌握并跟踪学生日常的学习状态及进度。管理人员负责建立实训班群,每天在群里公布学生的考勤状况。管理人员负责收集学生的在课堂上及课下遇到的各种问题,并及时反馈给授课讲师(授课老师会在指定的时间,针对学生的问题统一进行解答)
3. 学生的成绩考核分为三部分:
(1)项目成绩(本部分成绩占整体成绩的60%,由授课老师对学生实训的项目完成情况进行考核打分)。
(2)平时的考勤(占比10%)
(3)平时成绩,平时完成老师留的作业的情况(占比30%)
联系人:吴强老师
联系方式:13520977876 010-62766930
北京大数据研究院
2021年4月14日