![]() 【课程内容】 Vmware Vmware虚拟网络组件 Vmware三种网络模式 Vmware虚拟机搭建--nat模式搭建 Vmware虚拟机搭建--完整克隆虚拟机 SSH协议 基于用户名密码验证 基于密钥验证 Linux文件上传下载 sftp&lrzsz Linux增强 常用查找命令的使用 su&sudo配置使用 mount挂载操作 本地yum源制作 系统服务管理 网络管理 crontab配置使用 Shell编程 shell介绍&Hello World shell变量使用 shell参数传递&特殊字符 shell运算符 shell流程控制上--ifelse&for shell流程控制下--while&case shell函数定义&返回值事项 shell函数参数传递 ZooKeeper 概述和特性 集群角色 集群搭建上--描述&JDK安装 集群搭建下--配置文件修改&启动 数据模型 节点属性 节点类型 Shell客户端--连接集群&创建节点 Shell客户端--节点查看&更新&删除 Shell客户端--quota限制&其他命令 Watcher--介绍&通知状态事件类型 Watcher--shell操作Watcher JAVA API--介绍&创建节点 JAVA API--watcher操作 集群选举--概念&全新集群选举 集群选举--非全新集群选举 典型应用--数据发布与订阅 典型应用--命名服务&分布式锁 网络编程 概述&网络通信要素模拟思路 网络通信三要素 了解网络模型 socket--概述 socket--基于UDP客户端编程 socket--基于UDP服务端编程 socket--基于TCP协议编程 IO通信模型--BIO&NIO IO通信模型--阻塞等概念 了解RPC 数据分析 数据分析定义和数据分析作用 数据分析方法论 数据分析基本步骤 数据分析行业前景&职业要求 科技发展挑战--分布式系统 科技发展挑战--海量数据处理 大数据时代--什么是大数据 大数据时代--大数据分析 大数据分析系统--概念&分类(实时、离线) 网站流量日志自定义采集系统 原理分析 确定收集信息 确定埋点代码 前端数据收集脚本 后端脚本 日志格式&日志切分 系统环境部署 采集实现--方案一:基本功能 采集实现--方案二:点击事件 采集实现 Apache Hadoop Hadoop介绍 Hadoop发展简史 Hadoop特性优点&国内外应用 集群搭建--发行版本&集群简介 集群搭建--服务器环境准备 集群搭建--JDK环境安装 集群搭建--安装包目录结构 集群搭建--配置文件修改上 集群搭建--配置文件修改下 集群搭建--配置文件注意事项 集群搭建--namenode格式化 集群搭建--启动方式 集群搭建--集群ui&初体验 HDFS--介绍&模拟实现思路 HDFS--设计目标 HDFS--重要特性 HDFS--shell客户端 HDFS--shell常用命令介绍 Hadoop HDFS HDFS基本原理--NameNode概述 HDFS基本原理--DataNode概述 HDFS工作机制--概述 HDFS工作机制--写数据流程--上 HDFS工作机制--写数据流程--下 HDFS工作机制--读数据流程 HDFS应用开发--JAVA api环境&对象 HDFS应用开发--创建目录&客户端身份设置 HDFS应用开发--下载文件&本地hadoop环境配置 HDFS应用开发--其他api&Stream操作 案例:shell定时采集数据至hdfs--需求分析 案例:shell定时采集数据至hdfs--实现 Hadoop MapReduce 理解MapReduce思想 MapReduce计算模拟实现思路 MapReduce设计构思 MapReduce框架结构&编程规范 WordCount案例--Mapper编写:mr数据类型 WordCount案例--Mapper编写:map方法 WordCount案例--Reducer编写:类型确定&如何调用 WordCount案例--Reducer编写:reduce方法编程 WordCount案例--运行主类Job编程 程序运行模型--集群运行模式 程序运行模型--本地运行模式 MapReduce的输入和输出 初识mapreduce数据分区&分区规则 处理流程--Mapper任务执行流程解析 处理流程--Reducer任务执行流程解析 编程案例--流量汇总--序列化机制Writable 编程案例--流量汇总--对象序列化编写 编程案例--流量汇总--mapper编写 编程案例--流量汇总--Reducer编写 编程案例--流量汇总--运行主类编写 编程案例--流量汇总排序--需求分析&comopareTo方法重写 编程案例--流量汇总排序--mr代码实现 编程案例--流量汇总分区--需求分析&HashPartitioner讲解 编程案例--流量汇总分区--自定义分区&mr编写 编程案例--流量汇总分区--分区个数和reduceTask个数关系 combiner组件介绍&使用注意事项 Apache Flume 概述&运行机制 安装部署&netcat-logger 案例--spooldir使用注意事项 案例--采集目录至HDFS 案例--采集文件至HDFS 高级功能--load balance 高级功能--failover 实战案例--采集日志汇总&拦截器使用 扩展了解--自定义拦截器思路 数据 数据分析系统不同数据来源 数据管理--文件管理服务&跨部门文件管理规范 数据管理--文件管理规范示例 数据管理--数据质量检测 数据仓库--基本概念&和数据库区别 数据仓库--数据仓库主要特征 数据仓库--数据仓库分层架构 数据仓库--数据仓库元数据管理 Apache Hive 介绍&Hive实现思路模拟 架构&组件 与RDBMS区别 安装部署--内置derby版以及缺陷 安装部署-mysql版安装 安装部署-几种交互方式 初体验-理解什么是映射 DDL--创建表--数据类型&分隔符 DDL--创建表--默认分隔符 DDL--创建表--分区表创建 DDL--创建表--双分区表&小结 DDL--创建表--分桶表创建&分桶数据导入 DDL--创建表--分桶表总结&分桶表好处 DDL--创建表--内外部表&like复制 DDL--修改表&显示命令 DML--load装载数据 DML--insert&多重插入&动态分区 DML--导出数据 DML--select查询 join操作 命令行&参数配置方式 内置运算符函数&dual测试方式 自定义函数UDF开发 了解transform 特殊分隔符处理 |