大数据建模、分析、挖掘技术应用研修
为响应科研及工作人员需求,根据《guowuyuan关于推行终身职业技能培训制度的意见》提出的“紧跟新技术、新职业发展变化,建立职业分类动态调整机制,加快职业标准开发工作”要求,中国管理科学研究院现代教育研究所联合北京龙腾亚太教育咨询有限公司特举办“大数据建模、分析、挖掘技术应用研修班”。时间安排 | 课程大纲 | 详细内容 | 实践训练 |
第一天
| 一、大数据概述 | 1.大数据及特点分析 2.大数据关健技术 3.大数据计算模式 4.大数据应用实例 | |
二、大数据处理架构Hadoop | 1.Hadoop项目结构 2.Hadoop安装与使用 3.Hadoop集群的部署与使用 4.Hadoop 代表性组件 | 1.Hadoop Single Node Cluster 2. Hadoop Multi Node Cluster | |
三、分布式文件系统HDFS | 1.HDFS体系结构 2.HDFS存储 3.HDFS数据读写过程 | 1.创建与查看HDFS目录 2.从本地计算复制文件到HDFS 3.将HDFS文件复制到本地计算机 4.复制与删除HDFS文件 5.Hadoop HDFS Web浏览HDFS | |
四、分布式数据库HBase | 1.HBase访问接口 2.HBase数据类型 3.HBase实现原理 4.HBase运行机制 5.HBase应用 | ||
第二天
| 五、MapReduce | 1.MapReduce体系结构 2.MapReduce工作流程 3.资源管理调度框架YARN 4.MapReduce应用 | |
六、Spark | 1.Spark生态与运行架构 2.Spark SQL 3.Spark部署与应用方式 | 1.Python Spark 安装 2.本地运行pyspark程序 3.在Hadoop YARN 运行pyspark 4.Spark Web UI | |
七、IPython Notebook运行Python Spark程序 | 1.Anaconda 2.IPython Notebook使用Spark 3.使用IPython Notebook在Hadoop YARN模式运行 | 1.在不同模式运行IPython Notebook运行Python Spark命令 2.Python 程序开发 | |
八、Python Spark集成开发环境 | 1.Python Spark集成开发环境部署配置 2.Spark数据分析库MLlib的开发部署 | Spark MLlib应用程序示例 | |
第三天
| 九、Python Spark决策树二分类与多分类 | 1.决策树原理 2.大数据问题 3.决策树二分类 4.决策树多分类 | 1.搜集数据 2.数据准备:导入并转换数据、提取特征字段、提取标签 3. Python Spark建模,训练模型 4.预测数据 5.评估数据,给出评价指标并得到评估结果 |
十、Python Spark支持向量机 | 1.支持向量机SVM 原理与算法 2.Python Spark SVM程序设计 | 1.数据准备 2.建立SVM模型,训练模型 3.评估参数并找出最优参数 4.根据模型进行预测 | |
十一、Python Spark 贝叶斯模型 | 1.朴素贝叶斯模型原理 2.Python Spark贝叶斯模型程序设计 | 1.建模贝叶斯模型,并进行对参数估计 2.训练模型,得到最优参数 3.根据模型进行预测 | |
十二、Python Spark逻辑回归 | 1.逻辑回归原理 2.Python Spark逻辑回归程序设计 | 1.Python Spark逻辑回归建模 2.根据模型进行分类 | |
第四天
| 十三、Python Spark回归分析 | 1.大数据分析 2.数据集介绍 3.Python Spark回归程序设计 | 1.数据准备 2.训练回归模型 3.建立评估指标 4.训练回归模型,并找到最优参数 5.根据模型进行预测 |
十四、Spark ML Pipeline 机器学习流程分类 | 1.机器学习流程组件:StringIndexer、OneHotEncoder、VectorAssembler等 2.使用Spark ML Pipeline 机器学习流程分类程序设计 | 1.数据准备 2.建立机器学习Pipeline流程 3.使用Pipeline流程训练 4.使用PipelineModel预测 5.评估模型准备率 | |
十五、Python Spark 创建推荐引擎 | 1.推荐算法 2.推荐引擎大数据分析使用场景 3.推荐引擎设计 | 1.搜索数据 2.准备数据 3.训练模型 4.使用模型进行推荐 | |
十六、项目实践 | 1.日志分析系统与日志挖掘项目实践 a、Hadoop,Spark,ELK技术构建日志数据仓库 b、互联网微博日志分析系统项目 1.推荐系统项目实践 a、电影数据分析与个性化推荐关联分析项目 |