杭州Cloudera认证Apache Hadoop开发者培训（CCA）

2017-12-08 13:27 79次

课程价格：请电话咨询
开课时间：滚动开班
上课地点：请咨询客服

授课学校：杭州博学国际教育培训中心
联系Q Q：779260302
联系电话：
认证情况：

如遇无效、虚假、诈骗课程，请立即举报为了您的资金安全，请见面交易，切勿提前支付任何费用举报

课程详情

Cloudera认证Apache Hadoop开发者培训（CCA）培训班型：公开课课程长度： 4天/24小时培训日期：待定认证考试：北京、上海、广州、杭州、福州、深圳、西安、南京、天津、武汉、成都、重庆培训地点：博学国际教育培训中心环境要求：投影仪、白板、大白纸培训形式：实例讲授，现场演、练、及时沟通培训资料：培训教材课程内容认证描述： 4天的课程包涵了解Apache Spark的基础知识及其与Hadoop整体生态系统的集成方式。本课程将重温HDFS的基础内容，学习如何使用Sqoop/Flume摄取数据，利用Spark处理分布式数据，学习在Impala和Hive上数据建模，以及在数据存储方面的*实践。课程概述： •Hadoop 核心 •HDFS 和 MapReduce 工作原理 •如何开发 MapReduce 应用 •如何单元测试 MapReduce 应用 •如何使用 MapReduce combiners, partitioners 和 distributed cache •开发调试 MapReduce 应用 •如何实现 MapReduce 应用中的输入／输出 •常见 MapReduce 算法 •如何用 MapReduce 来联结数据集 •如何把 Hadoop 嵌入到企业已有的计算环境里 •如何使用 Hive、Impala 和 Pig 来快速开发数据分析应用 •如何使用 Oozie 来创建管理工作流培训前提：企业管理者、CIO、CTO、*信息*官员、项目（开发）经理、咨询顾问；IT经理，IT咨询顾问，IT支持专家；系统工程师、数据中心管理员、云计算管理员及想加入云计算队伍的您。授课对象：具备编程经验的开发人员；熟悉面向对象高级编程语言，如Java；不需要事先掌握Hadoop相关知识培训目标：通过考试可获得Cloudera Certified Developer for Apache Hadoop (CCDH) 证书 Using the Spark shell for interactive data analysis  The features of Spark’s Resilient Distributed Datasets  How Spark runs on a cluster  How Spark parallelizes task execution  Writing Spark applications  Processing streaming data with Spark 环境准备： 1. 操作系统：Linux 2. java环境：jdk6以上硬件环境：电脑内存4G以上课程内容：  介绍  Hadoop 起源和动机  Hadoop 基本概念和 HDFS  MapReduce 介绍  Hadoop 集群和 Hadoop 生态系统  使用 Java 编写 MapReduce 程序  使用 Streaming 编写 MapReduce 程序  MapReduce 单元测试  深入 Hadoop API  开发技巧  Reducer 和 Partitioner  数据输入／输出  常见 MapReduce 算法  用 MapReduce 来联结数据集  把 Hadoop 嵌入到企业已有的计算环境里  Hive、Impala 和 Pig 简介  Oozie 简介  结论  附录: Cloudera Enterprise Introduction to Spark  What is Spark?  Review: From Hadoop MapReduce to Spark  Review: HDFS  Review: YARN  Spark Overview Spark Basics  Using the Spark Shell  RDDs (Resilient Distributed Datasets)  Functional Programming in Spark Working with RDDs in Spark  Creating RDDs  Other General RDD Operations Aggregating Data with Pair RDDs  Key-Value Pair RDDs  Map-Reduce  Other Pair RDD Operations Writing and Deploying Spark Applications  Spark Applications vs. Spark Shell  Creating the SparkContext  Building a Spark Application (Scala and Java)  Running a Spark Application  The Spark Application Web UI  Hands-On Exercise: Write and Run a Spark Application  Configuring Spark Properties  Logging Parallel Processing  Review: Spark on a Cluster  RDD Partitions  Partitioning of File-based RDDs  HDFS and Data Locality  Executing Parallel Operations  Stages and Tasks Spark RDD Persistence  RDD Lineage  RDD Persistence Overview  Distributed Persistence Basic Spark Streaming  Spark Streaming Overview  Example: Streaming Request Count  DStreams  Developing Spark Streaming Applications Advanced Spark Streaming  Multi-Batch Operations  State Operations  Sliding Window Operations  Advanced Data Sources Common Patterns in Spark Data Processing  Common Spark Use Cases  Iterative Algorithms in Spark  Graph Processing and Analysis  Machine Learning  Example: k-means Improving Spark Performance  Shared Variables: Broadcast Variables  Shared Variables: Accumulators  Common Performance Issues  Diagnosing Performance Problems Spark SQL and DataFrames  Spark SQL and the SQL Context  Creating DataFrames  Transforming and Querying DataFrames  Saving DataFrames  DataFrames and RDDs  Comparing Spark SQL, Impala and Hive-on-Spark 