2017-07-06 07:50

标签:

Hadoop来临

特点：

海量数据需要及时分析和处理。

海量数据需要深入分析和挖掘。

数据需要长期保存

问题：

磁盘IO成为一种瓶颈,而非CPU资源。

网络带宽是一种稀缺资源

硬件故障成为影响稳定的一大因素

Hadoop在国内的应用

奇虎360：Hadoop存储软件管家中软件，使用CDN技术将用户请求引到最近的Hadoop集群并进行下载

京东、百度：存储、分析日志、数据挖掘和机器学习（主要是推荐系统）

广告类公司：存储日志，通过协调过滤算法为客户推荐广告

Yahoo：垃圾邮件过滤

华为：云计算平台

Facebook：日志存储，实时分析

某公安部项目：网民QQ聊天记录与关联人调查系统，使用Hbase实现

某学校：学生上网与社会行为分析，使用hadoop

淘宝、阿里：国内使用Hadoop最深入的公司，整个Taobao和阿里都是数据驱动的

Hadoop介绍

作者：Doug Cutting（Hadoop的得名：“这个名字是我孩子给一个棕黄色的大象玩具命名的。我的命名标准就是简短，容易发音和拼写，没有太多的意义，并且不会被用于别处。）

Hadoop实现了一个分布式文件系统（Hadoop Distributed File System），简称HDFS。HDFS有高容错性的特点，并且设计用来部署在低廉的（low-cost）硬件上；而且它提供高传输率（high throughput）来访问应用程序的数据，适合那些有着超大数据集（large data set）的应用程序。

Hadoop特点

⒈高可靠性。Hadoop按位存储和处理数据的能力值得人们信赖。

⒉高扩展性。Hadoop是在可用的计算机集簇间分配数据并完成计算任务的，这些集簇可以方便地扩展到数以千计的节点中。

⒊高效性。Hadoop能够在节点之间动态地移动数据，并保证各个节点的动态平衡，因此处理速度非常快。

⒋高容错性。Hadoop能够自动保存数据的多个副本，并且能够自动将失败的任务重新分配。

5.低成本。与一体机、商用数据仓库等数据集市相比，hadoop是开源的，项目的软件成本因此会大大降低。

Hadoop带有用Java语言编写的框架，因此运行在 Linux 生产平台上是非常理想的。Hadoop 上的应用程序也可以使用其他语言编写，比如 C++。

Hadoop生态结构

Hbase

Nosql数据库，Key-Value存储

最大化利用内存

HDFS

hadoop distribute file system分布式文件系统

最大化利用磁盘

MapReduce

编程模型，主要用来做数据的分析

最大化利用CPU

Hadoop测试常见问题和测试方法

赏

Hadoop在国内的应用

Hadoop介绍

Hadoop特点

Hadoop生态结构

Hadoop测试常见问题和测试方法

相关视频教程更多课程

从零学习selenium2自动化测试系列视频课程之WebDriver基础篇

从零学习selenium2自动化测试系列视频课程之WebDriver平台篇

从零学习selenium2自动化测试系列视频课程之WebDriver高级篇

WEB安全攻防技术精讲视频教程

从零学习selenium2自动化测试系列视频课程之WebDriver框架篇

JMeter性能测试基础实战视频教程

最新教程

热门教程

文章存档

最新发表

最近访客

大数据时代的遨游

Hadoop在国内的应用

Hadoop介绍

Hadoop特点

Hadoop生态结构

Hadoop测试常见问题和测试方法

相关视频教程更多课程

从零学习selenium2自动化测试系列视频课程之WebDriver基础篇

从零学习selenium2自动化测试系列视频课程之WebDriver平台篇

从零学习selenium2自动化测试系列视频课程之WebDriver高级篇

WEB安全攻防技术精讲视频教程

从零学习selenium2自动化测试系列视频课程之WebDriver框架篇

JMeter性能测试基础实战视频教程

最新教程

热门教程

文章存档

最新发表

最近访客