存档

‘BigData’ 分类的存档

【hadoop】hdfs知识小结

2018年3月5日 评论已被关闭

大数据生态圈,hadoop是整个生态的基础,而hdfs是其分布式文件系统,是学习大数据的起点。

1.概况

Hadoop分布式文件系统(HDFS)是一种分布式文件系统,设计用于在商品硬件上运行。它与现有的分布式文件系统有许多相似之处。但是,与其他分布式文件系统的差异很大。HDFS具有高度容错能力,旨在部署在低成本硬件上。HDFS提供对应用程序数据的高吞吐量访问,适用于具有大型数据集的应用程序。HDFS放宽了一些POSIX要求来启用对文件系统数据的流式访问。

分类: BigData 标签:

【zookeeper】zookeeper知识小结

2018年3月5日 评论已被关闭

 最近想整理下自己的大数据生态知识点,就先从zookeeper开始。说实话,我并没有使用zookeeper进行开发(如果把spark streamning 的kafka的offset存进zookeeper也算的话)。但是zookeeper作为大数据生态的中要的一员,自己负责搭建和维护大数据集群,多多少少都绕不过zookeeper。

2.zookeeper是什么?

  我不喜欢用比喻,因为比喻虽然让人更容易解释新的知识和形象,但比喻也会损失一部分的信息不利于理解本质,所以这里就不用动物管理员那套说法了。

官方的说法是:分布式应用程序的分布式协调服务(A Distributed Coordination Service for Distributed Applications),zookeeper它为分布式应用程序提供同步、配置维护以及组和命名功能,应用程序通过zookeeper实现更高级的服务。

zookeeper的目的是为了减轻分布式服务需要重头做分布式服务的的责任(重复发明轮子)。

  究其本质,zookeeper是一套通知机制 + 文件系统。

【spark】【machine learning】机器学习算法效果评估方法————分类模型的评估

2017年1月17日 评论已被关闭

spark.mllib附带了许多机器学习算法,可用于学习和预测数据。当这些算法应用于构建机器学习模型时,需要根据某些标准来评估模型的性能,这取决于应用程序及其要求。 spark.mllib还提供了一套度量标准,用于评估机器学习模型的性能。
特定的机器学习算法属于更广泛类型的机器学习应用程序,如分类,回归,聚类等。这些类型中的每一种都具有良好的性能评估指标,本文章将详细介绍spark.mllib中当前可用的指标。

1. 分类模型评估(Classification model evaluation)

虽然存在许多不同类型的分类算法,但是分类模型的评估都具有相似的原理。在监督分类问题中,对于每个数据点存在真实输出和模型生成的预测输出。因此,每个数据点的结果可以分配到以下四个类别之一:

真阳性(TP) – 标签是阳性,预测也是阳性
真阴性(TN) – 标签为负值,预测
假阳性(FP) – 标签为阴性,但预测为阳性
假阴性(FN) – 标签为正,但预测为阴性
这四个数字是大多数分类器评估指标的基础。当评估分类器的用基本的纯准确度(即,预测正确或不正确)通常不能良好的评估分类器。其原因是因为数据集可能是高度不平衡的。