存档

2018年3月 的存档

阿里算法策略简介

2018年3月9日 评论已被关闭

法策略名称 简介 技术点 备注
基于内容的推荐
1.根据物品表的keywords(one-hot),description(分词),properties(one-hot)字段抽取特征

2.使用特征通过相识度算法建立物品-物品topN,再根据用户行为对用户做出推荐

相识度算法
特征工程(分词,特征抽取,特征标准化,one-hot编码,特征变换算法)
物品特征如何计算相识度矩阵
4
默认推荐 基于pv、权重、随机分桶、最新上架、物品信息的其中一个策略产生默认推荐 无  
基于itemCF的推荐
1.根据行为提取三元组

2.根据物品相似度算法建立物品相似度矩阵,根据矩阵对用户的行为做出推荐

相识度算法
近线离线数据流程配合

MNIST

2018年3月9日 评论已被关闭

  import os import tensorflow as tf from tensorflo […]

流式计算框架比较

2018年3月9日 评论已被关闭

SparkStreaming: 适合可以容忍秒级别延迟,大吞吐量计算,社区完善,和spark集成度高 Stor […]

【知识管理】个人知识树【施工中】

2018年3月7日 评论已被关闭

logic 语言 java Jvm 加载机制 类的生命周期 加载:加载二进制字节流 验证:对class的字节流 […]

【hadoop】yarn知识小结【施工中】

2018年3月5日 评论已被关闭

yarn是hadoop2以上采用的分布式计算框架,对比hadoop1的分布式计算,yarn拥有更强大的资源管理 […]

【hadoop】hdfs知识小结

2018年3月5日 评论已被关闭

大数据生态圈,hadoop是整个生态的基础,而hdfs是其分布式文件系统,是学习大数据的起点。

1.概况

Hadoop分布式文件系统(HDFS)是一种分布式文件系统,设计用于在商品硬件上运行。它与现有的分布式文件系统有许多相似之处。但是,与其他分布式文件系统的差异很大。HDFS具有高度容错能力,旨在部署在低成本硬件上。HDFS提供对应用程序数据的高吞吐量访问,适用于具有大型数据集的应用程序。HDFS放宽了一些POSIX要求来启用对文件系统数据的流式访问。

分类: BigData 标签:

【zookeeper】zookeeper知识小结

2018年3月5日 评论已被关闭

 最近想整理下自己的大数据生态知识点,就先从zookeeper开始。说实话,我并没有使用zookeeper进行开发(如果把spark streamning 的kafka的offset存进zookeeper也算的话)。但是zookeeper作为大数据生态的中要的一员,自己负责搭建和维护大数据集群,多多少少都绕不过zookeeper。

2.zookeeper是什么?

  我不喜欢用比喻,因为比喻虽然让人更容易解释新的知识和形象,但比喻也会损失一部分的信息不利于理解本质,所以这里就不用动物管理员那套说法了。

官方的说法是:分布式应用程序的分布式协调服务(A Distributed Coordination Service for Distributed Applications),zookeeper它为分布式应用程序提供同步、配置维护以及组和命名功能,应用程序通过zookeeper实现更高级的服务。

zookeeper的目的是为了减轻分布式服务需要重头做分布式服务的的责任(重复发明轮子)。

  究其本质,zookeeper是一套通知机制 + 文件系统。