存档

作者存档

【自然语言处理】中文分词

2018年11月12日 评论已被关闭

词汇与分词技术 一、分词流派 机械式分词基于词典,直接根据词典中的词条切分 简单、实用,缺点是词典的完备性护问 […]

【自然语言处理】n元语法(n-gram)

2018年9月27日 评论已被关闭

概念 n元语法(英语:n-gram) 指文本中连续出现的n个语词。n元语法模型是基于(n-1)阶马尔可夫链的一 […]

阿里算法策略简介

2018年3月9日 评论已被关闭

法策略名称 简介 技术点 备注
基于内容的推荐
1.根据物品表的keywords(one-hot),description(分词),properties(one-hot)字段抽取特征

2.使用特征通过相识度算法建立物品-物品topN,再根据用户行为对用户做出推荐

相识度算法
特征工程(分词,特征抽取,特征标准化,one-hot编码,特征变换算法)
物品特征如何计算相识度矩阵
4
默认推荐 基于pv、权重、随机分桶、最新上架、物品信息的其中一个策略产生默认推荐 无  
基于itemCF的推荐
1.根据行为提取三元组

2.根据物品相似度算法建立物品相似度矩阵,根据矩阵对用户的行为做出推荐

相识度算法
近线离线数据流程配合

MNIST

2018年3月9日 评论已被关闭

  import os import tensorflow as tf from tensorflo […]

流式计算框架比较

2018年3月9日 评论已被关闭

SparkStreaming: 适合可以容忍秒级别延迟,大吞吐量计算,社区完善,和spark集成度高 Stor […]

【知识管理】个人知识树【施工中】

2018年3月7日 评论已被关闭

logic 语言 java Jvm 加载机制 类的生命周期 加载:加载二进制字节流 验证:对class的字节流 […]

【hadoop】yarn知识小结【施工中】

2018年3月5日 评论已被关闭

yarn是hadoop2以上采用的分布式计算框架,对比hadoop1的分布式计算,yarn拥有更强大的资源管理 […]

【hadoop】hdfs知识小结

2018年3月5日 评论已被关闭

大数据生态圈,hadoop是整个生态的基础,而hdfs是其分布式文件系统,是学习大数据的起点。

1.概况

Hadoop分布式文件系统(HDFS)是一种分布式文件系统,设计用于在商品硬件上运行。它与现有的分布式文件系统有许多相似之处。但是,与其他分布式文件系统的差异很大。HDFS具有高度容错能力,旨在部署在低成本硬件上。HDFS提供对应用程序数据的高吞吐量访问,适用于具有大型数据集的应用程序。HDFS放宽了一些POSIX要求来启用对文件系统数据的流式访问。

分类: BigData 标签:

【zookeeper】zookeeper知识小结

2018年3月5日 评论已被关闭

 最近想整理下自己的大数据生态知识点,就先从zookeeper开始。说实话,我并没有使用zookeeper进行开发(如果把spark streamning 的kafka的offset存进zookeeper也算的话)。但是zookeeper作为大数据生态的中要的一员,自己负责搭建和维护大数据集群,多多少少都绕不过zookeeper。

2.zookeeper是什么?

  我不喜欢用比喻,因为比喻虽然让人更容易解释新的知识和形象,但比喻也会损失一部分的信息不利于理解本质,所以这里就不用动物管理员那套说法了。

官方的说法是:分布式应用程序的分布式协调服务(A Distributed Coordination Service for Distributed Applications),zookeeper它为分布式应用程序提供同步、配置维护以及组和命名功能,应用程序通过zookeeper实现更高级的服务。

zookeeper的目的是为了减轻分布式服务需要重头做分布式服务的的责任(重复发明轮子)。

  究其本质,zookeeper是一套通知机制 + 文件系统。

【Spark MLib】Spark MLib用于机器学习的基本类型

2018年1月15日 评论已被关闭

1.Local Vector(本地向量)

    本地向量由基于零的整型索引和双精度浮点型组成的数据结构,存储在单台机器上。本地向量分为dense vector(密集向量)和sparse vector(稀疏向量)。

dense vector:直接使用浮点数组表示向量。
sparse vector:通过整型索引和和其浮点数值表示。
    (1.0, 0.0, 3.0)表示为dense vector为[1.0, 0.0, 3.0] ,表示为sparse vector为(3, [0, 2], [1.0, 3.0]),其中3代表向量的长度,0和2分别指索引位置。