存档

2018年1月 的存档

【Spark MLib】Spark MLib用于机器学习的基本类型

2018年1月15日 评论已被关闭

1.Local Vector(本地向量)

    本地向量由基于零的整型索引和双精度浮点型组成的数据结构,存储在单台机器上。本地向量分为dense vector(密集向量)和sparse vector(稀疏向量)。

dense vector:直接使用浮点数组表示向量。
sparse vector:通过整型索引和和其浮点数值表示。
    (1.0, 0.0, 3.0)表示为dense vector为[1.0, 0.0, 3.0] ,表示为sparse vector为(3, [0, 2], [1.0, 3.0]),其中3代表向量的长度,0和2分别指索引位置。