机器学习 在知识底库中查询,核心为查询的算法; 传统意义上我们会在链表、二叉树、数组中查询,但是人工智能中构建了更多维度的底库,包括按图层创建、按小世界创建等等,基于图的算法更迅速 效果好,但构建更复杂。 而如何识别出结果就是我们要查询的内容,靠的就是距离算法,就是通过在不同的角度判断目标与底库中数据的距离,计算方法包括: 欧式距离:空间中两点之间的距离 夹角余弦:角度距离,数据在同一个角度范围内 汉明距离:差异距离,两个字符要变成同一字符的距离 杰卡德相似系数:两个集合交集和两集合并集的比 以上算法成为机器视觉开始的主流算法 而这其中离不开的就是向量的概念 刚刚说了创建底库,而底库组成的元素就是向量,越多维的向量标识,则查询的越准确,当然算力需要的也更大。 汉字的向量的一般维度是100维到300维之间,我们在同一个向量空间表达所有的词,则这个空间就是底库。