通过将高维度数据映射到低维度空间,您可以解决稀疏输入数据的核心问题。
如前面的影片练习中所见,即便是很小的多维空间,您也可以随意将语义上相似的项组合在一起,并将不同的项区分开来。矢量空间中的位置(距离和方向)可以对语义进行良好的嵌入编码。例如,真实嵌入的以下可视化图表显示了几何图形关系,这些关系捕获了国家/地区与其资本之间的关系等语义关系:
图 4. 嵌入可以生成值得注意的类比。
此类有意义的空间为机器学习系统提供了检测可能有助于学习任务的模式的机会。
缩减网络
虽然我们需要足够的维度来编码丰富的语义关系,但我们还希望嵌入的空间足够小,可以让我们更快地训练系统。实用的嵌入大致有数百个维度。这可能比自然语言任务的词汇大小低几个数量级。