数据处理流程

在计算机视觉和自然语言处理章节中,我们已经了解到数据处理是算法应用的前提,并掌握了图像数据处理和自然语言数据处理的方法。总结一下,数据处理就是将人类容易理解的图像文本数据,转换为机器容易理解的数字形式,把离散的数据转为连续的数据。在推荐算法中,这些数据处理方法也是通用的。

本次实验中,数据处理一共包含如下六步:

  • 读取用户数据,存储到字典
  • 读取电影数据,存储到字典
  • 读取评分数据,存储到字典
  • 读取海报数据,存储到字典
  • 将各个字典中的数据拼接,形成数据读取器
  • 划分训练集和验证集,生成迭代器,每次提供一个批次的数据

流程如下图所示。

数据处理流程 - 图1

图1:数据处理流程图