数据集回顾

在进行数据处理前,我们先回顾下本章使用的ml-1m电影推荐数据集。

ml-1m是GroupLens Research从MovieLens网站上收集并提供的电影评分数据集。包含了6000多位用户对近3900个电影的共100万条评分数据,评分均为1~5的整数,其中每个电影的评分数据至少有20条。该数据集包含三个数据文件,分别是:

  • users.dat,存储用户属性信息的文本格式文件。
  • movies.dat,存储电影属性信息的文本格式文件。
  • ratings.dat, 存储电影评分信息的文本格式文件。

电影海报图像在posters文件夹下,海报图像的名字以"mov_id" + 电影ID + ".png"的方式命名。由于这里的电影海报图像有缺失,我们整理了一个新的评分数据文件,新的文件中包含的电影均是有海报数据的,因此,本次实验使用的数据集在ml-1m基础上增加了两份数据:

  • posters/ , 包含电影海报图像。
  • new_rating.txt, 存储包含海报图像的新评分数据文件。

注意:海报图像的数据将不在本实验中使用,而留作本章的作业。