读取AI识虫数据集标注信息

AI识虫数据集结构如下:

  • 提供了2183张图片,其中训练集1693张,验证集245,测试集245张。
  • 包含7种昆虫,分别是Boerner、Leconte、Linnaeus、acuminatus、armandi、coleoptera和linnaeus。
  • 包含了图片和标注,请读者先将数据解压,并存放在insects目录下。
  1. # 解压数据脚本,第一次运行时打开注释,将文件解压到work目录下
  2. # !unzip -d /home/aistudio/work /home/aistudio/data/data19638/insects.zip

将数据解压之后,可以看到insects目录下的结构如下所示。

  1. insects
  2. |---train
  3. | |---annotations
  4. | | |---xmls
  5. | | |---100.xml
  6. | | |---101.xml
  7. | | |---...
  8. | |
  9. | |---images
  10. | |---100.jpeg
  11. | |---101.jpeg
  12. | |---...
  13. |
  14. |---val
  15. | |---annotations
  16. | | |---xmls
  17. | | |---1221.xml
  18. | | |---1277.xml
  19. | | |---...
  20. | |
  21. | |---images
  22. | |---1221.jpeg
  23. | |---1277.jpeg
  24. | |---...
  25. |
  26. |---test
  27. |---images
  28. |---1833.jpeg
  29. |---1838.jpeg
  30. |---...

insects包含train、val和test三个文件夹。train/annotations/xmls目录下存放着图片的标注。每个xml文件是对一张图片的说明,包括图片尺寸、包含的昆虫名称、在图片上出现的位置等信息。

  1. <annotation>
  2. <folder>刘霏霏</folder>
  3. <filename>100.jpeg</filename>
  4. <path>/home/fion/桌面/刘霏霏/100.jpeg</path>
  5. <source>
  6. <database>Unknown</database>
  7. </source>
  8. <size>
  9. <width>1336</width>
  10. <height>1336</height>
  11. <depth>3</depth>
  12. </size>
  13. <segmented>0</segmented>
  14. <object>
  15. <name>Boerner</name>
  16. <pose>Unspecified</pose>
  17. <truncated>0</truncated>
  18. <difficult>0</difficult>
  19. <bndbox>
  20. <xmin>500</xmin>
  21. <ymin>893</ymin>
  22. <xmax>656</xmax>
  23. <ymax>966</ymax>
  24. </bndbox>
  25. </object>
  26. <object>
  27. <name>Leconte</name>
  28. <pose>Unspecified</pose>
  29. <truncated>0</truncated>
  30. <difficult>0</difficult>
  31. <bndbox>
  32. <xmin>622</xmin>
  33. <ymin>490</ymin>
  34. <xmax>756</xmax>
  35. <ymax>610</ymax>
  36. </bndbox>
  37. </object>
  38. <object>
  39. <name>armandi</name>
  40. <pose>Unspecified</pose>
  41. <truncated>0</truncated>
  42. <difficult>0</difficult>
  43. <bndbox>
  44. <xmin>432</xmin>
  45. <ymin>663</ymin>
  46. <xmax>517</xmax>
  47. <ymax>729</ymax>
  48. </bndbox>
  49. </object>
  50. <object>
  51. <name>coleoptera</name>
  52. <pose>Unspecified</pose>
  53. <truncated>0</truncated>
  54. <difficult>0</difficult>
  55. <bndbox>
  56. <xmin>624</xmin>
  57. <ymin>685</ymin>
  58. <xmax>697</xmax>
  59. <ymax>771</ymax>
  60. </bndbox>
  61. </object>
  62. <object>
  63. <name>linnaeus</name>
  64. <pose>Unspecified</pose>
  65. <truncated>0</truncated>
  66. <difficult>0</difficult>
  67. <bndbox>
  68. <xmin>783</xmin>
  69. <ymin>700</ymin>
  70. <xmax>856</xmax>
  71. <ymax>802</ymax>
  72. </bndbox>
  73. </object>
  74. </annotation>

上面列出的xml文件中的主要参数说明如下:

-size:图片尺寸

-object:图片中包含的物体,一张图片可能中包含多个物体

  • name:昆虫名称
  • bndbox:物体真实框
  • difficult:识别是否困难

下面我们将从数据集中读取xml文件,将每张图片的标注信息读取出来。在读取具体的标注文件之前,我们先完成一件事情,就是将昆虫的类别名字(字符串)转化成数字表示的类别。因为神经网络里面计算时需要的输入类型是数值型的,所以需要将字符串表示的类别转化成具体的数字。昆虫类别名称的列表是:[‘Boerner’, ‘Leconte’, ‘Linnaeus’, ‘acuminatus’, ‘armandi’, ‘coleoptera’, ‘linnaeus’],这里我们约定此列表中:'Boerner’对应类别0,'Leconte’对应类别1,…,'linnaeus’对应类别6。使用下面的程序可以得到表示名称字符串和数字类别之间映射关系的字典。

  1. INSECT_NAMES = ['Boerner', 'Leconte', 'Linnaeus',
  2. 'acuminatus', 'armandi', 'coleoptera', 'linnaeus']
  3. def get_insect_names():
  4. """
  5. return a dict, as following,
  6. {'Boerner': 0,
  7. 'Leconte': 1,
  8. 'Linnaeus': 2,
  9. 'acuminatus': 3,
  10. 'armandi': 4,
  11. 'coleoptera': 5,
  12. 'linnaeus': 6
  13. }
  14. It can map the insect name into an integer label.
  15. """
  16. insect_category2id = {}
  17. for i, item in enumerate(INSECT_NAMES):
  18. insect_category2id[item] = i
  19. return insect_category2id
  1. cname2cid = get_insect_names()
  2. cname2cid
  1. {'Boerner': 0,
  2. 'Leconte': 1,
  3. 'Linnaeus': 2,
  4. 'acuminatus': 3,
  5. 'armandi': 4,
  6. 'coleoptera': 5,
  7. 'linnaeus': 6}

调用get_insect_names函数返回一个dict,其键-值对描述了昆虫名称-数字类别之间的映射关系。

下面的程序从annotations/xml目录下面读取所有文件标注信息。

  1. import os
  2. import numpy as np
  3. import xml.etree.ElementTree as ET
  4. def get_annotations(cname2cid, datadir):
  5. filenames = os.listdir(os.path.join(datadir, 'annotations', 'xmls'))
  6. records = []
  7. ct = 0
  8. for fname in filenames:
  9. fid = fname.split('.')[0]
  10. fpath = os.path.join(datadir, 'annotations', 'xmls', fname)
  11. img_file = os.path.join(datadir, 'images', fid + '.jpeg')
  12. tree = ET.parse(fpath)
  13. if tree.find('id') is None:
  14. im_id = np.array([ct])
  15. else:
  16. im_id = np.array([int(tree.find('id').text)])
  17. objs = tree.findall('object')
  18. im_w = float(tree.find('size').find('width').text)
  19. im_h = float(tree.find('size').find('height').text)
  20. gt_bbox = np.zeros((len(objs), 4), dtype=np.float32)
  21. gt_class = np.zeros((len(objs), ), dtype=np.int32)
  22. is_crowd = np.zeros((len(objs), ), dtype=np.int32)
  23. difficult = np.zeros((len(objs), ), dtype=np.int32)
  24. for i, obj in enumerate(objs):
  25. cname = obj.find('name').text
  26. gt_class[i] = cname2cid[cname]
  27. _difficult = int(obj.find('difficult').text)
  28. x1 = float(obj.find('bndbox').find('xmin').text)
  29. y1 = float(obj.find('bndbox').find('ymin').text)
  30. x2 = float(obj.find('bndbox').find('xmax').text)
  31. y2 = float(obj.find('bndbox').find('ymax').text)
  32. x1 = max(0, x1)
  33. y1 = max(0, y1)
  34. x2 = min(im_w - 1, x2)
  35. y2 = min(im_h - 1, y2)
  36. # 这里使用xywh格式来表示目标物体真实框
  37. gt_bbox[i] = [(x1+x2)/2.0 , (y1+y2)/2.0, x2-x1+1., y2-y1+1.]
  38. is_crowd[i] = 0
  39. difficult[i] = _difficult
  40. voc_rec = {
  41. 'im_file': img_file,
  42. 'im_id': im_id,
  43. 'h': im_h,
  44. 'w': im_w,
  45. 'is_crowd': is_crowd,
  46. 'gt_class': gt_class,
  47. 'gt_bbox': gt_bbox,
  48. 'gt_poly': [],
  49. 'difficult': difficult
  50. }
  51. if len(objs) != 0:
  52. records.append(voc_rec)
  53. ct += 1
  54. return records
  1. TRAINDIR = '/home/aistudio/work/insects/train'
  2. TESTDIR = '/home/aistudio/work/insects/test'
  3. VALIDDIR = '/home/aistudio/work/insects/val'
  4. cname2cid = get_insect_names()
  5. records = get_annotations(cname2cid, TRAINDIR)
  1. len(records)
  1. 1693
  1. records[0]
  1. {'im_file': '/home/aistudio/work/insects/train/images/1915.jpeg',
  2. 'im_id': array([0]),
  3. 'h': 1268.0,
  4. 'w': 1268.0,
  5. 'is_crowd': array([0, 0, 0, 0, 0, 0, 0], dtype=int32),
  6. 'gt_class': array([1, 0, 2, 3, 4, 5, 5], dtype=int32),
  7. 'gt_bbox': array([[411.5, 583. , 142. , 199. ],
  8. [654.5, 418.5, 128. , 132. ],
  9. [678.5, 736.5, 70. , 90. ],
  10. [758. , 647.5, 53. , 76. ],
  11. [843. , 538.5, 69. , 96. ],
  12. [559.5, 788. , 68. , 83. ],
  13. [831.5, 754.5, 56. , 56. ]], dtype=float32),
  14. 'gt_poly': [],
  15. 'difficult': array([0, 0, 0, 0, 0, 0, 0], dtype=int32)}

通过上面的程序,将所有训练数据集的标注数据全部读取出来了,存放在records列表下面,其中每一个元素是一张图片的标注数据,包含了图片存放地址,图片id,图片高度和宽度,图片中所包含的目标物体的种类和位置。