1.1 TIMIT 的结构

与布朗语料库显示文章风格和来源的平衡选集一样,TIMIT 包括方言、说话者和材料的平衡选集。对 8 个方言区中的每一种方言,具有一定年龄范围和教育背景的 50 个男性和女性的说话者每人读 10 个精心挑选的句子。设计中有两句话是所有说话者都读的,带来方言的变化:

  1. >>> phonetic = nltk.corpus.timit.phones('dr1-fvmh0/sa1')
  2. >>> phonetic
  3. ['h#', 'sh', 'iy', 'hv', 'ae', 'dcl', 'y', 'ix', 'dcl', 'd', 'aa', 'kcl',
  4. 's', 'ux', 'tcl', 'en', 'gcl', 'g', 'r', 'iy', 's', 'iy', 'w', 'aa',
  5. 'sh', 'epi', 'w', 'aa', 'dx', 'ax', 'q', 'ao', 'l', 'y', 'ih', 'ax', 'h#']
  6. >>> nltk.corpus.timit.word_times('dr1-fvmh0/sa1')
  7. [('she', 7812, 10610), ('had', 10610, 14496), ('your', 14496, 15791),
  8. ('dark', 15791, 20720), ('suit', 20720, 25647), ('in', 25647, 26906),
  9. ('greasy', 26906, 32668), ('wash', 32668, 37890), ('water', 38531, 42417),
  10. ('all', 43091, 46052), ('year', 46052, 50522)]

除了这种文本数据,TIMIT 还包括一个词典,提供每一个词的可与一个特定的话语比较的规范的发音:

  1. >>> timitdict = nltk.corpus.timit.transcription_dict()
  2. >>> timitdict['greasy'] + timitdict['wash'] + timitdict['water']
  3. ['g', 'r', 'iy1', 's', 'iy', 'w', 'ao1', 'sh', 'w', 'ao1', 't', 'axr']
  4. >>> phonetic[17:30]
  5. ['g', 'r', 'iy', 's', 'iy', 'w', 'aa', 'sh', 'epi', 'w', 'aa', 'dx', 'ax']

这给了我们一点印象:语音处理系统在处理或识别这种特殊的方言(新英格兰)的语音中必须做什么。最后,TIMIT 包括说话人的人口学统计,允许细粒度的研究声音、社会和性别特征。

  1. >>> nltk.corpus.timit.spkrinfo('dr1-fvmh0')
  2. SpeakerInfo(id='VMH0', sex='F', dr='1', use='TRN', recdate='03/11/86',
  3. birthdate='01/08/60', ht='5\'05"', race='WHT', edu='BS',
  4. comments='BEST NEW ENGLAND ACCENT SO FAR')