Familia 内置两种类型语义匹配算法,分别为短文本-长文本语义匹配和长文本-长文本语义匹配。

短文本-长文本语义匹配计算

  1. sh run_query_doc_sim_demo.sh # 运行短文本-长文本匹配计算demo

参数说明

  • —model_dir 选择不同语料的主题模型。
  • —conf_file 模型配置文件,在短文本与长文本匹配的示例中,只可以选择lda.conf

运行示例

  1. 请输入短文本:
  2. 百度宣布阿波罗计划 开放自动驾驶技术有望改变汽车产业
  3. 请输入长文本:
  4. 百度又一次展示了自动驾驶领域领导者的大气风范,发布了一项名为“Apollo(阿波罗)”的新计划,向汽车行业及自动驾驶领域的合作伙伴提供一个开放、完整、安全的软件平台,帮助他们结合车辆和硬件系统,快速搭建一套属于自己的完整的自动驾驶系统。
  5. LDA Similarity = 0.0130137
  6. TWE Similarity = 0.175103

长文本-长文本语义匹配计算

  1. sh run_doc_distance_demo.sh # 运行长文本语义匹配demo

参数说明

  • —model_dir 选择不同语料的主题模型。
  • —conf_file 模型配置文件,可以选择LDA (lda.conf) 和 SentenceLDA (slda.conf)

运行示例

  1. 请输入文档1:
  2. 在人工智能发展得最为系统化的硅谷,AI工程师们的薪水远高于其他领域的同行。随着人工智能概念的不断深入人心,人工智能的人才愈发的紧俏,时至今日,大学刚毕业的博士也能坐拥八九十万的年薪,与资深的硅谷工程师相媲美。
  3. 请输入文档2:
  4. 在国内,部分企业早已瞄准人才的短板,走在了业界的前面。百度是最早进行AI的人才培养布局的,他们同国内诸多高校开展合作,共建工程实验室,在数据开放和资源共享上进行各种合作。这种方式类似美国在人工智能教育领域推行的“硅谷-斯坦福”校企联动模式,一方面斯坦福大学为硅谷提供了人才和科研成果,另一方面硅谷为斯坦福大学提供资金支持和大数据,以助力他们的科研能有更大的突破。
  5. Jensen Shannon Divergence = 0.0541905
  6. Hellinger Distance = 0.243336