姓名:何亮
职称/职务:副教授
专 业:人工智能
研究方向:说话人识别、知识图谱、预训练、音频事件监测
邮 箱:heliang@mail.tsinghua.edu.cn
教育背景
1. 2011.7-2013.7 清华大学 电子工程系 博士后 电子科学与技术 语音识别、模式识别
2. 2006.9-2011.6 清华大学 电子工程系 博士 信息与通信工程 语音识别、模式识别
3. 2004.9-2006.6 浙江大学 信电系 硕士 信息与通信工程 无线通信中合作与分集、Turbo码
4. 2000.9-2004.6 中国民航大学 空管学院 本科 通信工程
社会工作
工作简历
1. 2020.09-今 伟德BETVlCTOR1946 信息科学与工程学院(援疆)
2. 2018.12-今 清华大学 电子工程系 副研究员 语音识别与知识图谱
3. 2013.7-2018.12 清华大学 电子工程系 助理研究员 声纹识别、语种识别和音频事件检测
学术兼职
1. 2022:Odyssey程序委员会主席
2. 2020-今:中国中文信息学会开源情报专委会 秘书长
3. 2019-今:中国计算机学会语音对话与听觉专委会 委员
4. 2017-今:中国刑事科学技术协会声纹检验技术专业委员会 常务委员
5. 2019-2020:全国声纹识别技术与应用研讨会会议主席
6. 2020:INTERSPEECH分会主席
7. 2020-2021:ICME领域主席、分会主席,IEEE ASLP、IEEE SP、IEEE SPL、 IEEE Access、PR、 CSL、EURASIP ASMP、IET SP、ICASSP、ICME、INTERSPEECH等国际期刊或会议审稿人
主持项目
国家自然科学基金(青年基金,2014)
1. 负责人,基金题目:基于信息几何的说话人标记方法研究
作为核心人员参与多项国家自然科学基金、863计划等
近期在研项目:
1. 国家自然科学基金委员会,重大项目,82090053,肝癌精准治疗的智能化外科决策与手术规划,2021-01至2024-12,1752万元,在研,参加
2. 国家自然科学基金委员会,联合资助基金,U1836219,复杂环境下语音数据的说话人识别及关键词检索,2019-01至2022-12,249万元,在研,参加
横向课题
1. 华为公司,说话人标记项目(2016年),128万,负责人,华为手机会议记录智能分析,结题
2. 淘宝中国,说话人识别和数字串内容识别项目(2017年),162万,负责人,淘宝和支付宝的声纹锁,结题
3. 华为公司,真人替代语音评测方法(2019年),20万,负责人,华为终端音频智能识别评测方法指导性文件,结题
4. 腾讯公司,声纹防伪方法研究(2020年),50万,负责人,腾讯安全事业部防语音伪造算法,结题
学术成果
针对非协作、低资源等语音识别难题,提出了系统解决方案和新颖识别算法。设计实现的系统,多次在国际权威评测中取得好成绩,取得很好的应用效果。与华为、淘宝和腾讯等知名公司合作,合作研发的算法与系统在手机淘宝、支付宝和华为手机等应用。2013年以来,在国际期刊和会议发表论文62篇(被科学引文索引(SCI)收录11篇;在Web of Science核心合集中被引用 127次,Google学术引用550次),发明专利9项,学术报告11次,特邀国际学术报告2次,国内学术报告8次。IEEE Audio, Speech and Language Processing, IEEE Signal Processing, Pattern Recognition, Computer & Speech Language, IET Signal Processing, ICASSP, INTERSPEECH等国际期刊/会议审稿人。2019年全国声纹识别技术与应用研讨会会议主席;2020年全国声纹识别技术与应用研讨会会议主席,2020 ICME领域主席。CCF语音对话与听觉专委会委员,全国刑事技术标准化技术委员会等。
期刊论文
1. Xinyue Ma, Tianyu Liang, Shanshan Zhang, Shen Huang and Liang He, "Improved Lightcnn with Attention Modules for Asv Spoofing Detection," 2021 IEEE International Conference on Multimedia and Expo (ICME), 2021, pp. 1-6, doi: 10.1109/ICME51207.2021.9428313.
2. Xianwei Zhang and Liang He. (2021) End-to-End Cross-Lingual Spoken Language Understanding Model with Multilingual Pretraining. Proc. Interspeech 2021, 4728-4732, doi: 10.21437/Interspeech.2021-818.
3. Wenhao Ding, Liang He, “Adaptive Multi-Scale Detection of Acoustic Events,” IEEE/ACM Transactions on Audio, Speech and Language Processing, vol. 28, no. 1, p. 294-306, Dec. 2020. (SCI)
4. Keming Zhang, Yuanwen Cai, Yuan Ren, Ruida Ye and Liang He, "MTF-CRNN: Multiscale Time-Frequency Convolutional Recurrent Neural Network for Sound Event Detection," IEEE Access, vol. 8, pp. 147337-147348, 2020, doi: 10.1109/ACCESS.2020.3015047.
5. Ruyun Li, Tianyu Liang, Dandan Song, Yi Liu, Yangcheng Wu, Can Xu, Peng Ouyang, Xianwei Zhang, Xianhong Chen, Weiqiang Zhang, Shouyi Yin and Liang He, "THUEE System for NIST SRE19 CTS Challenge," Interspeech 2020, pp. 2232-2236.
6. Liang He, Xianhong Chen, Can Xu, Liu Yi, Jia Liu and Michael T. Johnson, “Latent class model with application to speaker diarization,” EURASIP Journal on Audio, Speech, and Music Processing, vol. 2019, no. 1, p. 12, Jul. 2019. (SCI)
7. Xianhong chen, Liang He, Can Xu and Jia Liu, “Distance-Dependent Metric Learning,” IEEE Signal Processing Letters, Feb. 2019, 26(2), 357-361. (SCI)
8. Yi Liu, Liang He, Jia Liu, Michael T. Johnson, “Introducing phonetic information to speaker embedding for speaker verification,” EURASIP Journal on Audio, Speech, and Music Processing, vol. 2019, no. 1, p. 19, Dec. 2019. (SCI)
9. Liang He, Xianhong Chen, Can Xu, and Jia Liu, “Multi-objective Optimization Training of PLDA for Speaker Verification,” ICASSP 2019 - 2019 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), Brighton, United Kingdom, 2019, pp. 6026-6030.
10. Yi Liu, Liang He and Jia Liu, “Large Margin Softmax Loss for Speaker Verification,” INTERSPEECH 2019, 20th Annual Conference of the International Speech Communication Association.
11. Liang He, Xianhong Chen, Can Xu, Jia Liu and Michael T. Johnson, “Local Pairwise Linear Discriminant Analysis for Speaker Verification,” IEEE Signal Processing Letters, Oct. 2018, 25(10), 1575-1579. [code]. (SCI)
12. Xukui Yang, Liang He, Dan Qu and Weiqiang Zhang, “Semi-supervised minimum redundancy maximum relevance feature selection for audio classification,” Multimedia Tools and Applications 77(1), 713-739. (SCI)
13. Xukui Yang, Liang He, Dan Qu, Weiqiang Zhang and Michael T. Johnson, “Semi-supervised feature selection for audio classification based on constraint compensated Laplacian score”, EURASIP Journal on Audio, Speech, and Music Processing. (SCI)
14. Xukui Yang, Liang He, Dan Qu and Weiqiang Zhang, “Voice activity detection algorithm based on long-term pitch information”, EURASIP Journal on Audio, Speech, and Music Processing. (SCI)
授权专利
1. 何亮, 徐灿, 田垚, 刘艺, 刘加; 基于密度峰值聚类和变分贝叶斯的说话人方法与系统, 2020-01-07, 中国, ZL201710035673.4.
2. 刘艺, 何亮, 田垚, 陈仙红, 刘加; 一种基于数字口令与声纹联合确认的用户身份验证方法, 2020-01-07, 中国, ZL201710208226.4.
3. 刘加, 赵军红, 袁桦, 张卫强, 何亮, 赵峰, 邵颖; 特征提取方法、装置及重音检测的方法、装置,2018-12-25,中国,ZL201310488434.6.
4. 刘加, 赵军红, 袁桦, 张卫强, 何亮, 赵峰, 邵颖; 韵律事件检测方法和装置,2018-10-02,中国,ZL201310487945.6.
5. 何亮,张卫强,刘加;一种用于语种识别的建模方法及装置, 2012-07-04,中国,ZL201010207237.9.
评测
1. 参加美国国家标准技术署举办的语种识别评测(NIST LRE 2007、2009、2011、2015、2017),国际权威评测
负责核心系统开发;设计并实现具有世界领先水平的识别系统
NIST LRE 2015,系统核心指标获世界第4名,国内第1名
2. 参加西班牙举办的语种识别评测(Albayzin 2012),国际著名评测
负责人,系统1项指标(4项指标)获世界第1名,1/8
3. 参加美国国家标准技术署举办的说话人识别评测(NIST SRE 2008、2010、2012、2016、2018、2019和2020),国际权威评测
NIST SRE 2012,清华大学系统1项指标(5项指标)获世界第4名,4/65
NIST SRE 2016,清华联队的系统性能指标(最小检测代价)获世界第3名,亚洲第1
NIST SRE 2019,清华联队的系统性能指标获世界第5名,亚洲第1
NIST SRE 2020,清华联队的系统性能指标暂列(2020.10)世界第2名,亚洲第1