index_zh.html

<html>
<head>

    <meta http-equiv="Content-Type" content="text/html">
    <meta name="description" content="***">
    <meta name="keywords" content="俞凯，上海交通大学">
    <meta charset="UTF-8">

    <font face="Times New Roman,SimSun"> </font>
    <title>  俞凯，上海交通大学</title>

    <style>
        .tag {
            position: relative;
            left: 0;
            color: white; /* 标签文字颜色 */
            padding: 2px 5px; /* 标签内边距 */
            border-radius: 3px; /* 圆角边框 */
            font-size: 12px; /* 文字大小 */
        }

        .blue-tag {
            background-color: #3498db;
        }

        .red-tag {
            background-color: #e74c3c;
        }

        .green-tag {
            background-color: #2ecc71;
        }

        .yellow-tag {
            background-color: #f1c40f;
        }
    </style>

</head>

<body>
<table>
    <tr>
        <th></th>
        <th></th>
        <th></th>

    <tr>
        <td><img src="kaiyu.jpeg" width=200 alt="a photo"></td>
        <td>&nbsp;&nbsp;&nbsp;</td>

        <td><h1> 俞凯 </h1>
            </p>
            <strong>特聘教授</strong></br>
            <a style="text-decoration:none" href="https://x-lance.sjtu.edu.cn/" target="_blank">跨媒体语言智能实验室（X-LANCE）</a></br>
            <a style="text-decoration:none" href="https://www.cs.sjtu.edu.cn/index.aspx" target="_blank">计算机科学与工程系</a></br>
            <a style="text-decoration:none" href="https://www.sjtu.edu.cn/" target="_blank">上海交通大学</a></br>
            </br>
            邮箱: kai.yu [AT] sjtu [DOT] edu [DOT] cn</br>
            地址: 上海市闵行区东川路800号上海交通大学计算机科学与工程系 200240</br>
            </br>
            <a style="text-decoration:none" href="./index.html" target="_blank">[English]</a>|[中文]
        </td>


</table>


<hr>

<h3>个人介绍</h3>
<!--&nbsp;&nbsp;&nbsp;&nbsp; 俞凯，现任上海交通大学计算机科学与工程系特聘教授、博导，思必驰公司联合创始人、首席科学家。国家“万人计划”科技创新领军人才，曾获国家自然科学基金委青年优青、上海市“东方学者”特聘教授。清华大学自动化系本科、硕士，英国剑桥大学工程系博士。长期从事人工智能领域的智能语音及语言处理、人机交互、模式识别及机器学习的研究和产业化工作。在语音识别及合成、自然语言理解 、口语对话系统、认知型人机交互等方面取得了一系列国际先进的研究、工程和产业化成果。在国际一流会议和期刊发表论文200余篇，获得Computer Speech and Language，Speech Communication 等顶级期刊最优论文奖和Interspeech等多个顶级国际会议优秀论文奖，在语音识别、对话系统等一系列国际评测中获得冠军。他是国际电子电气工程师协会（IEEE）高级会员，中国大陆高校首个IEEE Speech and Language Processing Technical Committee 委员（2017-2019），IEEE Transactions on Audio Speech and Language Processing 副主编，曾任Interspeech等国际会议程序委员会主席，ACL、EMNLP等国际会议研究领域主席。-->
<p>
现任上海交通大学计算机科学与工程系特聘教授、博导，计算机系智能人机交互研究所所长，上海交通大学人工智能研究院语音及语言处理中心主任，思必驰公司联合创始人及首席科学家。国家高层次人才项目获得者，科技部中青年科技创新领军人才，国家自然科学基金委优青，上海市“东方学者”特聘教授，上海市欧美同学会副会长兼人工智能分会会长。清华大学自动化系本科（1999）、硕士（2002），英国剑桥大学工程系博士（2006）。2012年回国在上海交通大学创立智能语音实验室（SpeechLab），后扩展并更名为跨媒体语言智能实验室（X-LANCE）。
</p>
<p>
研究兴趣主要集中在人工智能领域，尤其是以对话为核心的智能语音及自然语言处理，涵盖了语音信号处理、语音识别及合成、音频分析、语言理解、对话管理、语言基础模型、多模态语音及语言处理等方面。研究目标是构建认知型对话智能体，它可以在复杂的现实环境中运行，处理不确定性，以人性化的方式传递信息并通过与环境交互而不断进化。已在国际一流的会议和期刊上发表了200余篇论文，并获得了包括Computer Speech and Language、Speech Communication等顶级期刊的最优论文奖，Interspeech等多个顶级国际会议的优秀论文奖，以及一系列国际研究评测的冠军。现任IEEE高级会员，作为中国大陆高校首位入选者，曾任 IEEE Speech and Language Processing Technical Committee 委员，IEEE/ACM Transactions on Audio Speech and Language Processing 副主编，现任IEEE 信号处理分会会议事务理事会、会员事务理事会理事。曾任Interspeech、ICMI、SigDial等国际会议的程序委员会主席，全国人机语音通讯会议大会主席，以及ACL、EMNLP等国际会议的研究领域主席。现任中国计算机学会（CCF）杰出会员，CCF第十三届理事会理事，CCF语音对话及听觉专委会主任，中文信息学会（CIPSC）第九届理事会理事，CIPSC语音信息处理专委会副主任；中国人工智能产业联盟（AIIA）学术及知识产权组组长，工信部人工智能关键技术和应用评测重点实验室学术委员会委员，第四届全国计算机科学技术名词审定委员会委员，全国信标委用户界面分委会（TC28/SC35）委员，世界顶尖科学家论坛青年科学家委员会委员。
</p>
<p>
相关研究成果不仅在学术界得到了认可，也成功实现了大规模产业化。作为联合创始人创立“思必驰信息科技有限公司”，任首席科学家，进行智能口语对话交互技术的产业化。思必驰公司因在人工智能技术和产业化方面的领先性，2016年作为中国仅有的两家人工智能创业公司之一，入选高盛发布的全球人工智能报告中的“Key AI Players”；2017年作为中国仅有的三家人工智能公司之一，入选国际权威IT咨询机构Gartner发布的“Cool Vendors for AI (East Asia)”列表。2022年，思必驰被科技部授予“语言计算国家新一代人工智能开放创新平台”，成为国家级的人工智能战略力量。
</p>

<hr>

<h3> 上海交通大学跨媒体语言智能实验室 </h3>
&nbsp;&nbsp;&nbsp;&nbsp; <font color="DarkRed"><i>我们正在招募对智能语音和自然语言处理有浓厚兴趣，并且具备自我驱动力，致力于解决真实世界难题的博士/硕士/本科生和博士后，欢迎发送简历联系。 </i></font><br/>


<h4>研究兴趣</h4>
<ul>
    <li> <i> 语音及音频信息处理：</i> 神经语音信号处理，鲁棒语音及声纹识别，高逼真度语音合成，丰富音频分析及听觉认知，多模态语音处理及通用语音大模型 </li>
    <li> <i> 自然语言处理：</i> 意图及结构化语言理解，知识问答及阅读理解，统计对话系统，多语种语言处理，语言基础大模型，大模型智能体系统 </li>
    <li> <i> 多模态交互：</i> 可控数字人，图形界面理解及交互，科学通用智能体 </li>
</ul>


<!--<h4>Students</h4>
<ul>
    <li>Lu Chen (Ph.D., -)</li>
    <li>Ruisheng Cao (Ph.D., 2021.3-)</li>
    <li>Danyang Zhang (Ph.D., 2020.9-)</li>
    <li>Zihan Zhao (Ph.D., 2020.9-)</li>
    <li>Hongshen Xu (Ph.D., 2019.9-)</li>
    </p>
</ul>
-->
<hr>


<h3> 论文摘选 <a class="grey" href="https://scholar.google.com/citations?user=APssqUMAAAAJ&hl=zh-CN">[Google Scholar]</a><a class="grey" href="./publication_2023.pdf">[More Papers]</a></p></h3>

<!-- </td></tr></table> -->

<h4>语音及音频信息处理</h4>
    <ul>
        <li>
        <p><span class="tag blue-tag">ASR</span> <b>TDT-KWS: Fast and Accurate Keyword Spotting Using Token-and-duration Transducer</b><br/>
            Yu Xi, Hao Li, Baochen Yang, Haoyu Li, Hainan Xu and <b>Kai Yu</b><br/>

            ICASSP 2024
            <!-- <a class="grey" href="https://arxiv.org/abs/2308.13149">[Paper]</a><a class="grey" href="https://bai-scieval.duiopen.com/#/">[Website]</a></p> -->
        </li>
        <p><span class="tag blue-tag">Signal</span> <b>Speech Enhancement With Integration of Neural Homomorphic Synthesis and Spectral Masking</b><br/>
            Wenbin Jiang and <b>Kai Yu</b><br/>

            IEEE/ACM Transactions on Audio, Speech, and Language Processing, vol. 31, pp. 1758-1770, 2023
            <!-- <a class="grey" href="https://arxiv.org/abs/2308.13149">[Paper]</a><a class="grey" href="https://bai-scieval.duiopen.com/#/">[Website]</a></p> -->
        </li>
        <li>
        <p><span class="tag blue-tag">TTS</span> <b>Text-To-Speech With Latent Diffusion</b><br/>
            Zhijun Liu, Yiwei Guo and <b>Kai Yu</b><br/>

            ICASSP 2023
            <!-- <a class="grey" href="https://arxiv.org/abs/2308.13149">[Paper]</a><a class="grey" href="https://bai-scieval.duiopen.com/#/">[Website]</a></p> -->
        </li>
        <li>
        <p><span class="tag blue-tag">TTS</span> <b>VQTTS: High-Fidelity Text-to-Speech Synthesis with Self-Supervised VQ Acoustic Feature</b><br/>
            Chenpeng Du, Yiwei Guo, Xie Chen and <b> Kai Yu </b> <br/>
            Interspeech 2022
        </li>
        <li>
        <p><span class="tag blue-tag">RAA</span> <b>Towards Duration Robust Weakly Supervised Sound Event Detection</b><br/>
            Heinrich Dinkel, Mengyue Wu and <b> Kai Yu </b> <br/>
            IEEE/ACM Transactions on Audio, Speech, and Language Processing, vol. 29, pp. 887-900, 2021
        </li>
    </ul>

<h4>自然语言处理</h4>
    <ul>
        <li>
        <p><span class="tag red-tag">LLM</span> <b>SciEval: A Multi-Level Large Language Model Evaluation Benchmark for Scientific Research</b><br/>
            Liangtai Sun, Yang Han, Zihan Zhao, Da Ma, Zhennan Shen, Baocai Chen, Lu Chen and <b>Kai Yu</b><br/>

            AAAI 2024
            <!-- <a class="grey" href="https://arxiv.org/abs/2308.13149">[Paper]</a><a class="grey" href="https://bai-scieval.duiopen.com/#/">[Website]</a></p> -->
        </li>
        <li>
        <p><span class="tag red-tag">LLM</span> <b>Large Language Models Are Semi-Parametric Reinforcement Learning Agents.</b><br/>
            Danyang Zhang, Lu Chen, Situo Zhang, Hongshen Xu, Zihan Zhao and <b>Kai Yu</b><br/>

            NeurIPS 2023
            <!-- <a class="grey" href="https://arxiv.org/abs/2308.13149">[Paper]</a><a class="grey" href="https://bai-scieval.duiopen.com/#/">[Website]</a></p> -->
        </li>
        <li>
        <p><span class="tag red-tag">NLP</span> <b>A Heterogeneous Graph to Abstract Syntax Tree Framework for Text-to-SQL</b><br/>
            Ruisheng Cao, Lu Chen, Jieyu Li, Hanchong Zhang, Hongshen Xu, Wangyou Zhang, <b>Kai Yu</b> <br/>
            IEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI), vol. 45, no. 11, pp. 13796-13813, 2023
        </li>
        <p><span class="tag red-tag">NLP</span> <b>OPAL: Ontology-Aware Pretrained Language Model for End-to-End Task-Oriented Dialogue</b><br/>
            Zhi Chen, Yuncong Liu, Lu Chen, Su Zhu, Mengyue Wu and <b>Kai Yu</b> <br/>
            Transactions of the Association for Computational Linguistics (TACL), vol.11, pp. 68-84, 2022
        </li>
        <li>
        <p><span class="tag red-tag">NLP</span> <b>LGESQL: Line Graph Enhanced Text-to-SQL Model with Mixed Local and Non-Local Relations</b><br/>
            Ruisheng Cao, Lu Chen, Zhi Chen, Yanbin Zhao, Su Zhu and <b>Kai Yu</b> <br/>
            ACL 2021
        </li>
    </ul>
<h4>多模态交互</h4>
    <ul>
        <li>
        <p><span class="tag green-tag">Avatar</span> <b>DIFFDUB: Person-generic Visual Dubbing Using Inpainting Renderer with Diffusion Auto-encoder</b><br/>
            Tao Liu, Chenpeng Du, Shuai Fan, Feilong Chen and <b>Kai Yu</b><br/>

            ICASSP 2024
            <!-- <a class="grey" href="https://arxiv.org/abs/2308.13149">[Paper]</a><a class="grey" href="https://bai-scieval.duiopen.com/#/">[Website]</a></p> -->
        </li>
        <li>
        <p><span class="tag green-tag">Avatar</span> <b>DAE-Talker: High Fidelity Speech-Driven Talking Face Generation with Diffusion Autoencoder</b><br/>
            Chenpeng Du, Qi Chen, Tianyu He, Xu Tan, Xie Chen, <b>Kai Yu</b>, Sheng Zhao and Jiang Bian<br/>

            ACM-MM 2023
            <!-- <a class="grey" href="https://arxiv.org/abs/2308.13149">[Paper]</a><a class="grey" href="https://bai-scieval.duiopen.com/#/">[Website]</a></p> -->
        </li>
        <li>
        <p><span class="tag green-tag">GUI</span> <b>Towards Multi-modal Conversational Agents on Mobile GUI</b><br/>
            Liangtai Sun, Xingyu Chen, Lu Chen, Tianle Dai, Zichen Zhu and <b>Kai Yu</b><br/>

            EMNLP 2022
            <!-- <a class="grey" href="https://arxiv.org/abs/2308.13149">[Paper]</a><a class="grey" href="https://bai-scieval.duiopen.com/#/">[Website]</a></p> -->
        </li>
        <li>
        <p><span class="tag green-tag">GUI</span> <b>TIE: Topological Information Enhanced Structural Reading Comprehension on Web Pages</b><br/>
            Zihan Zhao, Lu Chen, Ruisheng Cao, Hongshen Xu, Xingyu Chen and <b>Kai Yu</b><br/>

            NAACL 2022
            <!-- <a class="grey" href="https://arxiv.org/abs/2308.13149">[Paper]</a><a class="grey" href="https://bai-scieval.duiopen.com/#/">[Website]</a></p> -->
        </li>
    </ul>

<hr>
<h3> 专业资质与服务任职 </h3>

<h4> 国际电子电气工程师协会 (IEEE)</h4>
    <ul>
        <li> IEEE 高级会员 </li>
        <li> IEEE 信号处理分会会议事务理事会理事 </li>
        <li> IEEE 信号处理分会会员事务理事会理事 </li>
        <li> IEEE 语音及语言处理技术委员会委员 (2017-2019) </li>
        <li> IEEE/ACM Transactions on Audio Speech and Language Processing 副主编（2019-2024）</li>
    </ul>

<h4> 中国计算机学会 (CCF)</h4>
    <ul>
        <li> CCF 杰出会员 </li>
        <li> CCF 第十三届理事会理事 </li>
        <li> CCF 语音对话及听觉专委会主任 </li>
        <li> CCF 企智会（苏州）副主席 </li>
        <li> CCF 大模型论坛常务委员 </li>
    </ul>

<h4> 中文信息学会 (CIPSC)</h4>
    <ul>
        <li> CIPSC 第九届理事会理事 </li>
        <li> CIPSC 语音信息处理专委会副主任 </li>
    </ul>

<h4> 产业界服务任职 </h4>
    <ul>
        <li> 科技部语言计算国家人工智能开放创新平台主任 </li> 
        <li> 工信部人工智能关键技术和应用评测重点实验室学术委员会委员 </li>
        <li> 全国信标委用户界面分委会（TC28/SC35）委员 </li>
        <li> 第四届全国计算机科学技术名词审定委员会委员 </li>
        <li> 中国人工智能产业联盟（AIIA）学术及知识产权组组长 </li>
        <li> 中国语音产业联盟技术工作组副组长 </li>
    </ul>

<h4> 其它服务任职 </h4>
    <ul>
        <li> 上海市欧美同学会副会长 </li>
        <li> 上海市欧美同学会人工智能分会会长 </li>
        <li> 世界顶尖科学家论坛青年科学家委员会委员 </li> 
    </ul>

<h4> 学术会议服务 </h4>
    <ul>
        <li> <b>ICASSP</b> </li>
            <ul><li> IEEE 语音语言处理技术委员会委员 </li></ul>
        <li> <b>Interspeech</b> </li>
            <ul><li> 程序委员会主席，研究领域主席（语音识别/对话系统） </li></ul>
        <li> <b>EUSIPCO</b></li>
            <ul><li> 研究领域主席（语音处理） </li></ul>
        <li> <b>ACL</b> </li>
            <ul><li> 滚动审稿机制下的（高级）领域主席/主审稿人/执行编辑（对话系统/语音处理） </li></ul>
        <li> <b>NAACL</b></li>
            <ul><li> 滚动审稿机制下的领域主席/主审稿人/执行编辑（对话系统） </li></ul>
        <li> <b>EMNLP</b> </li>
            <ul><li> 滚动审稿机制下的领域主席/主审稿人/执行编辑（对话系统） </li></ul>
        <li> <b>NeurIPS</b> </li>
            <ul><li> 研究领域主席 </li></ul>
        <li> <b>SigDial</b> </li>
            <ul><li> 程序委员会主席 </li></ul>
        <li> <b>ICMI</b> </li>
            <ul><li> 程序委员会主席 </li></ul>
        <li> <b>全国人机语音通讯会议（NCMMSC）</b> </li>
            <ul><li> 大会主席，程序委员会主席 </li></ul>
    </ul>

<h4> 评审人 </h4>
    <ul>
        <li> <b> 期刊 </b> </li>
        <ul>
            <li> IEEE/ACM Transactions on Audio, Speech, and Language Processing </li>
            <li> IEEE Transactions on Pattern Analysis and Machine Intelligence </li>
            <li> IEEE Signal Processing Letters </li>
            <li> IEEE Signal Processing Magazine </li>
            <li> Speech Communication </li>
            <li> Computer Speech and Language </li>
            <li> 计算机学报 </li>
            <li> 自动化学报 </li>
        </ul>
        <li> <b> 会议 </b> </li>
        <ul>
            <li> ICASSP, Interspeech, IEEE ASRU, IEEE SLT, APSIPA, ISCSLP, NCMMSC </li>
            <li> ACL/NAACL/EACL, EMNLP, SigDial </li>
            <li> AAAI, NeurIPS </li> 
        </ul>
        <li> <b> 项目及奖项 </b> </li>
        <ul>
            <li> 国家自然科学基金委、科技部、工信部、教育部、中科院 </li>
            <li> 香港研究资助局（RGC） </li>
            <li> 以色列科学基金会（ISF） </li>
            <li> 波兰自然科学基金会 </li>
            <li> 英国工程及物理科学研究理事会（EPSRC） </li>
            <li> 新加坡科学及技术研发局下属科学及工程研究理事会（Science and Engineering Research Council, Agency for Science and Technology Research） </li>
        </ul>
    </ul>

<hr>
<h3> 获奖及荣誉 </h3>

<h4> 最优论文奖 </h4>
    <ul>
        <li> EURASIP Speech Communication 最优期刊论文奖 </li>
        <li> International Symposium on Chinese Spoken Language Processing 最优会议论文奖 </li>
        <li> ISCA Computer Speech and Language 最优期刊论文奖 </li>
        <li> Interspeech 最优会议论文奖 </li>
        <li> IEEE SLT 最优会议论文奖 </li>
        <li> NCMMSC Best 最优会议论文奖 </li>
    </ul>

<h4> 国家及省部级奖励 </h4>
    <ul>
        <li><i> 国家高层次人才计划 </i>
        <li><i> 中青年科技创新领军人才 </i> （科技部） </li>
        <li><i> 优秀青年科学基金 </i> （自然科学基金委） </li>
        <li><i> 中国专利奖优秀奖 </i> （国家知识产权局） </li>
        <li><i> “东方学者”特聘教授 </i> （上海市教委） </li>
    </ul>

<h4> 专业协会奖励 </h4>
    <ul>
        <li><i> 青竹奖 </i> （中国计算机学会） </li>
        <li><i> 前沿学科讲座（ADL）杰出讲者 </i>  （中国计算机学会） </li>
        <li><i> 吴文俊人工智能科技奖进步奖二等奖 </i> （中国人工智能学会）</li>
        <li><i> 吴文俊人工智能科技奖自然奖一等奖 </i> （中国人工智能学会） </li>
    </ul>

<h4> 其它奖励 </h4>
    <ul>
        <li><i> 科学中国人年度人物（2016） </i> （《科学中国人》杂志社） </li>
    </ul>

<hr>
</br>
<!--<hr>
<h3>Teaching</h3>
<ul>
    <li><a href=""><i>Natural Language Processing</i></a> for CS&AI undergraduates at SJTU, 2021/2022/2023 Fall</li>
    <li><a href=""><i>Knowledge Representation and Reasoning</i></a> for AI undergraduates at SJTU, 2022/2023/2024 Spring</li>
    </p>
</ul>

<hr>
-->

<div class="content footer">
    Last updated on <font color="DarkRed">2024-12-20</font>.
<!--     Visitor number: <a href="https://www.hitwebcounter.com" target="_blank">
    <img src="https://hitwebcounter.com/counter/counter.php?page=7804457&style=0027&nbdigits=8&type=page&initCount=0" title="Free Counter" Alt="web counter" border="0"/></a>
 -->
</div>


</body>
</font>
</html>