-
Notifications
You must be signed in to change notification settings - Fork 1
/
Copy pathabout.html
279 lines (235 loc) · 9.55 KB
/
about.html
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
132
133
134
135
136
137
138
139
140
141
142
143
144
145
146
147
148
149
150
151
152
153
154
155
156
157
158
159
160
161
162
163
164
165
166
167
168
169
170
171
172
173
174
175
176
177
178
179
180
181
182
183
184
185
186
187
188
189
190
191
192
193
194
195
196
197
198
199
200
201
202
203
204
205
206
207
208
209
210
211
212
213
214
215
216
217
218
219
220
221
222
223
224
225
226
227
228
229
230
231
232
233
234
235
236
237
238
239
240
241
242
243
244
245
246
247
248
249
250
251
252
253
254
255
256
257
258
259
260
261
262
263
264
265
266
267
268
269
270
271
272
273
274
275
276
277
278
---
layout: page
title: "ME"
description: "Love TTS, Love ML"
header-img: "img/post-bg-about.jpg"
---
<!-- Language Selector -->
<!-- <select class="sel-lang" onchange= "onLanChange(this.options[this.options.selectedIndex].value)">
<option value="0" selected> 中文 Chinese </option>
<option value="1"> 英文 English </option>
</select> -->
<!-- Chinese Version -->
<div class="zh post-container">
<h2 align="center"> resume</h2>
<!--
<table style="table-layout: fixed;" border="1" width="100%" cellspacing="0" cellpadding="2">
<tr>
<td colspan="4" align="center"><b style="color:blue" >基本信息</b></td>
</tr>
<tr>
<td>学历</td>
<td>硕士研究生</td>
<td>政治面貌</td>
<td>中共党员</td>
</tr>
<tr>
<td>籍贯</td>
<td>山东临沂</td>
<td>邮箱</td>
<td style="word-break:break-all;"><a href="[email protected]">[email protected]</a></td>
</tr>
<tr>
<td>个人博客</td>
<td><a href="https://zhuxiaoxuhit.github.io">zhuxiaoxuhit.github.io</a></td>
<td>工作职位</td>
<td>TTS算法工程师</td>
</tr>
<tr>
<td colspan="4" align="center"><b style="color:blue">教育背景</b></td>
</tr>
<tr>
<td>2017.09 - 2019.09</td>
<td><b>圣彼得堡国立技术大学</b></td>
<td>信息与计算技术</td>
<td>硕士研究生</td>
</tr>
<tr>
<td>2012.09 - 2016.07</td>
<td><b>哈尔滨工业大学</b></td>
<td>材料成型及控制工程</td>
<td>本科</td>
</tr>
<tr>
<td colspan="4" align="center"><b style="color:blue">工作经历</b></td>
</tr>
<tr>
<td >2019.10-现在</td>
<td colspan="2" >北京市商汤科技开发有限公司</td>
<td >语音算法工程师</td>
</tr>
<tr>
<td colspan="4" align="center"><b style="color:blue">项目经验</b></td>
</tr>
<tr>
<td colspan="2" >2020.03-2021.01</td>
<td colspan="2" ><b>Multiband LPCNet声码器(主要负责)</b></td>
</tr>
<tr>
<td colspan="4" >
1) Bunched 和 Mulitband LPCNet算法实现、优化与工程推理。Bundched单线程推理速度为4.2倍实时, Mulltiband推理速度为5.3倍实时。目前已上线送餐机器人。</br>
2) pqmf算法C代码推理实现与优化; GRUB预计算加速; Protobuf模型序列化。</br>
</td>
</tr>
<tr>
<td colspan="2" >2021.02-现在</td>
<td colspan="2" ><b>HIFI-GAN声码器(主要负责)</b></td>
</tr>
<tr>
<td colspan="4" >Multiband HIFIGAN算法实现以及工程推理(ORT)。单线程推理速度为9.6倍实时(initial up256)。目前正在走测试流程。</td>
</tr>
<tr>
<td colspan="2" >2020.03-2020.05</td>
<td colspan="2" ><b>ONNXRUNTIME cpu c++ 推理(主要负责)</b></td>
</tr>
<tr>
<td colspan="4" >Tacotron2和HIFI-GAN的工程推理与接入线上模块。Tacotron2+Bunched LPCNet整体多线程(48核心)推理速度为9倍实时。Tacotron2+Multiband LPCNet多线程下长文本合成速度约为25倍实时,短文本实时率约为13倍实时。</td>
</tr>
<tr>
<td colspan="2" >2021.03.01-现在</td>
<td colspan="2" ><b>多音字消歧预研(主要负责)</b></td>
</tr>
<tr>
<td colspan="4" >贝壳科技方案的算法实现(word vector+LSTM+Conv+mask vector)。目前前端多音字预测准确率为91%。</td>
</tr>
<tr>
<td colspan="2" >2020.01-2020.12</td>
<td colspan="2" ><b>个性化合成(参与)</b></td>
</tr>
<tr>
<td colspan="4" >Tacotron+LPCNet多讲话人迭代方案。主要工作为Tacotron2多讲话人基础模型训练以及GTA数据的声码器的增量训练。已上线微信小程序。</td>
</tr>
<tr>
<td colspan="2" >2019.10-2020.01</td>
<td colspan="2" ><b>一句话复刻(主要负责)</b></td>
</tr>
<tr>
<td colspan="4" >声纹预训练模型+Tacotron声学模型+WORLD声码器方案,效果不满足上线要求。</td>
</tr>
<tr>
<td colspan="2" >2019.02-2019.07</td>
<td colspan="2" ><b>基于深度学习的语音合成系统开发(毕设论文)</b></td>
</tr>
<tr>
<td colspan="4">基于tacotron开发了seq2seq-CWRNN-attention模型,一个端到端的语音合成系统,实现了从字符级别到梅尔波谱级别的映射:特征提取环节使用了CNN,ResNet和MultiLSTM;编码器中使用CWRNN来减少训练参数的数量; 解码器使用LSTM提高了映射精度。工作过程中在编码器解码器部分进行了不同RNN变种的尝试并且进行针对合成自然度的MOS测试,在自然度方面表现很出色。</td>
</tr>
<tr>
<td colspan="4">所有项目的demo展示页<a href="https://zhuxiaoxuhit.github.io/demo/demo_resume_2021.html"><b>demo page</b></a></td>
</tr>
<tr>
<td colspan="4" align="center"><b style="color:blue">语音合成专利</b></td>
</tr>
<tr>
<td colspan="2" >2020.10-2021.3</td>
<td colspan="2" ><b><a href="https://zhuanli.tianyancha.com/c09359838083f466f00641683f8222ce">残差网络的训练和语音合成方法、装置、设备及介质</a>(主要负责)</b></td>
</tr>
<tr>
<td colspan="4" >提出一种使用Mel谱作为输入的残差网络,采用GMM方案采样,计算过程使用浮点数,World声码器的预测结果作为condition,对网络结构进行精简。</td>
</tr>
<tr>
<td colspan="4" align="center" ><b style="color:blue">个人技能</b></td>
</tr>
<tr>
<td colspan="4" >
1) 掌握一套成熟的端到端参数合成方案(整体TTS流程推理速度超过10倍实时):数据标注-前端(分词,词性,韵律,多音字)-声学模型(Tacotron2)-神经网络声码器(Multiband LPCNet,HIFIGAN),一种个性化合成实现方案;<br/>
2) 熟悉声音转换方案,语音去噪方案以及常用的语音处理库(librosa,sox,scipy等);<br/>
3) 理解常用的数据结构,算法设计以及常用机器学习算法;<br/>
4) 熟悉Linux系统下项目开发;<br/>
5) 熟悉Python,matlab以及C++编程;<br/>
6) 掌握扎实的俄语、英语基本功,能够很好地阅读俄语、英语资料,撰写学术论文。<br/>
</td>
</tr>
</table>
-->
</div>
<!-- English Version -->
<!-- <div class="en post-container">
<blockquote><p>Yet another iOS Developer. <br>
Yet another Life-long Student.</p></blockquote>
<p>Hi, I am <strong>Baiying Qiu</strong>,you can call me <strong>BY</strong>. I am an iOS software engineer and currently working in Xiamen</p>
<p>This is my personal blog, through making Github Pages and Jekyll.My GitHub 👉 <a href="http://github.com/qiubaiying">Github·BY</a>.</p>
<p>I am a sports enthusiast, I like fitness, running and boxing.</p>
<h5>Talks</h5>
<ul>
<li><a href="https://github.com">GitHub</a></li>
<li><a href="http://jekyll.com.cn/">jekyll</a></li>
<li><a href="https://pages.github.com/">GitHub Pages</a></li>
<li><a href="https://qiubaiying.github.io">BY</a></li>
</ul>
</div> -->
<!-- Handle Language Change -->
<script type="text/javascript">
// get nodes
var $zh = document.querySelector(".zh");
var $en = document.querySelector(".en");
var $select = document.querySelector("select");
// bind hashchange event
window.addEventListener('hashchange', _render);
// handle render
function _render(){
var _hash = window.location.hash;
// en
if(_hash == "#en"){
$select.selectedIndex = 1;
$en.style.display = "block";
$zh.style.display = "none";
// zh by default
}else{
// not trigger onChange, otherwise cause a loop call.
$select.selectedIndex = 0;
$zh.style.display = "block";
$en.style.display = "none";
}
}
// handle select change
function onLanChange(index){
if(index == 0){
window.location.hash = "#zh"
}else{
window.location.hash = "#en"
}
}
// init
_render();
</script>
<!-- Gitalk 评论 start -->
{% if site.gitalk.enable %}
<!-- Gitalk link -->
<link rel="stylesheet" href="https://unpkg.com/gitalk/dist/gitalk.css">
<script src="https://unpkg.com/gitalk@latest/dist/gitalk.min.js"></script>
<div id="gitalk-container"></div>
<script type="text/javascript">
var gitalk = new Gitalk({
clientID: '{{site.gitalk.clientID}}',
clientSecret: '{{site.gitalk.clientSecret}}',
repo: '{{site.gitalk.repo}}',
owner: '{{site.gitalk.owner}}',
admin: ['{{site.gitalk.admin}}'],
distractionFreeMode: {{site.gitalk.distractionFreeMode}},
id: 'about',
});
gitalk.render('gitalk-container');
</script>
{% endif %}
<!-- Gitalk end -->
<!-- disqus 评论框 start -->
{% if site.disqus.enable %}
<div class="comment">
<div id="disqus_thread" class="disqus-thread">
</div>
</div>
<!-- disqus 评论框 end -->
<!-- disqus 公共JS代码 start (一个网页只需插入一次) -->
<script type="text/javascript">
/* * * CONFIGURATION VARIABLES * * */
var disqus_shortname = "{{site.disqus.username}}";
var disqus_identifier = "{{site.disqus.username}}/{{page.url}}";
var disqus_url = "{{site.url}}{{page.url}}";
(function() {
var dsq = document.createElement('script'); dsq.type = 'text/javascript'; dsq.async = true;
dsq.src = '//' + disqus_shortname + '.disqus.com/embed.js';
(document.getElementsByTagName('head')[0] || document.getElementsByTagName('body')[0]).appendChild(dsq);
})();
</script>
<!-- disqus 公共JS代码 end -->
{% endif %}