SlideShare a Scribd company logo
1 of 13
03/06/2019©Daiki Sekizawa,
The University of Tokyo
外国人留学生日本語の音声合成における
話者性を保持した韻律補正
☆関澤 太樹 (東京大学)
高道 慎之介,猿渡 洋 (東大院・情報理工)
音響学会 2019春 2-10-2 (2019/03/06)
/12
概要
 背景:ノンネイティブ音声のテキスト音声合成
– 利点:当該話者の話者性を強く反映
– 欠点:合成音声の自然性を大きく劣化
 従来法:日本人英語の音声合成のための韻律補正 [Oshima16]
– 日本語と英語の韻律(強勢・リズム)の違いに着目
– HMM音声合成 [Tokuda13] における部分的なモデル適応
• この枠組みは,他の言語ペアでも有効か?
 提案法:中国人留学生日本語の音声合成のための韻律補正
– 中国語と日本語の韻律の違いに着目し,部分的モデル適応
2
日本語合成音声の話者性を保持したまま,自然性を大幅に改善
/12
HMM音声合成
3
[Tokuda13]
テキスト 収録音声
テキスト
解析
音声分析
スペクトル
音源
パワー
継続長
話者依存
HMMデータベース
テキスト 合成音声
テキスト
解析
音声合成
学習部
生成部
/12
日本人英語の音声合成のための
韻律補正
 韻律の違い
– 日本語:モーラ等時性・ピッチアクセント
– 英語:ストレス等時性・ストレスアクセント
 韻律補正法
– 英語母語話者の韻律を利用
4
[Oshima16]
英語母語話者の
HMM
英語母語話者の
英語音声
日本語母語話者の
英語音声
韻律を補正した
日本語母語話者の
HMM
スペクトル
音源
パワー
継続長
スペクトル
音源
パワー
継続長
モデル
適応
パワーと継続長を
補正すればよい!
提案法:
中国人留学生日本語の音声合成の
ための韻律補正
5
/12
中国人留学生日本語の音声合成のための
韻律補正
 韻律の違い
– 中国語:シラブル等時性・声調
– 日本語:モーラ等時性・ピッチアクセント
 韻律補正法
– 日本語母語話者の韻律を利用
6
日本語母語話者の
HMM
日本語母語話者の
日本語音声
中国人留学生の
日本語音声
韻律を補正した
中国人留学生の
HMM
スペクトル
音源
パワー
継続長
スペクトル
音源
パワー
継続長
適応
F0と継続長を
補正すればよい!
適応
/12
更なる適応法の検討
 個人性知覚への影響が小さい動的特徴量の保持を検討
 最終的に,以下の5パターンについて日本語母語話者のHMM
パラメータの保持を検討
– 1. F0の動的特徴量
– 2. メルケプストラムの動的特徴量
– 3. パワーの静的・動的特徴量 [Oshima16]
– 4. 音素継続長 [Oshima16]
– 5. F0の静的・動的特徴量
• 合成時に対数F0を線形変換して留学生のF0レンジに変換[Toda07]
7
中国語と日本語の韻律の違いに由来
実験的評価
留学生の日本語習熟度に依らず,
話者性を保持したまま自然性を改善できる?
8
/12
実験条件
9
日本語母語話者の
音声データ
JSUTコーパス[Sonobe17]に含まれる
単一女性話者による5,000文
中国人留学生の
音声データ
UME-JRFコーパス [Nishina02] に含まれる
女性話者4名による約220文
評価データ UME-JRFコーパス 30文
HMM学習・
音声分析条件
従来研究 [Oshima16] と同じ.
STRAIGHT [Kawahara99] を使用.
留学生の選択法と
日本語習熟度
コーパス中の習熟度(5点満点)に基づき,
低~高習熟度の留学生を選択
F1: 1.50, F2: 2.60, F3: 3.20, F4: 4.05
/12
自然性に関するプリファレンスABテスト
(クラウドソーシングにより25名で評価)
10
継続長補正は習熟度に依らず自然性を改善
F0補正は習熟度の高い1話者のみで有効
補正なし
補正あり
* p < .05
/12
話者性に関するプリファレンスXABテスト
(クラウドソーシングにより25名で評価)
11
継続長・F0補正は,1話者を除き話者性を保持
補正なし
補正あり
* p < .05
/12
まとめ
 目的
– 中国人留学生日本語の音声合成のための韻律補正
 提案法
– HMM音声合成における部分的なモデル適応
– 日本語母語話者のF0・音素継続長・動的特徴量を保持
 結果
– F0と音素継続長は,話者性を保持したまま自然性を改善
– 動的特徴量は有効ではない
 今後の予定
– F0・音素継続長の両方を補正した音声の評価
12
/12
[補足] プリファレンスAB/XABテスト
(クラウドソーシングにより25名で評価)
13
音素継続長を保持した上での, F0補正の効果を検討
F0補正は全話者で有効
音素継続長のみ補正
音素継続長とF0を
ともに補正
* p < .05

More Related Content

What's hot

Nakai22sp03 presentation
Nakai22sp03 presentationNakai22sp03 presentation
Nakai22sp03 presentationYuki Saito
 
高効率音声符号化―MP3詳解―
高効率音声符号化―MP3詳解―高効率音声符号化―MP3詳解―
高効率音声符号化―MP3詳解―Akinori Ito
 
[DL輪読会]Diffusion-based Voice Conversion with Fast Maximum Likelihood Samplin...
[DL輪読会]Diffusion-based Voice Conversion with Fast  Maximum Likelihood Samplin...[DL輪読会]Diffusion-based Voice Conversion with Fast  Maximum Likelihood Samplin...
[DL輪読会]Diffusion-based Voice Conversion with Fast Maximum Likelihood Samplin...Deep Learning JP
 
多様なカートシスを持つ雑音に対応した低ミュージカルノイズ DNN 音声強調
多様なカートシスを持つ雑音に対応した低ミュージカルノイズ DNN 音声強調多様なカートシスを持つ雑音に対応した低ミュージカルノイズ DNN 音声強調
多様なカートシスを持つ雑音に対応した低ミュージカルノイズ DNN 音声強調Shinnosuke Takamichi
 
国際会議 interspeech 2020 報告
国際会議 interspeech 2020 報告国際会議 interspeech 2020 報告
国際会議 interspeech 2020 報告Shinnosuke Takamichi
 
音声の声質を変換する技術とその応用
音声の声質を変換する技術とその応用音声の声質を変換する技術とその応用
音声の声質を変換する技術とその応用NU_I_TODALAB
 
サブバンドフィルタリングに基づくリアルタイム広帯域DNN声質変換の実装と評価
サブバンドフィルタリングに基づくリアルタイム広帯域DNN声質変換の実装と評価サブバンドフィルタリングに基づくリアルタイム広帯域DNN声質変換の実装と評価
サブバンドフィルタリングに基づくリアルタイム広帯域DNN声質変換の実装と評価Shinnosuke Takamichi
 
ICASSP 2019での音響信号処理分野の世界動向
ICASSP 2019での音響信号処理分野の世界動向ICASSP 2019での音響信号処理分野の世界動向
ICASSP 2019での音響信号処理分野の世界動向Yuma Koizumi
 
Moment matching networkを用いた音声パラメータのランダム生成の検討
Moment matching networkを用いた音声パラメータのランダム生成の検討Moment matching networkを用いた音声パラメータのランダム生成の検討
Moment matching networkを用いた音声パラメータのランダム生成の検討Shinnosuke Takamichi
 
音情報処理における特徴表現
音情報処理における特徴表現音情報処理における特徴表現
音情報処理における特徴表現NU_I_TODALAB
 
音源分離 ~DNN音源分離の基礎から最新技術まで~ Tokyo bishbash #3
音源分離 ~DNN音源分離の基礎から最新技術まで~ Tokyo bishbash #3音源分離 ~DNN音源分離の基礎から最新技術まで~ Tokyo bishbash #3
音源分離 ~DNN音源分離の基礎から最新技術まで~ Tokyo bishbash #3Naoya Takahashi
 
時間領域低ランクスペクトログラム近似法に基づくマスキング音声の欠損成分復元
時間領域低ランクスペクトログラム近似法に基づくマスキング音声の欠損成分復元時間領域低ランクスペクトログラム近似法に基づくマスキング音声の欠損成分復元
時間領域低ランクスペクトログラム近似法に基づくマスキング音声の欠損成分復元NU_I_TODALAB
 
音声合成のコーパスをつくろう
音声合成のコーパスをつくろう音声合成のコーパスをつくろう
音声合成のコーパスをつくろうShinnosuke Takamichi
 
ここまで来た&これから来る音声合成 (明治大学 先端メディアコロキウム)
ここまで来た&これから来る音声合成 (明治大学 先端メディアコロキウム)ここまで来た&これから来る音声合成 (明治大学 先端メディアコロキウム)
ここまで来た&これから来る音声合成 (明治大学 先端メディアコロキウム)Shinnosuke Takamichi
 
深層学習を用いた音源定位、音源分離、クラス分類の統合~環境音セグメンテーション手法の紹介~
深層学習を用いた音源定位、音源分離、クラス分類の統合~環境音セグメンテーション手法の紹介~深層学習を用いた音源定位、音源分離、クラス分類の統合~環境音セグメンテーション手法の紹介~
深層学習を用いた音源定位、音源分離、クラス分類の統合~環境音セグメンテーション手法の紹介~Yui Sudo
 
深層学習と音響信号処理
深層学習と音響信号処理深層学習と音響信号処理
深層学習と音響信号処理Yuma Koizumi
 
Onoma-to-wave: オノマトペを利用した環境音合成手法の提案
Onoma-to-wave: オノマトペを利用した環境音合成手法の提案Onoma-to-wave: オノマトペを利用した環境音合成手法の提案
Onoma-to-wave: オノマトペを利用した環境音合成手法の提案Keisuke Imoto
 
WaveNetが音声合成研究に与える影響
WaveNetが音声合成研究に与える影響WaveNetが音声合成研究に与える影響
WaveNetが音声合成研究に与える影響NU_I_TODALAB
 
信号の独立性に基づく多チャンネル音源分離
信号の独立性に基づく多チャンネル音源分離信号の独立性に基づく多チャンネル音源分離
信号の独立性に基づく多チャンネル音源分離NU_I_TODALAB
 

What's hot (20)

Nakai22sp03 presentation
Nakai22sp03 presentationNakai22sp03 presentation
Nakai22sp03 presentation
 
高効率音声符号化―MP3詳解―
高効率音声符号化―MP3詳解―高効率音声符号化―MP3詳解―
高効率音声符号化―MP3詳解―
 
[DL輪読会]Diffusion-based Voice Conversion with Fast Maximum Likelihood Samplin...
[DL輪読会]Diffusion-based Voice Conversion with Fast  Maximum Likelihood Samplin...[DL輪読会]Diffusion-based Voice Conversion with Fast  Maximum Likelihood Samplin...
[DL輪読会]Diffusion-based Voice Conversion with Fast Maximum Likelihood Samplin...
 
多様なカートシスを持つ雑音に対応した低ミュージカルノイズ DNN 音声強調
多様なカートシスを持つ雑音に対応した低ミュージカルノイズ DNN 音声強調多様なカートシスを持つ雑音に対応した低ミュージカルノイズ DNN 音声強調
多様なカートシスを持つ雑音に対応した低ミュージカルノイズ DNN 音声強調
 
Saito2103slp
Saito2103slpSaito2103slp
Saito2103slp
 
国際会議 interspeech 2020 報告
国際会議 interspeech 2020 報告国際会議 interspeech 2020 報告
国際会議 interspeech 2020 報告
 
音声の声質を変換する技術とその応用
音声の声質を変換する技術とその応用音声の声質を変換する技術とその応用
音声の声質を変換する技術とその応用
 
サブバンドフィルタリングに基づくリアルタイム広帯域DNN声質変換の実装と評価
サブバンドフィルタリングに基づくリアルタイム広帯域DNN声質変換の実装と評価サブバンドフィルタリングに基づくリアルタイム広帯域DNN声質変換の実装と評価
サブバンドフィルタリングに基づくリアルタイム広帯域DNN声質変換の実装と評価
 
ICASSP 2019での音響信号処理分野の世界動向
ICASSP 2019での音響信号処理分野の世界動向ICASSP 2019での音響信号処理分野の世界動向
ICASSP 2019での音響信号処理分野の世界動向
 
Moment matching networkを用いた音声パラメータのランダム生成の検討
Moment matching networkを用いた音声パラメータのランダム生成の検討Moment matching networkを用いた音声パラメータのランダム生成の検討
Moment matching networkを用いた音声パラメータのランダム生成の検討
 
音情報処理における特徴表現
音情報処理における特徴表現音情報処理における特徴表現
音情報処理における特徴表現
 
音源分離 ~DNN音源分離の基礎から最新技術まで~ Tokyo bishbash #3
音源分離 ~DNN音源分離の基礎から最新技術まで~ Tokyo bishbash #3音源分離 ~DNN音源分離の基礎から最新技術まで~ Tokyo bishbash #3
音源分離 ~DNN音源分離の基礎から最新技術まで~ Tokyo bishbash #3
 
時間領域低ランクスペクトログラム近似法に基づくマスキング音声の欠損成分復元
時間領域低ランクスペクトログラム近似法に基づくマスキング音声の欠損成分復元時間領域低ランクスペクトログラム近似法に基づくマスキング音声の欠損成分復元
時間領域低ランクスペクトログラム近似法に基づくマスキング音声の欠損成分復元
 
音声合成のコーパスをつくろう
音声合成のコーパスをつくろう音声合成のコーパスをつくろう
音声合成のコーパスをつくろう
 
ここまで来た&これから来る音声合成 (明治大学 先端メディアコロキウム)
ここまで来た&これから来る音声合成 (明治大学 先端メディアコロキウム)ここまで来た&これから来る音声合成 (明治大学 先端メディアコロキウム)
ここまで来た&これから来る音声合成 (明治大学 先端メディアコロキウム)
 
深層学習を用いた音源定位、音源分離、クラス分類の統合~環境音セグメンテーション手法の紹介~
深層学習を用いた音源定位、音源分離、クラス分類の統合~環境音セグメンテーション手法の紹介~深層学習を用いた音源定位、音源分離、クラス分類の統合~環境音セグメンテーション手法の紹介~
深層学習を用いた音源定位、音源分離、クラス分類の統合~環境音セグメンテーション手法の紹介~
 
深層学習と音響信号処理
深層学習と音響信号処理深層学習と音響信号処理
深層学習と音響信号処理
 
Onoma-to-wave: オノマトペを利用した環境音合成手法の提案
Onoma-to-wave: オノマトペを利用した環境音合成手法の提案Onoma-to-wave: オノマトペを利用した環境音合成手法の提案
Onoma-to-wave: オノマトペを利用した環境音合成手法の提案
 
WaveNetが音声合成研究に与える影響
WaveNetが音声合成研究に与える影響WaveNetが音声合成研究に与える影響
WaveNetが音声合成研究に与える影響
 
信号の独立性に基づく多チャンネル音源分離
信号の独立性に基づく多チャンネル音源分離信号の独立性に基づく多チャンネル音源分離
信号の独立性に基づく多チャンネル音源分離
 

Similar to 外国人留学生日本語の音声合成における 話者性を保持した韻律補正

統計的音声合成変換と近年の発展
統計的音声合成変換と近年の発展統計的音声合成変換と近年の発展
統計的音声合成変換と近年の発展Shinnosuke Takamichi
 
HMMに基づく日本人英語音声合成における中学生徒の英語音声を用いた評価
HMMに基づく日本人英語音声合成における中学生徒の英語音声を用いた評価HMMに基づく日本人英語音声合成における中学生徒の英語音声を用いた評価
HMMに基づく日本人英語音声合成における中学生徒の英語音声を用いた評価Shinnosuke Takamichi
 
日本語モーラの持続時間長: 単音節語提示による知覚実験(JSLS2015)
日本語モーラの持続時間長: 単音節語提示による知覚実験(JSLS2015)日本語モーラの持続時間長: 単音節語提示による知覚実験(JSLS2015)
日本語モーラの持続時間長: 単音節語提示による知覚実験(JSLS2015)Kosuke Sugai
 
日本語モーラの心理的実在再考 母音の単独提示による知覚実験
日本語モーラの心理的実在再考 母音の単独提示による知覚実験日本語モーラの心理的実在再考 母音の単独提示による知覚実験
日本語モーラの心理的実在再考 母音の単独提示による知覚実験Kosuke Sugai
 
第3回 京都外国語大学 日本語・日本語
第3回 京都外国語大学 日本語・日本語第3回 京都外国語大学 日本語・日本語
第3回 京都外国語大学 日本語・日本語Marie Adachi
 
JVS:フリーの日本語多数話者音声コーパス
JVS:フリーの日本語多数話者音声コーパス JVS:フリーの日本語多数話者音声コーパス
JVS:フリーの日本語多数話者音声コーパス Shinnosuke Takamichi
 
SLP201805: 日本語韻律構造を考慮した prosody-aware subword embedding とDNN多方言音声合成への適用
SLP201805: 日本語韻律構造を考慮した prosody-aware subword embedding とDNN多方言音声合成への適用SLP201805: 日本語韻律構造を考慮した prosody-aware subword embedding とDNN多方言音声合成への適用
SLP201805: 日本語韻律構造を考慮した prosody-aware subword embedding とDNN多方言音声合成への適用Shinnosuke Takamichi
 
saito2017asj_tts
saito2017asj_ttssaito2017asj_tts
saito2017asj_ttsYuki Saito
 

Similar to 外国人留学生日本語の音声合成における 話者性を保持した韻律補正 (8)

統計的音声合成変換と近年の発展
統計的音声合成変換と近年の発展統計的音声合成変換と近年の発展
統計的音声合成変換と近年の発展
 
HMMに基づく日本人英語音声合成における中学生徒の英語音声を用いた評価
HMMに基づく日本人英語音声合成における中学生徒の英語音声を用いた評価HMMに基づく日本人英語音声合成における中学生徒の英語音声を用いた評価
HMMに基づく日本人英語音声合成における中学生徒の英語音声を用いた評価
 
日本語モーラの持続時間長: 単音節語提示による知覚実験(JSLS2015)
日本語モーラの持続時間長: 単音節語提示による知覚実験(JSLS2015)日本語モーラの持続時間長: 単音節語提示による知覚実験(JSLS2015)
日本語モーラの持続時間長: 単音節語提示による知覚実験(JSLS2015)
 
日本語モーラの心理的実在再考 母音の単独提示による知覚実験
日本語モーラの心理的実在再考 母音の単独提示による知覚実験日本語モーラの心理的実在再考 母音の単独提示による知覚実験
日本語モーラの心理的実在再考 母音の単独提示による知覚実験
 
第3回 京都外国語大学 日本語・日本語
第3回 京都外国語大学 日本語・日本語第3回 京都外国語大学 日本語・日本語
第3回 京都外国語大学 日本語・日本語
 
JVS:フリーの日本語多数話者音声コーパス
JVS:フリーの日本語多数話者音声コーパス JVS:フリーの日本語多数話者音声コーパス
JVS:フリーの日本語多数話者音声コーパス
 
SLP201805: 日本語韻律構造を考慮した prosody-aware subword embedding とDNN多方言音声合成への適用
SLP201805: 日本語韻律構造を考慮した prosody-aware subword embedding とDNN多方言音声合成への適用SLP201805: 日本語韻律構造を考慮した prosody-aware subword embedding とDNN多方言音声合成への適用
SLP201805: 日本語韻律構造を考慮した prosody-aware subword embedding とDNN多方言音声合成への適用
 
saito2017asj_tts
saito2017asj_ttssaito2017asj_tts
saito2017asj_tts
 

More from Shinnosuke Takamichi

JTubeSpeech: 音声認識と話者照合のために YouTube から構築される日本語音声コーパス
JTubeSpeech:  音声認識と話者照合のために YouTube から構築される日本語音声コーパスJTubeSpeech:  音声認識と話者照合のために YouTube から構築される日本語音声コーパス
JTubeSpeech: 音声認識と話者照合のために YouTube から構築される日本語音声コーパスShinnosuke Takamichi
 
J-KAC:日本語オーディオブック・紙芝居朗読音声コーパス
J-KAC:日本語オーディオブック・紙芝居朗読音声コーパスJ-KAC:日本語オーディオブック・紙芝居朗読音声コーパス
J-KAC:日本語オーディオブック・紙芝居朗読音声コーパスShinnosuke Takamichi
 
リアルタイムDNN音声変換フィードバックによるキャラクタ性の獲得手法
リアルタイムDNN音声変換フィードバックによるキャラクタ性の獲得手法リアルタイムDNN音声変換フィードバックによるキャラクタ性の獲得手法
リアルタイムDNN音声変換フィードバックによるキャラクタ性の獲得手法Shinnosuke Takamichi
 
Interspeech 2020 読み会 "Incremental Text to Speech for Neural Sequence-to-Sequ...
Interspeech 2020 読み会 "Incremental Text to Speech for Neural  Sequence-to-Sequ...Interspeech 2020 読み会 "Incremental Text to Speech for Neural  Sequence-to-Sequ...
Interspeech 2020 読み会 "Incremental Text to Speech for Neural Sequence-to-Sequ...Shinnosuke Takamichi
 
P J S: 音素バランスを考慮した日本語歌声コーパス
P J S: 音素バランスを考慮した日本語歌声コーパスP J S: 音素バランスを考慮した日本語歌声コーパス
P J S: 音素バランスを考慮した日本語歌声コーパスShinnosuke Takamichi
 
音響モデル尤度に基づくsubword分割の韻律推定精度における評価
音響モデル尤度に基づくsubword分割の韻律推定精度における評価音響モデル尤度に基づくsubword分割の韻律推定精度における評価
音響モデル尤度に基づくsubword分割の韻律推定精度における評価Shinnosuke Takamichi
 
音声合成研究を加速させるためのコーパスデザイン
音声合成研究を加速させるためのコーパスデザイン音声合成研究を加速させるためのコーパスデザイン
音声合成研究を加速させるためのコーパスデザインShinnosuke Takamichi
 
論文紹介 Unsupervised training of neural mask-based beamforming
論文紹介 Unsupervised training of neural  mask-based beamforming論文紹介 Unsupervised training of neural  mask-based beamforming
論文紹介 Unsupervised training of neural mask-based beamformingShinnosuke Takamichi
 
論文紹介 Building the Singapore English National Speech Corpus
論文紹介 Building the Singapore English National Speech Corpus論文紹介 Building the Singapore English National Speech Corpus
論文紹介 Building the Singapore English National Speech CorpusShinnosuke Takamichi
 
論文紹介 SANTLR: Speech Annotation Toolkit for Low Resource Languages
論文紹介 SANTLR: Speech Annotation Toolkit for Low Resource Languages論文紹介 SANTLR: Speech Annotation Toolkit for Low Resource Languages
論文紹介 SANTLR: Speech Annotation Toolkit for Low Resource LanguagesShinnosuke Takamichi
 
話者V2S攻撃: 話者認証から構築される 声質変換とその音声なりすまし可能性の評価
話者V2S攻撃: 話者認証から構築される 声質変換とその音声なりすまし可能性の評価話者V2S攻撃: 話者認証から構築される 声質変換とその音声なりすまし可能性の評価
話者V2S攻撃: 話者認証から構築される 声質変換とその音声なりすまし可能性の評価Shinnosuke Takamichi
 
差分スペクトル法に基づく DNN 声質変換の計算量削減に向けたフィルタ推定
差分スペクトル法に基づく DNN 声質変換の計算量削減に向けたフィルタ推定差分スペクトル法に基づく DNN 声質変換の計算量削減に向けたフィルタ推定
差分スペクトル法に基づく DNN 声質変換の計算量削減に向けたフィルタ推定Shinnosuke Takamichi
 
音声合成・変換の国際コンペティションへの 参加を振り返って
音声合成・変換の国際コンペティションへの  参加を振り返って音声合成・変換の国際コンペティションへの  参加を振り返って
音声合成・変換の国際コンペティションへの 参加を振り返ってShinnosuke Takamichi
 
ユーザ歌唱のための generative moment matching network に基づく neural double-tracking
ユーザ歌唱のための generative moment matching network に基づく neural double-trackingユーザ歌唱のための generative moment matching network に基づく neural double-tracking
ユーザ歌唱のための generative moment matching network に基づく neural double-trackingShinnosuke Takamichi
 
End-to-end 韻律推定に向けた DNN 音響モデルに基づく subword 分割
End-to-end 韻律推定に向けた DNN 音響モデルに基づく subword 分割End-to-end 韻律推定に向けた DNN 音響モデルに基づく subword 分割
End-to-end 韻律推定に向けた DNN 音響モデルに基づく subword 分割Shinnosuke Takamichi
 
統計的ボイチェン研究事情
統計的ボイチェン研究事情統計的ボイチェン研究事情
統計的ボイチェン研究事情Shinnosuke Takamichi
 
テキスト音声合成技術と多様性への挑戦 (名古屋大学 知能システム特論)
テキスト音声合成技術と多様性への挑戦 (名古屋大学 知能システム特論)テキスト音声合成技術と多様性への挑戦 (名古屋大学 知能システム特論)
テキスト音声合成技術と多様性への挑戦 (名古屋大学 知能システム特論)Shinnosuke Takamichi
 
音声コーパス設計と次世代音声研究に向けた提言
音声コーパス設計と次世代音声研究に向けた提言音声コーパス設計と次世代音声研究に向けた提言
音声コーパス設計と次世代音声研究に向けた提言Shinnosuke Takamichi
 
End-to-end 韻律推定に向けた subword lattice 構造を考慮した DNN 音響モデル学習
End-to-end 韻律推定に向けた subword lattice 構造を考慮した DNN 音響モデル学習End-to-end 韻律推定に向けた subword lattice 構造を考慮した DNN 音響モデル学習
End-to-end 韻律推定に向けた subword lattice 構造を考慮した DNN 音響モデル学習Shinnosuke Takamichi
 
Generative moment matching net に基づく歌声のランダム変調ポストフィルタと double-tracking への応用
Generative moment matching net に基づく歌声のランダム変調ポストフィルタと double-tracking への応用Generative moment matching net に基づく歌声のランダム変調ポストフィルタと double-tracking への応用
Generative moment matching net に基づく歌声のランダム変調ポストフィルタと double-tracking への応用Shinnosuke Takamichi
 

More from Shinnosuke Takamichi (20)

JTubeSpeech: 音声認識と話者照合のために YouTube から構築される日本語音声コーパス
JTubeSpeech:  音声認識と話者照合のために YouTube から構築される日本語音声コーパスJTubeSpeech:  音声認識と話者照合のために YouTube から構築される日本語音声コーパス
JTubeSpeech: 音声認識と話者照合のために YouTube から構築される日本語音声コーパス
 
J-KAC:日本語オーディオブック・紙芝居朗読音声コーパス
J-KAC:日本語オーディオブック・紙芝居朗読音声コーパスJ-KAC:日本語オーディオブック・紙芝居朗読音声コーパス
J-KAC:日本語オーディオブック・紙芝居朗読音声コーパス
 
リアルタイムDNN音声変換フィードバックによるキャラクタ性の獲得手法
リアルタイムDNN音声変換フィードバックによるキャラクタ性の獲得手法リアルタイムDNN音声変換フィードバックによるキャラクタ性の獲得手法
リアルタイムDNN音声変換フィードバックによるキャラクタ性の獲得手法
 
Interspeech 2020 読み会 "Incremental Text to Speech for Neural Sequence-to-Sequ...
Interspeech 2020 読み会 "Incremental Text to Speech for Neural  Sequence-to-Sequ...Interspeech 2020 読み会 "Incremental Text to Speech for Neural  Sequence-to-Sequ...
Interspeech 2020 読み会 "Incremental Text to Speech for Neural Sequence-to-Sequ...
 
P J S: 音素バランスを考慮した日本語歌声コーパス
P J S: 音素バランスを考慮した日本語歌声コーパスP J S: 音素バランスを考慮した日本語歌声コーパス
P J S: 音素バランスを考慮した日本語歌声コーパス
 
音響モデル尤度に基づくsubword分割の韻律推定精度における評価
音響モデル尤度に基づくsubword分割の韻律推定精度における評価音響モデル尤度に基づくsubword分割の韻律推定精度における評価
音響モデル尤度に基づくsubword分割の韻律推定精度における評価
 
音声合成研究を加速させるためのコーパスデザイン
音声合成研究を加速させるためのコーパスデザイン音声合成研究を加速させるためのコーパスデザイン
音声合成研究を加速させるためのコーパスデザイン
 
論文紹介 Unsupervised training of neural mask-based beamforming
論文紹介 Unsupervised training of neural  mask-based beamforming論文紹介 Unsupervised training of neural  mask-based beamforming
論文紹介 Unsupervised training of neural mask-based beamforming
 
論文紹介 Building the Singapore English National Speech Corpus
論文紹介 Building the Singapore English National Speech Corpus論文紹介 Building the Singapore English National Speech Corpus
論文紹介 Building the Singapore English National Speech Corpus
 
論文紹介 SANTLR: Speech Annotation Toolkit for Low Resource Languages
論文紹介 SANTLR: Speech Annotation Toolkit for Low Resource Languages論文紹介 SANTLR: Speech Annotation Toolkit for Low Resource Languages
論文紹介 SANTLR: Speech Annotation Toolkit for Low Resource Languages
 
話者V2S攻撃: 話者認証から構築される 声質変換とその音声なりすまし可能性の評価
話者V2S攻撃: 話者認証から構築される 声質変換とその音声なりすまし可能性の評価話者V2S攻撃: 話者認証から構築される 声質変換とその音声なりすまし可能性の評価
話者V2S攻撃: 話者認証から構築される 声質変換とその音声なりすまし可能性の評価
 
差分スペクトル法に基づく DNN 声質変換の計算量削減に向けたフィルタ推定
差分スペクトル法に基づく DNN 声質変換の計算量削減に向けたフィルタ推定差分スペクトル法に基づく DNN 声質変換の計算量削減に向けたフィルタ推定
差分スペクトル法に基づく DNN 声質変換の計算量削減に向けたフィルタ推定
 
音声合成・変換の国際コンペティションへの 参加を振り返って
音声合成・変換の国際コンペティションへの  参加を振り返って音声合成・変換の国際コンペティションへの  参加を振り返って
音声合成・変換の国際コンペティションへの 参加を振り返って
 
ユーザ歌唱のための generative moment matching network に基づく neural double-tracking
ユーザ歌唱のための generative moment matching network に基づく neural double-trackingユーザ歌唱のための generative moment matching network に基づく neural double-tracking
ユーザ歌唱のための generative moment matching network に基づく neural double-tracking
 
End-to-end 韻律推定に向けた DNN 音響モデルに基づく subword 分割
End-to-end 韻律推定に向けた DNN 音響モデルに基づく subword 分割End-to-end 韻律推定に向けた DNN 音響モデルに基づく subword 分割
End-to-end 韻律推定に向けた DNN 音響モデルに基づく subword 分割
 
統計的ボイチェン研究事情
統計的ボイチェン研究事情統計的ボイチェン研究事情
統計的ボイチェン研究事情
 
テキスト音声合成技術と多様性への挑戦 (名古屋大学 知能システム特論)
テキスト音声合成技術と多様性への挑戦 (名古屋大学 知能システム特論)テキスト音声合成技術と多様性への挑戦 (名古屋大学 知能システム特論)
テキスト音声合成技術と多様性への挑戦 (名古屋大学 知能システム特論)
 
音声コーパス設計と次世代音声研究に向けた提言
音声コーパス設計と次世代音声研究に向けた提言音声コーパス設計と次世代音声研究に向けた提言
音声コーパス設計と次世代音声研究に向けた提言
 
End-to-end 韻律推定に向けた subword lattice 構造を考慮した DNN 音響モデル学習
End-to-end 韻律推定に向けた subword lattice 構造を考慮した DNN 音響モデル学習End-to-end 韻律推定に向けた subword lattice 構造を考慮した DNN 音響モデル学習
End-to-end 韻律推定に向けた subword lattice 構造を考慮した DNN 音響モデル学習
 
Generative moment matching net に基づく歌声のランダム変調ポストフィルタと double-tracking への応用
Generative moment matching net に基づく歌声のランダム変調ポストフィルタと double-tracking への応用Generative moment matching net に基づく歌声のランダム変調ポストフィルタと double-tracking への応用
Generative moment matching net に基づく歌声のランダム変調ポストフィルタと double-tracking への応用
 

Recently uploaded

AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdfAWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdfFumieNakayama
 
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察  ~Text-to-MusicとText-To-ImageかつImage-to-Music...モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察  ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...博三 太田
 
SOPを理解する 2024/04/19 の勉強会で発表されたものです
SOPを理解する       2024/04/19 の勉強会で発表されたものですSOPを理解する       2024/04/19 の勉強会で発表されたものです
SOPを理解する 2024/04/19 の勉強会で発表されたものですiPride Co., Ltd.
 
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdfクラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdfFumieNakayama
 
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineerYuki Kikuchi
 
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案sugiuralab
 
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?akihisamiyanaga1
 
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)UEHARA, Tetsutaro
 
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)Hiroki Ichikura
 

Recently uploaded (9)

AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdfAWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
 
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察  ~Text-to-MusicとText-To-ImageかつImage-to-Music...モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察  ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
 
SOPを理解する 2024/04/19 の勉強会で発表されたものです
SOPを理解する       2024/04/19 の勉強会で発表されたものですSOPを理解する       2024/04/19 の勉強会で発表されたものです
SOPを理解する 2024/04/19 の勉強会で発表されたものです
 
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdfクラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
 
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
 
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
 
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
 
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
 
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
 

外国人留学生日本語の音声合成における 話者性を保持した韻律補正

Editor's Notes

  1. cambridge 座長の人が, 「〜です、よろしくお願いします」 ご紹介ありがとうございます 東京大学の関澤が, このタイトルで発表いたします [メモ: 音声をくっけること]
  2. [ここでいうような, ノンネイティブのそれは, 学習者ということ] [目的や社会的意義は???] [唐突じゃね] 一般に, ノンネイティブ話者の音声を用いたテキスト音声合成では, 当該話者の話者性は強く反映される一方で, 合成音声の, 言語としての自然性は大きく劣化されます. [母語の影響により, という理由説明を含める] この点に対して, 日本人英語学習者の音声合成を目的とした過去の研究では, 日本語と英語の韻律の違いに着目して, 隠れマルコフモデル, HMMの部分的なモデル適応により韻律補正を施し, 日本人英語学習者の英語合成音声を, 当該話者の話者性を保持したまま, その自然性を改善することが可能であるとされました. 「このような, HMMの部分的モデル適応による韻律補正の手法は, 他の言語の組み合わせでも, 有効である可能性が考えられます」 本発表では, この手法を中国人留学生の日本語の音声合成の韻律補正へと応用することにより, 話者性を保持したまま, 言語としての自然性の改善が可能であることを示します. 中国語と日本語の韻律の違いに着目してHMMの部分的のモデル適応を行うことにより, 当該話者の話者性を保持したまま, 自然性を大幅に改善することが可能となります. [他の言語ペアでも有効であるかどうか, の流れ] [実験的評価で, 話者性自然性が改善できることを示します]
  3. [ここで何を説明すべきなのか] ・本研究では, HMM音声合成を利用しました. [聞いている人は, HMM音声合成の枠組みを説明する: 学習部で, どのような処理で何が出来上がるのか. ] 1分くらい使う まず、全体を説明して, 細かいところに入る 大枠: 学習部と生成部があるということをいう 学習部: テキストと収録音声 それに対して, テキスト解析, 音声分析 その結果HMMが出来上がる 音声特徴量は.... 合成部では, [採用します: 基本的に, 理論では, 現在形になる, 結果の報告などは過去形になる] ---------------------------------------------- HMMを用いた音声合成について説明いたします. 音声合成器は, 学習部と合成部によって構成されます. 学習部では, 学習データとして, 収録された音声と, それに対応するテキストを用意します. これらのデータをもとに, テキスト解析により音素列, 音声分析により特徴量の分析を行い, 結果得られたデータをもとに, 話者依存のHMMが作成されます. ここで, HMMにおける特徴量は, スペクトル, 音源, パワー, 継続長を用いました. 生成部では, 学習されたHMMを用いて, テキストを入力, 合成音声を出力とするような音声合成を行います テキストを解析することによって得られる音素列をHMMの入力とすることにより, 音声特徴量が出力され, それを合成することによって, 合成音声が得られます. [学習部では, 学習データとして, テキスト、および, それに対応する収録音声を用意します. テキストデータを解析することにより, 対応する音素列が得られます. また, 収録音声を分析することにより, 基本周波数, メルケプトラム, 等の音声特徴量が得られます. これらの解析の結果得られたデータを用いて, 話者依存のHMMが学習されます.]
  4. 続いて, 日本人英語の音声合成の韻律補正, およびそれを可能とする, HMMの部分的なモデル適応について説明します. ノンネイティブ音声の韻律は, 発話者の母語の影響を受けます. 日本語と英語の韻律の違いとしては, 日本語は, モーラ等時性・ピッチアクセント言語であり, 一方で, 英語は, ストレス等時性・ストレスアクセント言語である, ということが挙げられます. したがって, 日本人英語学習者の合成音声のうち, パワーと継続長を補正することが有効となります. 韻律の補正は, HMMの部分的なモデル適応によってなされます. まず, 英語母語話者のHMMを学習によって生成します. この英語母語話者のHMMをモデル適応することによって, 日本語母語話者のHMMが得られます. (このモデル適応において, パラメータの一部をモデル適応せずに英語母語話者のものを保持することにより, 韻律の補正が可能となります. ) このモデル適応において, 英語と日本語の韻律的な違いを反映する, パワーと継続長を, 日本語話者のパラメータに適応せずに英語母語話者のパラメータを保持することにより, 部分的なモデル適応を行います. これにより, 話者性を反映するとされるスペクトルと音源パラメータを日本語母語話者のものとしつつ, 自然性を反映するとされるパワーと継続長を英語母語話者のものとするようなHMMが作られます.(ここは順序を先に開いた方が良き) 当該話者の話者性を保持しつつ, 自然性を改善した音声合成が可能となります, [母語の学習を言わないとダメ] [モーラ↓の発音 モーラ↑等時性] [何でこの方向なのか: ] [モデル適応のやり方は理解しておきたい. CSMAPLR & MAPとは??: 適応行列Aとバイアスベクトルbを, 最尤推定することによって求められる. ]
  5. 本発表では, この手法を, 中国人留学生の日本語の音声合成の韻律補正へと応用します.
  6. 中国語は, シラブル等時性・声調言語であり, 日本語は, モーラ等時性・ピッチアクセント言語であることを踏まえると, 基本周波数f0と継続長の補正が有効であると予測されます. したがって, 日本語母語話者のデータにより学習のなされたHMMの, 中国人留学生のHMMへのモデル適応では, f0と継続長のパラメータを適応せずに保持します. [母語の学習の話をする]
  7. さらに, 本研究では, さらに3パターン, 合計5パターンのパラメータの保持を検討しました. 話者性への影響が少ないとされる, 動的特徴量を保持したパターン1, 2, と, 日本人英語音声合成の補正で有効であったパワーを保持したパターン3, 中国語と日本語の韻律の違いから有効であると予測されるパターン4, 5で検証しました. また, パターン5では, 合成時に日本語母語話者のパラメータが保持されたHMMで生成された, 対数f0に線形変換を施すことにより, 留学生のf0レンジに変換しました. [パターンを指す: こつ: レーザーポインタは見ている人にはわかりにくい ゆっくり円を描くように指す] スライドを修正して, 一行目のそれを, 1,2の横に書く
  8. 以上の5パターンでの部分的モデル適応において, 自然性と話者性の観点から実験的評価を行いました. 以上の5パターンでの部分的モデル適応において, 実験的評価を行いました 実験的評価では, 留学生の日本語習熟度によらず, 話者性を保持したまま自然性が改善できるか, が検証されました. [s目的をいう] 留学生の日本語習熟度によらず, 話者性を保持したまま, 自然性の改善が可能であるかどうか,
  9. 実験条件について説明します 日本語母語話者のHMMは, JSUTコーパス[読み方を確認する]に含まれる単一女性話者5000文によって学習がなされました. 中国人留学生のHMMのモデル適応は, JSUT ペタッと読む ジェースット UME ユーエムイージェーアールエフ 評価データが学習データと別であることは言わなくていい
  10. [F0についての言い訳も必要] [話者性] [まず, 中国人留学生の自然音声を流します, 次に3連続で, 補正なし, 音素継続長, f0を順に流す(連続で、先に説明した上で). 聞いていただいてわかった通り, 改善されていることを] 自然性についてのプリファレンスABテストをクラウドソーシングにより実施しました. その結果について説明します. 継続長補正は学習者の習熟度によらず, 自然性を改善しました. F0補正は, 習熟度の高い話者1名のみで有効でした また, 動的特徴量補正, パワー補正はいずれも有効ではありませんでした [図と文字を大きくする] ABテストでは, それぞれの補正方法について, 補正ありの音声と補正なしの音声を被験者が聴き比べます. そして, 補正ありの音声と補正なしの音声のうち, どちらが言語としての自然性が高かったか, を判定します. グラフの青い部分は, 補正ありの音声の方が自然だったと回答した割合, 灰色の部分は, 補正なしの音声の方が自然だったと回答した割合, を表します. [パワポの上のメニューバーをなんとかする] [correction] [Δとか言わずに, パターン1,2,..5の説明のページに合わせる] [no correctionの説明も] [図を出したら必ず説明する] [例えば, 一番左は, f0のみを補正したものと, 何も補正しなかったもの] [左下に, アスタリスクの説明] [音声を貼る f2 f3 dur] 3つ, 補正ありと補正なしと, 自然音性 [グラフのそばに]
  11. また, 話者性に関するプリファレンスXABテストを実施しました 継続長補正, f0補正は, 1話者を除き話者性が保持されました. [前のページに合わせる]
  12. [参考文献のスライドは必要だろうか] 本研究では, 中国人留学生の日本語の音声合成の韻律補正を, HMMの部分的なモデル適応により行いました. F0, 音素継続長, 動的特徴量のそれぞれを保持して部分的なモデル適応したHMMにより, 評価実験を行いました. 結果として, f0と音素継続長を保持することにより, 話者性を保ったまま自然性を改善することができる, と言うことが示唆されました また, 動的特徴量の保持は有効ではありませんでした 今後の予定としては, f0, 音素継続長の両方を補正した音声の評価が考えられます. [セリフはちゃんと覚えよう、できるだけ詰まることがないように] [10分間は追加質問タイム. フリーディスカッション. 3分で聴けなかった内容を聞ける. それが終わったら帰れる. ]