明治大学森勢研究室にて堀部貴紀が行っている音声モーフィングの研究についてまとめています.
音声モーフィングにおける自動対応付けの提案と品質評価
堀部貴紀, 森勢将雅, 日本音響学会2024年春季研究発表会 (発表日:2024/03/07).
アブストラクト
- 音声モーフィングにおける時間軸方向の対応付け動的時間伸縮(Dynamic Time Warping)と短時間パワーを用いた手法を提案する.
- 主観評価の結果,手動による対応付け,提案手法,音素境界による従来手法の順に自然性が高いと判断された.
- 特に,従来手法との間に有意差が認められたことから,提案手法は対応付け手法として有効であるといえる.
| 提案手法 | 手動による対応付け | 従来手法 | |
| FF | |||
| MM | |||
| MF |
注: MM/FF/MF: 音声モーフィングに使用した音声の性別の組み合わせ
音声モーフィングにおける時間軸方向の対応点数が品質に与える影響
堀部貴紀, 森勢将雅, 河原英紀, 日本音響学会2023年春季研究発表会 (発表日:2023/03/17). [発表資料]
アブストラクト
- 音声モーフィングにおける対応点の時間軸方向に着目し,各音素区間における対応点数が品質にどのような影響を与えるか評価した.
- 音素境界の対応点のみで合成されたモーフィング音声をリファレンス,各音素区間の対応点数が2点,3点,5点,10点のモーフィング音声を音刺激として,より人間らしく自然であるかという基準で5段階評価した.
- CMOSで評価したところ,時間軸方向での増加は品質改善には寄与せず,対応点数の増加に伴い,品質の低下が確認された.

| p=2 | p=3 | p=5 | p=10 | |
| FF | ||||
| MM | ||||
| MF |
注: MM/FF/MF: 音声モーフィングに使用した音声の性別の組み合わせ
自動推定された音素境界とフォルマントによる音声モーフィングの品質評価
堀部貴紀, 森勢将雅, 河原英紀, 日本音響学会2022年秋季研究発表会 (発表日:2022/09/15). [発表資料]
アブストラクト
- WORLDをベースとした音声モーフィングにおいて,時間軸に音素境界, 周波数軸にフォルマント周波数を対応点の設定に用いた音声モーフィング手法について検討した.
- Juliusによる自動音素アライメントで得られる音素境界を中心に切り出したフレームに対して,線形予測符号によるフォルマント推定手法を用いる.
- 手動設定されたモーフィング音声と比較したところ,自動設定されたモーフィング音声でも40%程度は同等の品質であることが示唆された.

| 手動による対応付け | 提案手法 | |
| FF | ||
| MM | ||
| MF |
注: MM/FF/MF: 音声モーフィングに使用した音声の性別の組み合わせ