音声合成 (Text-to-Speech : TTS) ― 2008年06月04日 21:30
音声合成というのは、一言で言うとテキストを読み上げてくれる機能のことです。
"TTS speech" などで検索すると、いろいろと出てきます。
http://ja.wikipedia.org/wiki/%E9%9F%B3%E5%A3%B0%E5%90%88%E6%88%90
ちなみに音声認識というのはこの逆で、音声をテキストに変換してくれるものです。
http://ja.wikipedia.org/wiki/%E9%9F%B3%E5%A3%B0%E8%AA%8D%E8%AD%98
Microsoft の Speech API (SAPI) というものを使うと、いずれも簡単に実現できます。品質はそれなりですが。
http://ja.wikipedia.org/wiki/Speech_Application_Programming_Interface
それを使って、RH1FFT に [録音データ作成] と同様な [音声データ作成] の機能をつけることはできそうです。
しかし、実際にはそんなに必要な機能ではないし、もし必要なら既存の音声合成ソフトウェアを使って、RH1FFT で録音した方が早いですね。
気が向いたら遊びで付けることはあるかもしれません。
"TTS speech" などで検索すると、いろいろと出てきます。
http://ja.wikipedia.org/wiki/%E9%9F%B3%E5%A3%B0%E5%90%88%E6%88%90
ちなみに音声認識というのはこの逆で、音声をテキストに変換してくれるものです。
http://ja.wikipedia.org/wiki/%E9%9F%B3%E5%A3%B0%E8%AA%8D%E8%AD%98
Microsoft の Speech API (SAPI) というものを使うと、いずれも簡単に実現できます。品質はそれなりですが。
http://ja.wikipedia.org/wiki/Speech_Application_Programming_Interface
それを使って、RH1FFT に [録音データ作成] と同様な [音声データ作成] の機能をつけることはできそうです。
しかし、実際にはそんなに必要な機能ではないし、もし必要なら既存の音声合成ソフトウェアを使って、RH1FFT で録音した方が早いですね。
気が向いたら遊びで付けることはあるかもしれません。
FFT ブロックサイズと解析間隔 ― 2008年06月04日 22:45
ブロックサイズと解析間隔については、今までも何回か話題に出てきました。
http://cessna373.asablo.jp/blog/2006/01/27/228287
http://cessna373.asablo.jp/blog/2006/02/05/241826
http://cessna373.asablo.jp/blog/2006/02/05/241844
http://cessna373.asablo.jp/blog/2006/02/08/246067
http://cessna373.asablo.jp/blog/2006/08/20/492817
http://cessna373.asablo.jp/blog/2007/05/10/1499595
一般的に使われているであろう FFT のライン数(点数)とオーバーラップ率と、本質的には同じものです。
これで分かる人には分かるのでしょうが、もっと簡単に表現できないかと考えてみました。
「ブロックサイズを大きくすると、ソノグラフが縦方向に細かくなる」
「解析間隔を小さくすると、ソノグラフが横方向に細かくなる」
正確な表現ではありませんが、ソノグラフを見て「もっとこうしたい」と思ったときの指針にはなるでしょう。
図はある音声データによる例です。
ブロックサイズと解析間隔の関係は、以下のようになっています。
左上 右上
ブロックサイズ 23ms(小) ブロックサイズ 23ms(小)
解析間隔 23ms(大) 解析間隔 11ms(小)
左下 右下
ブロックサイズ 46ms(大) ブロックサイズ 46ms(大)
解析間隔 23ms(大) 解析間隔 11ms(小)
http://cessna373.asablo.jp/blog/2006/01/27/228287
http://cessna373.asablo.jp/blog/2006/02/05/241826
http://cessna373.asablo.jp/blog/2006/02/05/241844
http://cessna373.asablo.jp/blog/2006/02/08/246067
http://cessna373.asablo.jp/blog/2006/08/20/492817
http://cessna373.asablo.jp/blog/2007/05/10/1499595
一般的に使われているであろう FFT のライン数(点数)とオーバーラップ率と、本質的には同じものです。
これで分かる人には分かるのでしょうが、もっと簡単に表現できないかと考えてみました。
「ブロックサイズを大きくすると、ソノグラフが縦方向に細かくなる」
「解析間隔を小さくすると、ソノグラフが横方向に細かくなる」
正確な表現ではありませんが、ソノグラフを見て「もっとこうしたい」と思ったときの指針にはなるでしょう。
図はある音声データによる例です。
ブロックサイズと解析間隔の関係は、以下のようになっています。
左上 右上
ブロックサイズ 23ms(小) ブロックサイズ 23ms(小)
解析間隔 23ms(大) 解析間隔 11ms(小)
左下 右下
ブロックサイズ 46ms(大) ブロックサイズ 46ms(大)
解析間隔 23ms(大) 解析間隔 11ms(小)
最近のコメント