如何使用Java實現語音引擎

這篇文章主要為大家展示了“如何使用Java實現語音引擎”，內容簡而易懂，條理清晰，希望能夠幫助大家解決疑惑，下面讓小編帶領大家一起研究并學習一下“如何使用Java實現語音引擎”這篇文章吧。

10年積累的成都網站設計、成都做網站經驗，可以快速應對客戶對網站的新想法和需求。提供各種問題對應的解決方案。讓選擇我們的客戶得到更好、更有力的網絡服務。我雖然不認識你，你也不認識我。但先網站設計后付款的網站建設流程，更有土默特左旗免費網站建設讓你可以放心的選擇與我們合作。

一、試用語音引擎

要使用這個語音引擎，你必須在CLASSPATH中加入本文提供的javatalk.jar文件，然后從命令行運行（或者從Java程序調用）com.lotontech.speech.Talker類。如果從命令行運行，則命令為：

java com.lotontech.speech.Talker "h|e|l|oo"

如果從Java程序調用，則代碼為：

com.lotontech.speech.Talker talker=new com.lotontech.speech.Talker();

talker.sayPhoneWord("h|e|l|oo");

現在，對于在命令行上（或者調用sayPhoneWord()方法時）提供的“h|e|l|oo”字符串，你或許有所不解。下面我就來解釋一下。

語音引擎的工作原理是把細小的聲音樣本連接起來，每一個樣本都是人的語言發音（英語）的一個最小單位。這些聲音樣本稱為音素（allophone）。每一個因素對應一個、二個或者三個字母。從前面“hello”的語音表示可以看出，一些字母組合的發音顯而易見，還有一些卻不是很明顯：

h -- 讀音顯而易見

e -- 讀音顯而易見

l -- 讀音顯而易見，但注意兩個“l”被簡縮成了一個“l”。

OO -- 應該讀作“hello”中的讀音，不應讀作“bot”、“too”中的讀音。

下面是一個有效音素的清單：

a ：如cat
b ：如cab
c ：如cat
d ：如dot
e ：如bet
f ：如frog
g ：如frog
h ：如hog
i ：如pig
j ：如jig
k ：如keg
l ：如leg
m ：如met
n ：如begin
o ：如not
p ：如pot
r ：如rot
s ：如sat
t ：如sat
u ：如put
v ：如have
w ：如wet
y ：如yet
z ：如zoo
aa ：如fake
ay ：如hay
ee ：如bee
ii ：如high
oo ：如go
bb ： b的變化形式，重音不同
dd ： d的變化形式，重音不同
ggg ： g的變化形式，重音不同
hh ： h的變化形式，重音不同
ll ： l的變化形式，重音不同
nn ： n的變化形式，重音不同
rr ： r的變化形式，重音不同
tt ： t的變化形式，重音不同
yy ： y的變化形式，重音不同
ar ：如car
aer ：如care
ch ：如which
ck ：如check
ear ：如beer
er ：如later
err ：如later (長音)
ng ：如feeding
or ：如law
ou ：如zoo
ouu ：如zoo (長音)
ow ：如cow
oy ：如boy
sh ：如shut
th ：如thing
dth ：如this
uh ： u 的變化形式
wh ：如where
zh ：如Asian

人說話的時候，語音在整個句子之內起落變化。語調變化使得語音更自然、更富有感染力，使得問句和陳述句能夠相互區別。請考慮下面兩個句子：

It is fake -- f|aa|k

Is it fake? -- f|AA|k

也許你已經猜想到，提高語調的方法是使用大寫字母。

以上就是使用該軟件時你需要了解的東西。如果你對其后臺實現細節感興趣，請繼續閱讀。
二、實現語音引擎

語音引擎的實現只包括一個類，四個方法。它利用了J2SE 1.3包含的Java Sound API。在這里，我不準備全面地介紹這個API，但你可以通過實例學習它的用法。Java Sound API并不是一個特別復雜的API，代碼中的注釋將告訴你必須了解的知識。

下面是Talker類的基本定義：

package com.lotontech.speech;

import javax.sound.sampled.*;

import java.io.*;

import java.util.*;

import java.net.*;

public class Talker

{

private SourceDataLine line=null;

}

如果從命令行執行Talker，下面的main()方法將作為入口點運行。main()方法獲取第一個命令行參數，然后把它傳遞給sayPhoneWord()方法：

/*

* 讀出在命令行中指定的表示讀音的字符串

*/

public static void main(String args[])

{

Talker player=new Talker();

if (args.length>0) player.sayPhoneWord(args[0]);

System.exit(0);

}

sayPhoneWord()方法既可以通過上面的main()方法調用，也可以在Java程序中直接調用。從表面上看，sayPhoneWord()方法比較復雜，其實并非如此。實際上，它簡單地遍歷所有單詞的語音元素（在輸入字符串中語音元素以“|”分隔），通過一個聲音輸出通道一個元素一個元素地播放出來。為了讓聲音更自然一些，我把每一個聲音樣本的結尾和下一個聲音樣本的開頭合并了起來：

/*

* 讀出指定的語音字符串

*/

public void sayPhoneWord(String word)

{

// 為上一個聲音構造的模擬byte數組

byte[] previousSound=null;

// 把輸入字符串分割成單獨的音素

StringTokenizer st=new StringTokenizer(word,"|",false);

while (st.hasMoreTokens())

{

// 為音素構造相應的文件名字

String thisPhoneFile=st.nextToken();

thisPhoneFile="/allophones/"+thisPhoneFile+".au";

// 從聲音文件讀取數據

byte[] thisSound=getSound(thisPhoneFile);

if (previousSound!=null)

{

// 如果可能的話，把前一個音素和當前音素合并

int mergeCount=0;

if (previousSound.length>=500 && thisSound.length>=500)

mergeCount=500;

for (int i=0; i

{

previousSound[previousSound.length-mergeCount+i]

=(byte)((previousSound[previousSound.length

-mergeCount+i]+thisSound[i])/2);

}

// 播放前一個音素

playSound(previousSound);

// 把經過截短的當前音素作為前一個音素

byte[] newSound=new byte[thisSound.length-mergeCount];

for (int ii=0; ii

newSound[ii]=thisSound[ii+mergeCount];

previousSound=newSound;

}

else

previousSound=thisSound;

}

// 播放最后一個音素，清理聲音通道

playSound(previousSound);

drain();

}

在sayPhoneWord()的后面，你可以看到它調用playSound()輸出單個聲音樣本（即一個音素），然后調用drain()清理聲音通道。下面是playSound()的代碼：

/*

* 該方法播放一個聲音樣本

*/

private void playSound(byte[] data)

{

if (data.length>0) line.write(data, 0, data.length);

}

下面是drain()的代碼：

/*

* 該方法清理聲音通道

*/

private void drain()

{

if (line!=null) line.drain();

try {Thread.sleep(100);} catch (Exception e) {}

}

現在回過頭來看sayPhoneWord()，這里還有一個方法我們沒有分析，即getSound()方法。

getSound()方法從一個au文件以字節數據的形式讀入預先錄制的聲音樣本。要了解讀取數據、轉換音頻格式、初始化聲音輸出行（SouceDataLine）以及構造字節數據的詳細過程，請參考下面代碼中的注釋：

/*

* 該方法從文件讀取一個音素，

* 并把它轉換成byte數組

*/

private byte[] getSound(String fileName)

{

try

{

URL url=Talker.class.getResource(fileName);

AudioInputStream stream = AudioSystem.getAudioInputStream(url);

AudioFormat format = stream.getFormat();

// 把一個ALAW/ULAW聲音轉換成PCM以便回放

if ((format.getEncoding() == AudioFormat.Encoding.ULAW) ||

(format.getEncoding() == AudioFormat.Encoding.ALAW))

{

AudioFormat tmpFormat = new AudioFormat(

AudioFormat.Encoding.PCM_SIGNED,

format.getSampleRate(), format.getSampleSizeInBits() * 2,

format.getChannels(), format.getFrameSize() * 2,

format.getFrameRate(), true);

stream = AudioSystem.getAudioInputStream(tmpFormat, stream);

format = tmpFormat;

}

DataLine.Info info = new DataLine.Info(

Clip.class, format,

((int) stream.getFrameLength() * format.getFrameSize()));

if (line==null)

{

// 輸出線還沒有實例化

// 是否能夠找到合適的輸出線類型？

DataLine.Info outInfo = new DataLine.Info(SourceDataLine.class,

format);

if (!AudioSystem.isLineSupported(outInfo))

{

System.out.println("不支持匹配" + outInfo + "的輸出線");

throw new Exception("不支持匹配" + outInfo + "的輸出線");

}

// 打開輸出線

line = (SourceDataLine) AudioSystem.getLine(outInfo);

line.open(format, 50000);

line.start();

}

int frameSizeInBytes = format.getFrameSize();

int bufferLengthInFrames = line.getBufferSize() / 8;

int bufferLengthInBytes = bufferLengthInFrames * frameSizeInBytes;

byte[] data=new byte[bufferLengthInBytes];

// 讀取字節數據，并計數

int numBytesRead = 0;

if ((numBytesRead = stream.read(data)) != -1)

{

int numBytesRemaining = numBytesRead;

}

// 把字節數據切割成合適的大小

byte[] newData=new byte[numBytesRead];

for (int i=0; i

newData[i]=data[i];

return newData;

}

catch (Exception e)

{

return new byte[0];

}

}

這就是全部的代碼，包括注釋在內，一個大約150行代碼的語音合成器。

三、文本-語音轉換

以語音元素的格式指定待朗讀的單詞似乎過于復雜，如果要構造一個能夠朗讀文本（比如Web頁面或Email）的應用，我們希望能夠直接指定原始的文本。

深入分析這個問題之后，我在本文后面的ZIP文件中提供了一個試驗性的文本-語音轉換類。運行這個類，它將顯示出分析結果。文本-語音轉換類可以從命令行執行，如下所示：

java com.lotontech.speech.Converter "hello there"

輸出結果類如：

hello -> h|e|l|oo

there -> dth|aer

如果運行下面這個命令：

java com.lotontech.speech.Converter "I like to read JavaWorld"

則輸出結果為：

i -> ii

like -> l|ii|k

to -> t|ouu

read -> r|ee|a|d

java -> j|a|v|a

world -> w|err|l|d

這個轉換類是如何工作的呢？實際上，我的方法相當簡單，轉換過程就是以一定的次序應用一組文本替換規則。例如對于單詞“ant”、“want”、“wanted”、“unwanted”和“unique”，則我們想要應用的替換規則可能依次為：

用“|y|ou|n|ee|k|”替換“*unique*”

用“|w|o|n|t|”替換“*want*”

用“|a|”替換“*a*”

用“|e|”替換“*e*”

用“|d|”替換“*d*”

用“|n|”替換“*n*”

用“|u|”替換“*u*”

用“|t|”替換“*t*”

對于“unwanted”，輸出序列為：

unwanted

un[|w|o|n|t|]ed (規則2)

[|u|][|n|][|w|o|n|t|][|e|][|d|] (規則4、5、6、7)

u|n|w|o|n|t|e|d (刪除多余的符之后)

你將看到包含字母“wont”的單詞和包含字母“ant”的單詞以不同的方式發音，還將看到在特例規則的作用下，“unique”作為一個完整單詞優先于其他規則，從而“unique”這個單詞讀作“y|ou...”而不是“u|n...”。

以上是“如何使用Java實現語音引擎”這篇文章的所有內容，感謝各位的閱讀！相信大家都有了一定的了解，希望分享的內容對大家有所幫助，如果還想學習更多知識，歡迎關注創新互聯行業資訊頻道！

名稱欄目：如何使用Java實現語音引擎
文章起源：http://www.2m8n56k.cn/article30/jojepo.html

成都網站建設公司_創新互聯，為您提供網站設計、網站改版、手機網站建設、服務器托管、動態網站、域名注冊

聲明：本網站發布的內容（圖片、視頻和文字）以用戶投稿、用戶轉載內容為主，如果涉及侵權請盡快告知，我們將會在第一時間刪除。文章觀點不代表本網站立場，如需處理請聯系客服。電話：028-86922220；郵箱：[email protected]。內容未經允許不得轉載，或轉載時需注明來源：創新互聯

猜你還喜歡下面的內容

中文字幕第五页-中文字幕第页-中文字幕韩国-中文字幕最新-国产尤物二区三区在线观看-国产尤物福利视频一区二区

如何使用Java實現語音引擎