轉換式架構的另一個缺點,是在 M 個來源語言及 N 個生成語言之間,除了 M 個來源語言剖析及 N 個目的語言生成外,還需發展 C(M,N) = M(M − 1)(M − 2) … (M − N + 1)/(1‧2‧3‧…‧N)種語言轉換規則組合,這對發展多國語音轉譯系統是一項負擔。因此在轉換式架構外另有一種中介式架構,所謂中介式架構是利用國際人工語言來表達知識的形式,不易被一些特定語意的表達方式所影響,能有效地指出在多個語言間做轉換的問題所在,透過這樣的架構,只要 M 個來源語言剖析及 N 個目的語言生成的處理即可。然而,如何發展一個有效及嚴謹的國際人工語言,則是此一架構下的重要課題。
以參數編碼法或是混合編碼法來說,這兩者都是運用以聲道模型為基礎的口腔合成濾波器。所謂口腔合成濾波器,基本上是由線性預測觀念發展而來,亦即假設一個語音樣本,可以由以前的 p 個語音樣本之線性組合來預測,而其做法是將實際語音樣本與預測樣本二者的誤差減至最小,如此可以找到最佳預測器。而預測器內的係數,即線性組合所需的係數,稱為線性預測係數,任何一種透過線性預測參數,來做數位語音編碼的演算法,在解碼端都需要經由數位語音合成濾波器,來合成語音,濾波器的輸入訊號為語音激發訊號,進入數位語音合成濾波器運算後的輸出便是合成語音。