Speaker Dependent HMM-based Thai Speech Synthesis

  HMM-based Thai Speech Synthesis System
(with 2500 training utterances)
Unit-selection-based Thai Speech Synthesis System
(Vaja version 3.1, from NECTEC, http://vaja.nectec.or.th/)
Natural Speech
(16 kHz, 16 bits/sample)
Sample 1
  (The utterances' phonetic description)
  | l-x-z^-3| n-a-j^-0| p-ii-z^-0| n-ii-z^-3| z-ee-ng^-0| r-oo-ng^-0| ph-a-z^-3| j-aa-z^-0| b-aa-n^-0| r-oo-k^-2| c-i-t^-1| d-aa-j^-2| j-aa-j^-3| m-aa-z^-0| kh-a-w^-2| s-a-ng^-4| k-a-t^-1| kr-o-m^-0| k-aa-n^-0| ph-xx-t^-2|
และในปีนี้เองโรงพยาบาลโรคจิตได้ย้ายมาเข้าสังกัดกรมการแพทย์
And from this year, the mental disorder hospital has been transferred into the department of medical service.
       
Sample 2
  | m-ii-z^-0| khw-aa-m^-0| h-e-n^-4| s-@@-t^-1| khl-@@-ng^-3| k-a-n^-0| w-aa-z^-2| $-$-$-$| khw-aa-m^-0| m-u-ng^-2| m-aa-j^-4| z-a-n^-0| s-uu-ng^-4| s-u-t^-1| kh-@@-ng^-4| k-aa-n^-0| s-v-k^-1| s-aa-z^-4| k-@@-z^-2| kh-vv-z^-0| ch-uua-j^-2| h-a-j^-2| j-a-w^-0| w-a-z^-3| ch-o-n^-0| t-qq-p^-1| t-oo-z^-0| p-e-n^-0| ph-uu-z^-2| j-a-j^-1| th-ii-z^-2| b-a-n^-0| l-u-z^-3| w-u-t^-3| th-i-z^-3| ph-aa-z^-0| w-a-z^-3| th-aa-ng^-0| z-aa-z^-0| r-o-m^-0|
มีความเห็นสอดคล้องกันว่า ความมุ่งหมายอันสูงสุดของการศึกษาก็คือช่วยให้เยาวชนเติบโตเป็นผู้ใหญ่ที่บรรลุวุฒิภาวะทางอารมณ์
The common opinion is that the highest expectation of education is to help the youth grow with emotional consistence.
       
Sample 3
  | p-a-t^-1| c-u-z^-1| b-a-n^-0| n-a-j^-0| pr-a-z^-1| th-ee-t^-2| th-a-j^-0| m-ii-z^-0| c-i-t^-1| t-a-z^-1| ph-xx-t^-2| p-a-z^-1| t-i-z^-1| b-a-t^-1| ng-aa-n^-0| ph-iia-ng^-0| r-@@-j^-3| kw-aa-z^-1| kh-o-n^-0| th-a-w^-2| n-a-n^-3|
ปัจจุบันในประเทศไทยมีจิตแพทย์ปฎิบัติงานเพียงร้อยกว่าคนเท่านั้น
At present, there is only a hundred of psychiatrists working in Thailand.

References:



Speaker Independent HMM-based Thai Speech Synthesis

 
No
# training utterances
Training System Description
Example of Average voice
Example of Adapted voice
1
1680
None
2
1680
STC & SAT
3
1680
STC & SAT & SEP
4
1680
STC & SAT & SEP + phrase intonation
5
1500
SD (speaker dependent, reference system)
 
(The utterances' phonetic description)
| th-a-ng^-3| n-ii-z^-3| ph-vva-z^-2| ph-xx-t^-2| c-a-z^-1| d-aa-j^-2| s-aa-p^-2| pr-a-z^-1| w-a-t^-1| s-uua-n^-1| t-uua-z^-0| $-$-$-$| pr-a-z^-1| w-a-t^-1| khr-@@-p^-2| khr-uua-z^-0| $-$-$-$| pr-a-z^-1| w-a-t^-1| khw-aa-m^-0| c-e-p^-1| p-uua-j^-1| $-$-$-$| k-aa-n^-0| c-a-z^-1| r-qq-n^-0| t-qq-p^-1| t-oo-z^-0| $-$-$-$| ph-aa-z^-0| w-a-z^-3| w-xx-t^-2| l-@@-m^-3| kh-@@-ng^-4| khr-@@-p^-2| khr-uua-z^-0| $-$-$-$| k-aa-n^-0| r-iia-n^-0| $-$-$-$| k-aa-n^-0| th-a-m^-0| ng-aa-n^-0| $-$-$-$| ch-ii-z^-0| w-i-t^-3| s-o-m^-4| r-o-t^-3| $-$-$-$| l-x-z^-3| z-vv-n^-1| z-vv-n^-1|
ทั้งนี้เพื่อแพทย์จะได้ทราบประวัติส่วนตัว ประวัติครอบครัว ประวัติความเจ็บป่วย การเจริญเติบโต ภาวะแวดล้อมของครอบครัว การเรียนการทำงาน ชีวิตสมรส และอื่นๆ
This is for the physician to know the personal record, family record, illness record, growth, family environment, education and works, marriage life, and so on.
 


Speaker Independent HMM-based Thai Speech Synthesis with Tonal Feature Incorporation

 
No
# training utterances
System Description
Example of female adapted voice
Example of male adapted voice
1
1680
Baseline
2
1680
Baseline with phrase intonation feature
3
1680
Baseline with phrase intonation feature & tone-geometrical feature
4
1680
Natural speech
(The utterances' phonetic description)
female adapted voice: n-aa-j^-0|s-a-z^-1 ng-aa-z^-1|s-a-p^-1 ph-a-z^-3 s-ii-z^-4|
  นาย สง่า สรรพศรี
Mr. Sa-nga Sappasee.
male adapted voice: ph-vva-z^-2|l-vva-k^-2|t-uua-z^-0 z-a-k^-1 s-@@-n^-4|n-a-j^-0|t-xx-z^-1 l-a-z^-3|bl-@-k^-3|m-oo-z^-0 s-ee-t^-1| d-aa-j^-2|
  เพื่อ เลือก ตัวอักษร ใน แต่ละ บล๊อคโมเสด ได้
This is to be able to choose the alphabet in each of Mosaic block.
 

References: