qwen3-tts-skills

📁 mu-zi-lee/qwen3-tts-skill 📅 Jan 27, 2026

总安装量

周安装量

#12719

全站排名

安装命令

npx skills add https://github.com/mu-zi-lee/qwen3-tts-skill --skill qwen3-tts-skills

Agent 安装分布

claude-code 7

antigravity 6

opencode 6

codex 5

cursor 5

Skill 文档

Qwen3-TTS æè½

å°ææ¬è½¬æ¢ä¸ºé«è´¨éè¯é³çå®æ´å·¥ä½æµã

ð å¿«éå¼å§

åºæ¯ 1ï¼åå¥è¯é³çæ

ç´æ¥è°ç¨èæ¬çæè¯é³ï¼

# ä¸æè¯é³ï¼é»è®¤ Vivian å¥³å£°ï¼
uv run qwen3-tts-skills/scripts/run_qwen3_tts.py custom-voice \
  --language Chinese \
  --text "ä½ å¥½ï¼æ¬¢è¿ä½¿ç¨è¯é³åæã" \
  --out-dir outputs

# è±æè¯é³ï¼é»è®¤ Ryan ç·å£°ï¼
uv run qwen3-tts-skills/scripts/run_qwen3_tts.py custom-voice \
  --language English \
  --text "Hello, welcome to text-to-speech." \
  --out-dir outputs

åºæ¯ 2ï¼é¿æç¨¿æ¹ééé³

å°æç« è½¬æ¢ä¸ºå®æ´è¯é³æä»¶ï¼

ç¨æ·æç¨¿ â [AIåæçæéé³ç¨¿] â [ç¨æ·å®¡æ ¸] â [æ¹éTTS] â å®æ´è¯é³.wav

è¯¦è§ä¸æ¹ é¿æç¨¿æ¹ééé³ ç« èã

ð æ¨¡åéæ©æå

æ ¹æ®éæ±éæ©åéçæ¨¡åï¼

æ¨¡å¼	æ¨¡å	éç¨åºæ¯	å½ä»¤
CustomVoice	`Qwen3-TTS-12Hz-1.7B-CustomVoice`	ä½¿ç¨åç½®é³è² + æææ§å¶	`custom-voice`
VoiceDesign	`Qwen3-TTS-12Hz-1.7B-VoiceDesign`	ç¨èªç¶è¯è¨æè¿°æ³è¦çé³è²	`voice-design`
VoiceClone	`Qwen3-TTS-12Hz-1.7B-Base`	åéåèé³é¢çå£°é³	`voice-clone`
Tokenizer	`Qwen3-TTS-Tokenizer-12Hz`	é³é¢ç¼è§£ç	`tokenizer-roundtrip`

åç½® Speakerï¼CustomVoice æ¨¡å¼ï¼

è¯è¨	é»è®¤ Speaker	è¯´æ
Chinese	Vivian	å¥³å£°ï¼èªç¶
English	Ryan	ç·å£°
Japanese	Ono_Anna	å¥³å£°
Korean	Sohee	å¥³å£°

ðï¸ åå¥è¯é³çæ

CustomVoiceï¼æ¨èå¥é¨ï¼

ä½¿ç¨åç½®é³è²ï¼å¯éæææ§å¶ï¼

uv run qwen3-tts-skills/scripts/run_qwen3_tts.py custom-voice \
  --language Chinese \
  --text "å¶å®æççæåç°ï¼ææ¯ä¸ä¸ªç¹å«åäºè§å¯å«äººæç»ªçäººã" \
  --speaker Vivian \
  --instruct "è½»æ¾æå¿«çè¯æ°" \
  --out-dir outputs

åæ°è¯´æï¼

--languageï¼Chinese / English / Japanese / Korean
--speakerï¼å¯éï¼ä¸å¡«åæè¯è¨èªå¨éé»è®¤
--instructï¼å¯éï¼ææ/è¯æ°æ§å¶ï¼å¦”å¼å¿å°è¯´”ã”ä½æ²ç¼æ¢”ï¼
--outputï¼å¯éï¼æå®è¾åºæä»¶åï¼é»è®¤èªå¨çææ¶é´æ³æä»¶åï¼

VoiceDesignï¼è®¾è®¡ç¬ç¹é³è²ï¼

ç¨èªç¶è¯è¨æè¿°æ³è¦çé³è²ï¼

uv run qwen3-tts-skills/scripts/run_qwen3_tts.py voice-design \
  --language Chinese \
  --text "å¥å¥ï¼ä½ åæ¥å¦ï¼äººå®¶çäºä½ å¥½ä¹å¥½ä¹äºï¼è¦æ±æ±ï¼" \
  --instruct "ä½ç°æå¨ç¨å«©çèèå¥³å£°ï¼é³è°åé«ä¸èµ·ä¼ææ¾ã" \
  --out-dir outputs

æ³¨æï¼VoiceDesign ç --instruct æ¯å¿å¡«çï¼ç¨äºæè¿°é³è²ç¹å¾ã

VoiceCloneï¼è¯é³åéï¼

åéåèé³é¢çå£°é³ï¼

uv run qwen3-tts-skills/scripts/run_qwen3_tts.py voice-clone \
  --language English \
  --ref-audio "path/to/reference.wav" \
  --ref-text "åèé³é¢çææ¬åå®¹" \
  --text "è¦åæçæ°ææ¬" \
  --out-dir outputs

åæ°è¯´æï¼

--ref-audioï¼åèé³é¢æä»¶è·¯å¾æ URL
--ref-textï¼åèé³é¢å¯¹åºçææ¬ï¼å¿å¡«ï¼
--x-vector-only-modeï¼å¯éï¼ä»ä½¿ç¨è¯´è¯äººç¹å¾ï¼è´¨éå¯è½éä½ï¼

â ï¸ æ³¨æï¼VoiceClone ä¸æ¯æ --instruct æææ§å¶ã

Tokenizerï¼é³é¢ç¼è§£ç ï¼

ç¨äºé³é¢çç¼ç åè§£ç éªè¯ï¼

uv run qwen3-tts-skills/scripts/run_qwen3_tts.py tokenizer-roundtrip \
  --audio "path/to/audio.wav" \
  --out-dir outputs

ð¬ é¿æç¨¿æ¹ééé³çæ

å°é¿æç« ãå§æ¬ãæå£°ä¹¦åå®¹è½¬æ¢ä¸ºå®æ´è¯é³æä»¶ã

å·¥ä½æµç¨

âââââââââââââââââââ     âââââââââââââââââââ     âââââââââââââââââââ     âââââââââââââââââââ
â  Step 1         â     â  Step 2         â     â  Step 3         â     â  è¾åº           â
â  AIåææç¨¿     â âââ â  ç¨æ·å®¡æ ¸ä¿®æ¹   â âââ â  æ¹éçæè¯é³   â âââ â  å®æ´è¯é³.wav   â
â  çæéé³ç¨¿JSON â     â  ä¿å.jsonæä»¶  â     â  FFmpegåå¹¶     â     â                 â
âââââââââââââââââââ     âââââââââââââââââââ     âââââââââââââââââââ     âââââââââââââââââââ

Step 1ï¼è®© AI çæéé³ç¨¿

AI ä¼æ dubbing-skills/SKILL.md çè§åï¼

æºè½ååï¼æ¯æ®µ 200-300 åï¼
è¯å«è§è²ï¼ãæç½ãããå°æã çï¼
åæææï¼çæ instruct
è¾åºéé³ç¨¿ JSON

Step 2ï¼ç¨æ·å®¡æ ¸ä¿®æ¹

æ£æ¥ JSON å¹¶è°æ´ï¼

ååæ¯å¦åç
è§è²åéæ¯å¦æ£ç¡®
ææ instruct æ¯å¦åé
TTS æ¨¡å¼æ¯å¦éè¦è°æ´

ä¿åä¸º article.dubbing.json æä»¶ã

Step 3ï¼æ¹éçæè¯é³

uv run qwen3-tts-skills/scripts/batch_dubbing.py \
  --input article.dubbing.json \
  --out-dir outputs

åæ°è¯´æï¼

åæ°	è¯´æ	é»è®¤å¼
`--input`	éé³ç¨¿ JSON æä»¶	å¿å¡«
`--out-dir`	è¾åºç®å½	outputs
`--silence-gap`	æ®éæ®µè½é´éé³ï¼ç§ï¼	0.3
`--character-switch-gap`	è§è²åæ¢æ¶éé³ï¼ç§ï¼	0.5
`--clean-segments`	åå¹¶åå é¤ä¸é´çæ®µ	ä¿ç

è¾åºç»æ

outputs/
âââ segments/
â   âââ seg_001_æç½.wav
â   âââ seg_002_å°æ.wav
â   âââ ...
âââ article.dubbing.json   # éé³ç¨¿å¤ä»½
âââ article_final.wav      # æç»å®æ´è¯é³

æ¯æçä¸ç§æ¨¡å¼

æ¨¡å¼	è¯´æ	éç¨åºæ¯
`custom-voice`	åç½®é³è² + æææä»¤	å¤§å¤æ°åºæ¯ï¼é»è®¤ï¼
`voice-design`	èªç¶è¯è¨æè¿°é³è²	éè¦ç¹å®é³è²ï¼èèãå¤§åçï¼
`voice-clone`	åéåèé³é¢	éè¦çäºº/ç¹å®äººå£°é³

ð§ ç¯å¢éç½®

æ¨èæ¹å¼ï¼ç´æ¥ç¨ uv run

èæ¬åå·²å£°æä¾èµï¼æ éæå¨å®è£ï¼

uv run qwen3-tts-skills/scripts/run_qwen3_tts.py -h

åå»ºåºå®èæç¯å¢

uv venv --python 3.12
.\.venv\Scripts\activate
uv pip install -U qwen-tts

å®è£ FlashAttention 2ï¼å¯éï¼éä½æ¾åï¼

uv pip install -U flash-attn --no-build-isolation

# åå < 96GB æ¶éå¶å¹¶è¡ä»»å¡
MAX_JOBS=4 uv pip install -U flash-attn --no-build-isolation

ä½¿ç¨æ¡ä»¶ï¼

ç¡¬ä»¶å¼å®¹ FlashAttention 2
æ¨¡åä»¥ torch.float16 æ torch.bfloat16 å è½½

å®è£ FFmpegï¼æ¹ééé³å¿éï¼

Windowsï¼

choco install ffmpeg -y

éªè¯å®è£ï¼

ffmpeg -version

ð¥ æ¨¡åç¦»çº¿ä¸è½½

ä½¿ç¨ ModelScopeï¼ä¸å½å¤§éæ¨èï¼

uv pip install -U modelscope
modelscope download --model Qwen/Qwen3-TTS-12Hz-1.7B-CustomVoice --local_dir ./Qwen3-TTS-12Hz-1.7B-CustomVoice
modelscope download --model Qwen/Qwen3-TTS-12Hz-1.7B-VoiceDesign --local_dir ./Qwen3-TTS-12Hz-1.7B-VoiceDesign
modelscope download --model Qwen/Qwen3-TTS-12Hz-1.7B-Base --local_dir ./Qwen3-TTS-12Hz-1.7B-Base
modelscope download --model Qwen/Qwen3-TTS-Tokenizer-12Hz --local_dir ./Qwen3-TTS-Tokenizer-12Hz

ä½¿ç¨ Hugging Face

uv pip install -U "huggingface_hub[cli]"
huggingface-cli download Qwen/Qwen3-TTS-12Hz-1.7B-CustomVoice --local-dir ./Qwen3-TTS-12Hz-1.7B-CustomVoice
huggingface-cli download Qwen/Qwen3-TTS-12Hz-1.7B-VoiceDesign --local-dir ./Qwen3-TTS-12Hz-1.7B-VoiceDesign
huggingface-cli download Qwen/Qwen3-TTS-12Hz-1.7B-Base --local-dir ./Qwen3-TTS-12Hz-1.7B-Base
huggingface-cli download Qwen/Qwen3-TTS-Tokenizer-12Hz --local-dir ./Qwen3-TTS-Tokenizer-12Hz

ð¥ï¸ æ¬å° Web UI æ¼ç¤º

# æ¥çå¸®å©
qwen-tts-demo --help

# å¯å¨ CustomVoice
qwen-tts-demo Qwen/Qwen3-TTS-12Hz-1.7B-CustomVoice --ip 0.0.0.0 --port 8000

# å¯å¨ VoiceDesign
qwen-tts-demo Qwen/Qwen3-TTS-12Hz-1.7B-VoiceDesign --ip 0.0.0.0 --port 8000

HTTPS æ¯æï¼è§£å³éº¦åé£æéé®é¢ï¼

# çæèªç¾åè¯ä¹¦
openssl req -x509 -newkey rsa:2048 -keyout key.pem -out cert.pem -days 365 -nodes -subj "/CN=localhost"

# å¯ç¨ HTTPS
qwen-tts-demo Qwen/Qwen3-TTS-12Hz-1.7B-Base \
  --ip 0.0.0.0 --port 8000 \
  --ssl-certfile cert.pem \
  --ssl-keyfile key.pem \
  --no-ssl-verify

ð åèææ¡£

ææ¡£	è¯´æ
`dubbing-skills/SKILL.md`	éé³ç¨¿çæè§èï¼AI éè¯»ç¨ï¼
`dubbing-skills/references/dubbing_format.md`	éé³ç¨¿ JSON æ ¼å¼è¯¦ç»è§è
`dubbing-skills/references/examples.md`	åç§åºæ¯çéé³ç¨¿ç¤ºä¾
`references/python_api.md`	Python API éææå

â¡ æ§è½åæ°

uv run qwen3-tts-skills/scripts/run_qwen3_tts.py custom-voice \
  --device-map cuda:0 \
  --dtype bfloat16 \
  --attn flash_attention_2 \
  --language Chinese \
  --text "æµè¯ææ¬" \
  --out-dir outputs

åæ°	è¯´æ
`--device-map`	æå® GPUï¼å¦ `cuda:0`ï¼æ CPU
`--dtype`	æ°æ®ç±»åï¼auto / bfloat16 / float16 / float32
`--attn`	æ³¨æåå®ç°ï¼auto / flash_attention_2

â å¸¸è§é®é¢

Windows è·¯å¾é®é¢

ç»å¯¹è·¯å¾éè¦ç¨åå¼å·åè£¹ï¼

uv run "C:/Users/lee/.config/alma/skills/qwen3-tts-skills/scripts/run_qwen3_tts.py" -h

SoX è¦å

å¦æçå° SoX could not be found!ï¼å®è£ SoXï¼ä¸å½±ååè½ï¼åªæ¯æ¶é¤è¦åï¼ï¼

choco install sox.portable -y

æ¨¡åä¸è½½æ¢

GitHub 仓库 ↗ ← 返回陌讯 Skills 聚合平台

qwen3-tts-skills

Agent 安装分布

Skill 文档

Qwen3-TTS æè½

ð å¿«éå¼å§

åºæ¯ 1ï¼åå¥è¯­é³çæ

åºæ¯ 2ï¼é¿æç¨¿æ¹éé é³

ð æ¨¡åéæ©æå

å ç½® Speakerï¼CustomVoice æ¨¡å¼ï¼

ðï¸ åå¥è¯­é³çæ

CustomVoiceï¼æ¨èå ¥é¨ï¼

VoiceDesignï¼è®¾è®¡ç¬ç¹é³è²ï¼

VoiceCloneï¼è¯­é³å éï¼

Tokenizerï¼é³é¢ç¼è§£ç ï¼

ð¬ é¿æç¨¿æ¹éé é³çæ

å·¥ä½æµç¨

Step 1ï¼è®© AI çæé é³ç¨¿

Step 2ï¼ç¨æ·å®¡æ ¸ä¿®æ¹

Step 3ï¼æ¹éçæè¯­é³

è¾åºç»æ

æ¯æçä¸ç§æ¨¡å¼

ð§ ç¯å¢é ç½®

æ¨èæ¹å¼ï¼ç´æ¥ç¨ uv run

åå»ºåºå®èæç¯å¢

å®è£ FlashAttention 2ï¼å¯éï¼éä½æ¾å­ï¼

å®è£ FFmpegï¼æ¹éé é³å¿ éï¼

ð¥ æ¨¡åç¦»çº¿ä¸è½½

ä½¿ç¨ ModelScopeï¼ä¸­å½å¤§éæ¨èï¼

ä½¿ç¨ Hugging Face

ð¥ï¸ æ¬å° Web UI æ¼ç¤º

HTTPS æ¯æï¼è§£å³éº¦å é£æéé®é¢ï¼

ð åèææ¡£

â¡ æ§è½åæ°

â å¸¸è§é®é¢

Windows è·¯å¾é®é¢

SoX è­¦å

æ¨¡åä¸è½½æ ¢

Qwen3-TTS æè½

ð å¿«éå¼å§

åºæ¯ 1ï¼åå¥è¯é³çæ

åºæ¯ 2ï¼é¿æç¨¿æ¹ééé³

ð æ¨¡åéæ©æå

åç½® Speakerï¼CustomVoice æ¨¡å¼ï¼

ðï¸ åå¥è¯é³çæ

CustomVoiceï¼æ¨èå¥é¨ï¼

VoiceDesignï¼è®¾è®¡ç¬ç¹é³è²ï¼

VoiceCloneï¼è¯é³åéï¼

Tokenizerï¼é³é¢ç¼è§£ç ï¼

ð¬ é¿æç¨¿æ¹ééé³çæ

å·¥ä½æµç¨

Step 1ï¼è®© AI çæéé³ç¨¿

Step 2ï¼ç¨æ·å®¡æ ¸ä¿®æ¹

Step 3ï¼æ¹éçæè¯é³

è¾åºç»æ

æ¯æçä¸ç§æ¨¡å¼

ð§ ç¯å¢éç½®

æ¨èæ¹å¼ï¼ç´æ¥ç¨ uv run

åå»ºåºå®èæç¯å¢

å®è£ FlashAttention 2ï¼å¯éï¼éä½æ¾åï¼

å®è£ FFmpegï¼æ¹ééé³å¿éï¼

ð¥ æ¨¡åç¦»çº¿ä¸è½½

ä½¿ç¨ ModelScopeï¼ä¸å½å¤§éæ¨èï¼

ä½¿ç¨ Hugging Face

ð¥ï¸ æ¬å° Web UI æ¼ç¤º

HTTPS æ¯æï¼è§£å³éº¦åé£æéé®é¢ï¼

ð åèææ¡£

â¡ æ§è½åæ°

â å¸¸è§é®é¢

Windows è·¯å¾é®é¢

SoX è¦å

æ¨¡åä¸è½½æ¢