Rongjie Huang

Hivatkozott rá

	Összes	2019 óta
Hivatkozások	1370	1367
h-index	17	17
i10-index	21	21

700

350

175

525

20212022202320245 97 560 698

Nyilvános hozzáférés

Összes megtekintése

10 cikk

0 cikk

elérhető

nem érhető el

Finanszírozási megbízások alapján

Társszerzők

Zhou ZhaoZhejiang UniversityE-mail megerősítve itt: zju.edu.cn
Yi Ren (任意)Research Scientist, TiktokE-mail megerősítve itt: bytedance.com
Jinglin Liu (刘静林)Research Scientist, ByteDanceE-mail megerősítve itt: bytedance.com
Zhenhui Ye (叶振辉)Zhejiang universityE-mail megerősítve itt: zju.edu.cn
Dongchao YangThe Chinese University of HongKongE-mail megerősítve itt: se.cuhk.edu.hk
Ziyue JiangZhejiang UniversityE-mail megerősítve itt: zju.edu.cn
Dong Yu (俞栋)Distinguished Scientist @ Tencent AI Lab, ACM/IEEE/ISCA FellowE-mail megerősítve itt: global.tencent.com
Xize Cheng（成曦泽）Zhejiang UniversityE-mail megerősítve itt: zju.edu.cn
Huadai LiuZhejiang UniversityE-mail megerősítve itt: zju.edu.cn
Jiatong Shi (史嘉彤)Carnegie Mellon UniversityE-mail megerősítve itt: andrew.cmu.edu
Xuankai ChangApple - Carnegie Mellon UniversityE-mail megerősítve itt: apple.com
Luping Liu (刘路平)The University of Hong KongE-mail megerősítve itt: connect.hku.hk
Shinji WatanabeCarnegie Mellon UniversityE-mail megerősítve itt: cmu.edu
Chunlei ZhangTencent AI Lab, Bellevue.E-mail megerősítve itt: global.tencent.com
Max W. Y. LamIndependent Researcher
Songxiang LiuPhD. from CUHK

Követés

Rongjie Huang

Facebook AI Research (FAIR), Zhejiang University

E-mail megerősítve itt: meta.com - Kezdőlap

Multimedia Computing Speech Natural Language Processing


Cím Rendezés hivatkozások szerint Rendezés év szerint Rendezés cím szerint	Hivatkozott rá Hivatkozott rá	Év
Make-an-audio: Text-to-audio generation with prompt-enhanced diffusion models R Huang, J Huang, D Yang, Y Ren, L Liu, M Li, Z Ye, J Liu, X Yin, Z Zhao ICML 2023, 2023	169	2023
FastDiff: A Fast Conditional Diffusion Model for High-Quality Speech Synthesis R Huang, MWY Lam, J Wang, D Su, D Yu, Y Ren, Z Zhao IJCAI 2022, 2022	134	2022
ProDiff: Progressive Fast Diffusion Model For High-Quality Text-to-Speech R Huang, Z Zhao, H Liu, J Liu, C Cui, Y Ren ACM MM 2022, 2022	129	2022
Bilateral denoising diffusion models MWY Lam, J Wang, R Huang, D Su, D Yu arXiv preprint arXiv:2108.11514, 2021	121*	2021
Audiogpt: Understanding and generating speech, music, sound, and talking head R Huang, M Li, D Yang, J Shi, X Chang, Z Ye, Y Wu, Z Hong, J Huang, ... Proceedings of the AAAI Conference on Artificial Intelligence 38 (21), 23802 …, 2024	112	2024
Multi-singer: Fast multi-singer singing voice vocoder with a large-scale corpus R Huang, F Chen, Y Ren, J Liu, C Cui, Z Zhao ACM MM 2021, 3945-3954, 2021	81	2021
GenerSpeech: Towards Style Transfer for Generalizable Out-Of-Domain Text-to-Speech R Huang, Y Ren, J Liu, C Cui, Z Zhao NeurIPS 2022, 2022	67	2022
SingGAN: Generative Adversarial Network For High-Fidelity Singing Voice Generation R Huang, C Cui, F Chen, Y Ren, J Liu, Z Zhao, B Huai, Z Wang ACM MM 2022, 2022	54	2022
M4Singer: a Multi-Style, Multi-Singer and Musical Score Provided Mandarin Singing Corpus L Zhang, R Li, S Wang, L Deng, J Liu, Y Ren, J He, R Huang, J Zhu, ... NeurIPS 2022, 2022	53	2022
Uniaudio: An audio foundation model toward universal audio generation D Yang, J Tian, X Tan, R Huang, S Liu, X Chang, J Shi, S Zhao, J Bian, ... arXiv preprint arXiv:2310.00704, 2023	52	2023
Instructtts: Modelling expressive tts in discrete latent space with natural language style prompt D Yang, S Liu, R Huang, C Weng, H Meng IEEE/ACM Transactions on Audio, Speech, and Language Processing, 2024	51	2024
Hifi-codec: Group-residual vector quantization for high fidelity audio codec D Yang, S Liu, R Huang, J Tian, C Weng, Y Zou arXiv preprint arXiv:2305.02765, 2023	49	2023
TranSpeech: Speech-to-Speech Translation With Bilateral Perturbation R Huang, Z Zhao, J Liu, H Liu, Y Ren, L Zhang, J He ICLR 2023, 2022	38	2022
Mega-tts: Zero-shot text-to-speech at scale with intrinsic inductive bias Z Jiang, Y Ren, Z Ye, J Liu, C Zhang, Q Yang, S Ji, R Huang, C Wang, ... arXiv preprint arXiv:2306.03509, 2023	36	2023
EMOVIE: A Mandarin Emotion Speech Dataset with a Simple Emotional Text-to-Speech Model C Cui, Y Ren, J Liu, F Chen, R Huang, M Lei, Z Zhao Interspeech, 2021, 2021	27	2021
Make-an-audio 2: Temporal-enhanced text-to-audio generation J Huang, Y Ren, R Huang, D Yang, Z Ye, C Zhang, J Liu, X Yin, Z Ma, ... arXiv preprint arXiv:2305.18474, 2023	22	2023
Make-a-voice: Unified voice synthesis with discrete representation R Huang, C Zhang, Y Wang, D Yang, L Liu, Z Ye, Z Jiang, C Weng, ... arXiv preprint arXiv:2305.19269, 2023	21	2023
Geneface++: Generalized and stable real-time audio-driven 3d talking face generation Z Ye, J He, Z Jiang, R Huang, J Huang, J Liu, Y Ren, X Yin, Z Ma, Z Zhao arXiv preprint arXiv:2305.00787, 2023	14	2023
Mixspeech: Cross-modality self-learning with audio-visual stream mixup for visual speech translation and recognition X Cheng, T Jin, R Huang, L Li, W Lin, Z Wang, Y Wang, H Liu, A Yin, ... Proceedings of the IEEE/CVF International Conference on Computer Vision …, 2023	14	2023
Clapspeech: Learning prosody from text context with contrastive language-audio pre-training Z Ye, R Huang, Y Ren, Z Jiang, J Liu, J He, X Yin, Z Zhao arXiv preprint arXiv:2305.10763, 2023	12	2023

A rendszer jelenleg nem tudja elvégezni a műveletet. Próbálkozzon újra később.

Cikkek 1–20

Hivatkozások évente

Ismétlődő hivatkozások

Összevont hivatkozások

Társszerzők hozzáadásaTársszerzők

Követés

Hivatkozott rá

Társszerzők