ISCA Archive

Keynote 1 ISCA Medallist

Bridging Speech Science and Technology — Now and Into the Future
Shrikanth Narayanan

Speech Synthesis: Prosody and Emotion

Emotional Talking Head Generation based on Memory-Sharing and Attention-Augmented Networks
Jianrong Wang, Yaxin Zhao, Li Liu, Tianyi Xu, Qi Li, Sen Li

Speech Synthesis with Self-Supervisedly Learnt Prosodic Representations
Zhao-Ci Liu, Zhen-Hua Ling, Ya-Jun Hu, Jia Pan, Jin-Wei Wang, Yun-Di Wu

EmoMix: Emotion Mixing via Diffusion Models for Emotional Speech Synthesis
Haobin Tang, Xulong Zhang, Jianzong Wang, Ning Cheng, Jing Xiao

Laughter Synthesis using Pseudo Phonetic Tokens with a Large-scale In-the-wild Laughter Corpus
Detai Xin, Shinnosuke Takamichi, Ai Morimatsu, Hiroshi Saruwatari

Explicit Intensity Control for Accented Text-to-speech
Rui Liu, Haolin Zuo, De Hu, Guanglai Gao, Haizhou Li

Comparing normalizing flows and diffusion models for prosody and acoustic modelling in text-to-speech
Guangyan Zhang, Thomas Merritt, Sam Ribeiro, Biel Tura-Vecino, Kayoko Yanagisawa, Kamil Pokora, Abdelhamid Ezzerg, Sebastian Cygert, Ammar Abbas, Piotr Bilinski, Roberto Barra-Chicote, Daniel Korzekwa, Jaime Lorenzo-Trueba

Statistical Machine Translation

Modular Speech-to-Text Translation for Zero-Shot Cross-Modal Transfer
Paul-Ambroise Duquenne, Holger Schwenk, Benoît Sagot

Improving Isochronous Machine Translation with Target Factors and Auxiliary Counters
Proyag Pal, Brian Thompson, Yogesh Virkar, Prashant Mathur, Alexandra Chronopoulou, Marcello Federico

StyleS2ST: Zero-shot Style Transfer for Direct Speech-to-speech Translation
Kun Song, Yi Ren, Yi Lei, Chunfeng Wang, Kun Wei, Lei Xie, Xiang Yin, Zejun Ma

Joint Speech Translation and Named Entity Recognition
Marco Gaido, Sara Papi, Matteo Negri, Marco Turchi

Analysis of Acoustic information in End-to-End Spoken Language Translation
Gerard Sant, Carlos Escolano

LAMASSU: A Streaming Language-Agnostic Multilingual Speech Recognition and Translation Model Using Neural Transducers
Peidong Wang, Eric Sun, Jian Xue, Yu Wu, Long Zhou, Yashesh Gaur, Shujie Liu, Jinyu Li

Self-Supervised Learning in ASR

DPHuBERT: Joint Distillation and Pruning of Self-Supervised Speech Models
Yifan Peng, Yui Sudo, Shakeel Muhammad, Shinji Watanabe

Automatic Data Augmentation for Domain Adapted Fine-Tuning of Self-Supervised Speech Representations
Salah Zaiem, Titouan Parcollet, Slim Essid

Dual Acoustic Linguistic Self-supervised Representation Learning for Cross-Domain Speech Recognition
Zhao Yang, Dianwen Ng, Chong Zhang, Xiao Fu, Rui Jiang, Wei Xi, Yukun Ma, Chongjia Ni, Eng Siong Chng, Bin Ma, Jizhong Zhao

O-1: Self-training with Oracle and 1-best Hypothesis
Murali Karthick Baskar, Andrew Rosenberg, Bhuvana Ramabhadran, Kartik Audhkhasi

MT4SSL: Boosting Self-Supervised Speech Representation Learning by Integrating Multiple Targets
Ziyang Ma, Zhisheng Zheng, Changli Tang, Yujin Wang, Xie Chen

Comparing Self-Supervised Pre-Training and Semi-Supervised Training for Speech Recognition in Languages with Weak Language Models
Léa-Marie Lam-Yee-Mui, Lucas Ondel Yang, Ondřej Klejch

Prosody

Chinese EFL Learners’ Perception of English Prosodic Focus
Xinya Zhang, Ying Chen

Pitch Accent Variation and the Interpretation of Rising and Falling Intonation in American English
Thomas Sostarics, Jennifer Cole

Tonal coarticulation as a cue for upcoming prosodic boundary
Jianjing Kuang, May Pik Yu Chan, Nari Rhee

Alignment of Beat Gestures and Prosodic Prominence in German
Sophie Repp, Lara Muhtz, Johannes Heim

Creak Prevalence and Prosodic Context in Australian English
Hannah White, Joshua Penney, Andy Gibson, Anita Szakay, Felicity Cox

Speech reduction: position within French prosodic structure
Kübra Bodur, Roxane Bertrand, James S. German, Stéphane Rauzy, Corinne Fredouille, Christine Meunier

Speech Production

Transvelar Nasal Coupling Contributing to Speaker Characteristics in Non-nasal Vowels
Ziyu Zhu, Yujie Chi, Zhao Zhang, Kiyoshi Honda, Jianguo Wei

Speech Synthesis from Articulatory Movements Recorded by Real-time MRI
Yuto Otani, Shun Sawada, Hidefumi Ohmura, Kouichi Katsurada

The ART of Conversation: Measuring Phonetic Convergence and Deliberate Imitation in L2-Speech with a Siamese RNN
Zheng Yuan, Aldo Pastore, Dorina de Jong, Hao Xu, Luciano Fadiga, Alessandro D'Ausilio

Did you see that? Exploring the role of vision in the development of consonant feature contrasts in children with cochlear implants
James Mahshie, Michael Larsen

Dysarthric Speech Assessment

Automatic assessments of dysarthric speech: the usability of acoustic-phonetic features
Loes van Bemmel, Chiara Pesenti, Xue Wei, Helmer Strik

Classification of Multi-class Vowels and Fricatives From Patients Having Amyotrophic Lateral Sclerosis with Varied Levels of Dysarthria Severity
Chowdam Venkata Thirumala Kumar, Tanuka Bhattacharjee, Yamini Belur, Atchayaram Nalini, Ravi Yadav, Prasanta Kumar Ghosh

Parameter-efficient Dysarthric Speech Recognition Using Adapter Fusion and Householder Transformation
Jinzi Qi, Hugo Van hamme

Few-shot Dysarthric Speech Recognition with Text-to-Speech Data Augmentation
Enno Hermann, Mathew Magimai.-Doss

Latent Phrase Matching for Dysarthric Speech
Dianna Yee, Colin Lea, Jaya Narain, Zifang Huang, Lauren Tooley, Jeffrey P. Bigham, Leah Findlater

Speech Intelligibility Assessment of Dysarthric Speech by using Goodness of Pronunciation with Uncertainty Quantification
Eun Jung Yeo, Kwanghee Choi, Sunhee Kim, Minhwa Chung

Speech Coding: Transmission and Enhancement

CQNV: A Combination of Coarsely Quantized Bitstream and Neural Vocoder for Low Rate Speech Coding
Youqiang Zheng, Li Xiao, Weiping Tu, Yuhong Yang, Xinmeng Xu

Target Speech Extraction with Conditional Diffusion Model
Naoyuki Kamo, Marc Delcroix, Tomohiro Nakatani

Towards Fully Quantized Neural Networks For Speech Enhancement
Elad Cohen, Hai Victor Habi, Arnon Netzer

Complex Image Generation SwinTransformer Network for Audio Denoising
Youshan Zhang, Jialu Li

Speech Recognition: Signal Processing, Acoustic Modeling, Robustness, Adaptation 1

Using Text Injection to Improve Recognition of Personal Identifiers in Speech
Yochai Blau, Rohan Agrawal, Lior Madmony, Gary Wang, Andrew Rosenberg, Zhehuai Chen, Zorik Gekhman, Genady Beryozkin, Parisa Haghani, Bhuvana Ramabhadran

Investigating wav2vec2 context representations and the effects of fine-tuning, a case-study of a Finnish model
Tamas Grosz, Yaroslav Getman, Ragheb Al-Ghezi, Aku Rouhe, Mikko Kurimo

Transformer-based Speech Recognition Models for Oral History Archives in English, German, and Czech
Jan Lehečka, Jan Švec, Josef V. Psutka, Pavel Ircing

Iteratively Improving Speech Recognition and Voice Conversion
Mayank Kumar Singh, Naoya Takahashi, Naoyuki Onoe

LABERT: A Combination of Local Aggregation and Self-Supervised Speech Representation Learning for Detecting Informative Hidden Units in Low-Resource ASR Systems
Kavan Fatehi, Ayse Kucukyilmaz

TranUSR: Phoneme-to-word Transcoder Based Unified Speech Representation Learning for Cross-lingual Speech Recognition
Hongfei Xue, Qijie Shao, Peikun Chen, Pengcheng Guo, Lei Xie, Jie Liu

Dual-Mode NAM: Effective Top-K Context Injection for End-to-End ASR
Zelin Wu, Tsendsuren Munkhdalai, Pat Rondon, Golan Pundak, Khe Chai Sim, Christopher Li

GhostRNN: Reducing State Redundancy in RNN with Cheap Operations
Hang Zhou, Xiaoxu Zheng, Yunhe Wang, Michael Bi Mi, Deyi Xiong, Kai Han

Task-Agnostic Structured Pruning of Speech Representation Models
Haoyu Wang, Siyuan Wang, Wei-Qiang Zhang, Suo Hongbin, Yulong Wan

Factual Consistency Oriented Speech Recognition
Naoyuki Kanda, Takuya Yoshioka, Yang Liu

Multi-Head State Space Model for Speech Recognition
Yassir Fathullah, Chunyang Wu, Yuan Shangguan, Junteng Jia, Wenhan Xiong, Jay Mahadeokar, Chunxi Liu, Yangyang Shi, Ozlem Kalinli, Mike Seltzer, Mark J. F. Gales

Cascaded Multi-task Adaptive Learning Based on Neural Architecture Search
Yingying Gao, Shilei Zhang, Zihao Cui, Chao Deng, Junlan Feng

Probing Self-supervised Speech Models for Phonetic and Phonemic Information: A Case Study in Aspiration
Kinan Martin, Jon Gauthier, Canaan Breiss, Roger Levy

Selective Biasing with Trie-based Contextual Adapters for Personalised Speech Recognition using Neural Transducers
Philip Harding, Sibo Tong, Simon Wiesler

Analysis of Speech and Audio Signals 1

Robust Prototype Learning for Anomalous Sound Detection
Xiao-Min Zeng, Yan Song, Ian McLoughlin, Lin Liu, Li-Rong Dai

A multimodal prototypical approach for unsupervised sound classification
Saksham Singh Kushwaha, Magdalena Fuentes

Robust Audio Anti-Spoofing with Fusion-Reconstruction Learning on Multi-Order Spectrograms
Penghui Wen, Kun Hu, Wenxi Yue, Sen Zhang, Wanlei Zhou, Zhiyong Wang

Adapting Language-Audio Models as Few-Shot Audio Learners
Jinhua Liang, Xubo Liu, Haohe Liu, Huy Phan, Emmanouil Benetos, Mark D. Plumbley, Wenwu Wang

TFECN: Time-Frequency Enhanced ConvNet for Audio Classification
Mengwei Wang, Zhe Yang

Resolution Consistency Training on Time-Frequency Domain for Semi-Supervised Sound Event Detection
Won-Gook Choi, Joon-Hyuk Chang

Fine-tuning Audio Spectrogram Transformer with Task-aware Adapters for Sound Event Detection
Kang Li, Yan Song, Ian McLoughlin, Lin Liu, Jin Li, Li-Rong Dai

Small Footprint Multi-channel Network for Keyword Spotting with Centroid Based Awareness
Dianwen Ng, Yang Xiao, Jia Qi Yip, Zhao Yang, Biao Tian, Qiang Fu, Eng Siong Chng, Bin Ma

Few-shot Class-incremental Audio Classification Using Adaptively-refined Prototypes
Wei Xie, Yanxiong Li, Qianhua He, Wenchang Cao, Tuomas Virtanen

Interpretable Latent Space Using Space-Filling Curves for Phonetic Analysis in Voice Conversion
Mohammad Hassan Vali, Tom Bäckström

Topological Data Analysis for Speech Processing
Eduard Tulchinskii, Kristian Kuznetsov, Laida Kushnareva, Daniil Cherniavskii, Serguei Barannikov, Irina Piontkovskaya, Sergey Nikolenko, Evgeny Burnaev

Recycle-and-Distill: Universal Compression Strategy for Transformer-based Speech SSL Models with Attention Map Reusing and Masking Distillation
Kangwook Jang, Sungnyun Kim, Se-Young Yun, Hoirin Kim

Personalized Acoustic Scene Classification in Ultra-low Power Embedded Devices Using Privacy-preserving Data Augmentation
Timm Koppelmann, Semih Agcaer, Rainer Martin

Background Domain Switch: A Novel Data Augmentation Technique for Robust Sound Event Detection
Wei-Cheng Lin, Luca Bondi, Shabnam Ghaffarzadegan

Joint Prediction of Audio Event and Annoyance Rating in an Urban Soundscape by Hierarchical Graph Representation Learning
Yuanbo Hou, Siyang Song, Cheng Luo, Andrew Mitchell, Qiaoqiao Ren, Weicheng Xie, Jian Kang, Wenwu Wang, Dick Botteldooren

Anomalous Sound Detection Using Self-Attention-Based Frequency Pattern Analysis of Machine Sounds
Hejing Zhang, Jian Guan, Qiaoxi Zhu, Feiyang Xiao, Youde Liu

Improving Audio-Text Retrieval via Hierarchical Cross-Modal Interaction and Auxiliary Captions
Yifei Xin, Yuexian Zou

Differential Privacy enabled Dementia Classification: An Exploration of the Privacy-Accuracy Trade-off in Speech Signal Data
Suhas BN, Sarah Rajtmajer, Saeed Abdullah

Learning Emotional Representations from Imbalanced Speech Data for Speech Emotion Recognition and Emotional Text-to-Speech
Shijun Wang, Jón Guðnason, Damian Borth

Towards Multi-Lingual Audio Question Answering
Swarup Ranjan Behera, Pailla Balakrishna Reddy, Achyut Mani Tripathi, Megavath Bharadwaj Rathod, Tejesh Karavadi

Speech Recognition: Architecture, Search, and Linguistic Components 1

Diacritic Recognition Performance in Arabic ASR
Hanan Aldarmaki, Ahmad Ghannam

Personalization for BERT-based Discriminative Speech Recognition Rescoring
Jari Kolehmainen, Yile Gu, Aditya Gourav, Prashanth Gurunath Shivakumar, Ankur Gandhe, Ariya Rastrow, Ivan Bulyko

On the N-gram Approximation of Pre-trained Language Models
Aravind Krishnan, Jesujoba O. Alabi, Dietrich Klakow

Record Deduplication for Entity Distribution Modeling in ASR Transcripts
Tianyu Huang, Chung Hoon Hong, Carl Wivagg, Kanna Shimizu

Learning When to Trust Which Teacher for Weakly Supervised ASR
Aakriti Agrawal, Milind Rao, Anit Kumar Sahu, Gopinath Chennupati, Andreas Stolcke

Text-only Domain Adaptation using Unified Speech-Text Representation in Transducer
Lu Huang, Boyu Li, Jun Zhang, Lu Lu, Zejun Ma

Speech Recognition: Technologies and Systems for New Applications 1

Syllable Discovery and Cross-Lingual Generalization in a Visually Grounded, Self-Supervised Speech Model
Puyuan Peng, Shang-Wen Li, Okko Räsänen, Abdelrahman Mohamed, David Harwath

Prompting the Hidden Talent of Web-Scale Speech Models for Zero-Shot Task Generalization
Puyuan Peng, Brian Yan, Shinji Watanabe, David Harwath

Progress and Prospects for Spoken Language Technology: Results from Five Sexennial Surveys
Roger K. Moore, Ricard Marxer

Acoustic Word Embeddings for Untranscribed Target Languages with Continued Pretraining and Learned Pooling
Ramon Sanabria, Ondřej Klejch, Hao Tang, Sharon Goldwater

CASA-ASR: Context-Aware Speaker-Attributed ASR
Mohan Shi, Zhihao Du, Qian Chen, Fan Yu, Yangze Li, Shiliang Zhang, Jie Zhang, Li-Rong Dai

Unsupervised Learning of Discrete Latent Representations with Data-Adaptive Dimensionality from Continuous Speech Streams
Shun Takahashi, Sakriani Sakti

AD-TUNING: An Adaptive CHILD-TUNING Approach to Efficient Hyperparameter Optimization of Child Networks for Speech Processing Tasks in the SUPERB Benchmark
Gaobin Yang, Jun Du, Maokui He, Shutong Niu, Baoxiang Li, Jiakui Li, Chin-Hui Lee

Distilling knowledge from Gaussian process teacher to neural network student
Jeremy H. M. Wong, Huayun Zhang, Nancy F. Chen

Segmental SpeechCLIP: Utilizing Pretrained Image-text Models for Audio-Visual Learning
Saurabhchand Bhati, Jesús Villalba, Laureano Moro-Velazquez, Thomas Thebaud, Najim Dehak

Towards hate speech detection in low-resource languages: Comparing ASR to acoustic word embeddings on Wolof and Swahili
Christiaan Jacobs, Nathanaël Carraz Rakotonirina, Everlyn Asiko Chimoto, Bruce A. Bassett, Herman Kamper

Mitigating Catastrophic Forgetting for Few-Shot Spoken Word Classification Through Meta-Learning
Ruan van der Merwe, Herman Kamper

Online Punctuation Restoration using ELECTRA Model for streaming ASR Systems
Martin Poláček, Petr Červa, Jindřich Žďánský, Lenka Weingartová

Language Agnostic Data-Driven Inverse Text Normalization
Szu-Jui Chen, Debjyoti Paul, Yutong Pang, Peng Su, Xuedong Zhang

How to Estimate Model Transferability of Pre-Trained Speech Models?
Zih-Ching Chen, Chao-Han Huck Yang, Bo Li, Yu Zhang, Nanxin Chen, Shuo-Yiin Chang, Rohit Prabhavalkar, Hung-yi Lee, Tara Sainath

Transcribing Speech as Spoken and Written Dual Text Using an Autoregressive Model
Mana Ihori, Hiroshi Sato, Tomohiro Tanaka, Ryo Masumura, Saki Mizuno, Nobukatsu Hojo

Lexical and Language Modeling for ASR

NoRefER: a Referenceless Quality Metric for Automatic Speech Recognition via Semi-Supervised Language Model Fine-Tuning with Contrastive Learning
Kamer Ali Yuksel, Thiago Castro Ferreira, Golara Javadi, Mohamed Al-Badrashiny, Ahmet Gunduz

Scaling Laws for Discriminative Speech Recognition Rescoring Models
Yile Gu, Prashanth Gurunath Shivakumar, Jari Kolehmainen, Ankur Gandhe, Ariya Rastrow, Ivan Bulyko

Exploring Energy-based Language Models with Different Architectures and Training Methods for Speech Recognition
Hong Liu, Zhaobiao Lv, Zhijian Ou, Wenbo Zhao, Qing Xiao

Memory Augmented Lookup Dictionary Based Language Modeling for Automatic Speech Recognition
Yukun Feng, Ming Tu, Rui Xia, Chuanzeng Huang, Yuxuan Wang

Memory Network-Based End-To-End Neural ES-KMeans for Improved Word Segmentation
Yu Iwamoto, Takahiro Shinozaki

Retraining-free Customized ASR for Enharmonic Words Based on a Named-Entity-Aware Model and Phoneme Similarity Estimation
Yui Sudo, Kazuya Hata, Kazuhiro Nakadai

Language Identification and Diarization

Lightweight and Efficient Spoken Language Identification of Long-form Audio
Winstead Zhu, Md Iftekhar Tanveer, Yang Janet Liu, Seye Ojumu, Rosie Jones

End to End Spoken Language Diarization with Wav2vec Embeddings
Jagabandhu Mishra, Jayadev N Patil, Amartya Chowdhury, Mahadeva Prasanna

Efficient Spoken Language Recognition via Multilabel Classification
Oriol Nieto, Zeyu Jin, Franck Dernoncourt, Justin Salamon

Description and Analysis of ABC Submission to NIST LRE 2022
Pavel Matejka, Anna Silnova, Josef Slavíček, Ladislav Mosner, Oldřich Plchot, Michal Klčo, Junyi Peng, Themos Stafylakis, Lukáš Burget

Exploring the Impact of Pretrained Models and Web-Scraped Data for the 2022 NIST Language Recognition Evaluation
Tanel Alumäe, Kunnar Kukk, Viet-Bac Le, Claude Barras, Abdel Messaoudi, Waad Ben Kheder

Advances in Language Recognition in Low Resource African Languages: The JHU-MIT Submission for NIST LRE22
Jesús Villalba, Jonas Borgstrom, Maliha Jahan, Saurabh Kataria, Leibny Paola Garcia, Pedro Torres-Carrasquillo, Najim Dehak

Speech Quality Assessment

DeePMOS: Deep Posterior Mean-Opinion-Score of Speech
Xinyu Liang, Fredrik Cumlin, Christian Schüldt, Saikat Chatterjee

The Role of Formant and Excitation Source Features in Perceived Naturalness of Low Resource Tribal Language TTS: An Empirical Study
Ashwini Dasare, Pradyoth Hegde, Supritha Shetty, Deepak K T

A no-reference speech quality assessment method based on neural network with densely connected convolutional architecture
Wuxuan Gong, Jing Wang, Yitong Liu, Hongwen Yang

Probing Speech Quality Information in ASR Systems
Bao Thang Ta, Minh Tu Le, Nhat Minh Le, Van Hai Do

Preference-based training framework for automatic speech quality assessment using deep neural network
Cheng-Hung Hu, Yusuke Yasuda, Tomoki Toda

Crowdsourced Data Validation for ASR Training
Wannaphong Phatthiyaphaibun, Chompakorn Chaksangchaichot, Thanawin Rakthammanon, Ekapol Chuangsuwanich, Sarana Nutanong

Feature Modeling for ASR

Re-investigating the Efficient Transfer Learning of Speech Foundation Model using Feature Fusion Methods
Zhouyuan Huo, Khe Chai Sim, Dongseong Hwang, Tsendsuren Munkhdalai, Tara Sainath, Pedro M. Mengibar

Robust Automatic Speech Recognition via WavAugment Guided Phoneme Adversarial Training
Gege Qi, Yuefeng Chen, Xiaofeng Mao, Xiaojun Jia, Ranjie Duan, Rong Zhang, Hui Xue

InterFormer: Interactive Local and Global Features Fusion for Automatic Speech Recognition
Zhi-Hao Lai, Tian-Hao Zhang, Qi Liu, Xinyuan Qian, Li-Fang Wei, Feng Chen, Song-Lu Chen, Xu-Cheng Yin

Transductive Feature Space Regularization for Few-shot Bioacoustic Event Detection
Yizhou Tan, Haojun Ai, Shengchen Li, Feng Zhang

Incorporating L2 Phonemes Using Articulatory Features for Robust Speech Recognition
Jisung Wang, Haram Lee, Myungwoo Oh

On the (In)Efficiency of Acoustic Feature Extractors for Self-Supervised Speech Representation Learning
Titouan Parcollet, Shucong Zhang, Rogier van Dalen, Alberto Gil C. P. Ramos, Sourav Bhattacharya

Interfacing Speech Technology and Phonetics

Phonemic competition in end-to-end ASR models
Louis ten Bosch, Martijn Bentum, Lou Boves

Automatic speaker recognition with variation across vocal conditions: a controlled experiment with implications for forensics
Vincent Hughes, Jessica Wormald, Paul Foulkes, Philip Harrison, Finnian Kelly, David van der Vloed, Poppy Welch, Chenzi Xu

Exploring Graph Theory Methods For the Analysis of Pronunciation Variation in Spontaneous Speech
Bernhard C. Geiger, Barbara Schuppler

Automatic Speaker Recognition performance with matched and mismatched female bilingual speech data
Bryony Nuttall, Philip Harrison, Vincent Hughes

Speech Synthesis: Multilinguality

FACTSpeech: Speaking a Foreign Language Pronunciation Using Only Your Native Characters
Hong-Sun Yang, Ji-Hoon Kim, Yoon-Cheol Ju, Il-Hwan Kim, Byeong-Yeol Kim, Shuk-Jae Choi, Hyung-Yong Kim

Cross-Lingual Transfer Learning for Phrase Break Prediction with Multilingual Language Model
Hoyeon Lee, Hyun-Wook Yoon, Jong-Hwan Kim, Jae-Min Kim

DSE-TTS: Dual Speaker Embedding for Cross-Lingual Text-to-Speech
Sen Liu, Yiwei Guo, Chenpeng Du, Xie Chen, Kai Yu

Generating Multilingual Gender-Ambiguous Text-to-Speech Voices
Konstantinos Markopoulos, Georgia Maniati, Georgios Vamvoukakis, Nikolaos Ellinas, Georgios Vardaxoglou, Panos Kakoulidis, Junkwang Oh, Gunu Jho, Inchul Hwang, Aimilios Chalamandaris, Pirros Tsiakoulis, Spyros Raptis

RAD-MMM: Multilingual Multiaccented Multispeaker Text To Speech
Rohan Badlani, Rafael Valle, Kevin J. Shih, João Felipe Santos, Siddharth Gururani, Bryan Catanzaro

Multilingual context-based pronunciation learning for Text-to-Speech
Giulia Comini, Sam Ribeiro, Fan Yang, Heereen Shim, Jaime Lorenzo-Trueba

Speech Emotion Recognition 1

Personalized Adaptation with Pre-trained Speech Encoders for Continuous Emotion Recognition
Minh Tran, Yufeng Yin, Mohammad Soleymani

The Importance of Calibration: Rethinking Confidence and Performance of Speech Multi-label Emotion Classifiers
Huang-Cheng Chou, Lucas Goncalves, Seong-Gyun Leem, Chi-Chun Lee, Carlos Busso

A Preliminary Study on Augmenting Speech Emotion Recognition using a Diffusion Model
Mohammad Ibrahim Malik, Siddique Latif, Raja Jurdak, Björn W. Schuller

Privacy Risks in Speech Emotion Recognition: A Systematic Study on Gender Inference Attack
Basmah Alsenani, Tanaya Guha, Alessandro Vinciarelli

Episodic Memory For Domain-Adaptable, Robust Speech Emotion Recognition
James Tavernor, Matthew Perez, Emily Mower Provost

Stable Speech Emotion Recognition with Head-k-Pooling Loss
Chaoyue Ding, Jiakui Li, Daoming Zong, Baoxiang Li, Tian-Hao Zhang, Qunyan Zhou

Show and Tell: Health applications and emotion recognition

A Personalised Speech Communication Application for Dysarthric Speakers
Matthew Gibson, Ievgen Karaulov, Oleksii Zhelo, Filip Jurcicek

Video Multimodal Emotion Recognition System for Real World Applications
Sun-Kyung Lee, Jong-Hwan Kim

Promoting Mental Self-Disclosure in a Spoken Dialogue System
Mahdin Rohmatillah, Bobbi Aditya, Li-Jen Yang, Bryan Gautama Ngo, Willianto Sulaiman, Jen-Tzung Chien

"Select language, modality or put on a mask!" Experiments with Multimodal Emotion Recognition
Paweł Bujnowski, Bartłomiej Kuźma, Bartłomiej Paziewski, Jacek Rutkowski, Joanna Marhula, Zuzanna Bordzicka, Piotr Andruszkiewicz

My Vowels Matter: Formant Automation Tools for Diverse Child Speech
Hannah Valentine, Joel MacAuslan, Maria Grigos, Marisha Speights

NEMA: An Ecologically Valid Tool for Assessing Hearing Devices, Advanced Algorithms, and Communication in Diverse Listening Environments
Nicky Chong-White, Arun Sebastian, Jorge Mejia

When Words Speak Just as Loudly as Actions: Virtual Agent Based Remote Health Assessment Integrating What Patients Say with What They Do
Vikram Ramanarayanan, David Pautler, Lakshmi Arbatti, Abhishek Hosamath, Michael Neumann, Hardik Kothare, Oliver Roesler, Jackson Liscombe, Andrew Cornish, Doug Habberstad, Vanessa Richter, David Fox, David Suendermann-Oeft, Ira Shoulson

Stuttering Detection Application
Kowshik Siva Sai Motepalli, Vamshiraghusimha Narasinga, Harsha Pathuri, Hina Khan, Sangeetha Mahesh, Ajish K. Abraham, Anil Kumar Vuppala

Providing Interpretable Insights for Neurological Speech and Cognitive Disorders from Interactive Serious Games
Mario Zusag, Laurin Wagner

Automated Neural Nursing Assistant (ANNA): An Over-The-Phone System for Cognitive Monitoring
Jacob Solinsky, Raymond Finzel, Martin Michalowski, Serguei Pakhomov

5G-IoT Cloud based Demonstration of Real-Time Audio-Visual Speech Enhancement for Multimodal Hearing-aids
Ankit Gupta, Abhijeet Bishnu, Mandar Gogate, Kia Dashtipour, Tughrul Arslan, Ahsan Adeel, Amir Hussain, Tharmalingam Ratnarajah, Mathini Sellathurai

Towards Two-point Neuron-inspired Energy-efficient Multimodal Open Master Hearing Aid
Mohsin Raza, Adewale Adetomi, Khubaib Ahmed, Amir Hussain, Tughrul Arslan, Ahsan Adeel

Spoken Dialog Systems and Conversational Analysis 1

FC-MTLF: A Fine- and Coarse-grained Multi-Task Learning Framework for Cross-Lingual Spoken Language Understanding
Xuxin Cheng, Wanshi Xu, Ziyu Yao, Zhihong Zhu, Yaowei Li, Hongxiang Li, Yuexian Zou

C²A-SLU: Cross and Contrastive Attention for Improving ASR Robustness in Spoken Language Understanding
Xuxin Cheng, Ziyu Yao, Zhihong Zhu, Yaowei Li, Hongxiang Li, Yuexian Zou

Tri-level Joint Natural Language Understanding for Multi-turn Conversational Datasets
Henry Weld, Sijia Hu, Siqu Long, Josiah Poon, Soyeon Han

Semantic Enrichment Towards Efficient Speech Representations
Gaëlle Laperrière, Ha Nguyen, Sahar Ghannay, Bassam Jabaian, Yannick Estève

Tensor decomposition for minimization of E2E SLU model toward on-device processing
Yosuke Kashiwagi, Siddhant Arora, Hayato Futami, Jessica Huynh, Shih-Lun Wu, Yifan Peng, Brian Yan, Emiru Tsunoo, Shinji Watanabe

DiffSLU: Knowledge Distillation Based Diffusion Model for Cross-Lingual Spoken Language Understanding
Tianjun Mao, Chenghong Zhang

Integrating Pretrained ASR and LM to Perform Sequence Generation for Spoken Language Understanding
Siddhant Arora, Hayato Futami, Yosuke Kashiwagi, Emiru Tsunoo, Brian Yan, Shinji Watanabe

Contrastive Learning Based ASR Robust Knowledge Selection For Spoken Dialogue System
Zhiyuan Zhu, Yusheng Liao, Yu Wang, Yunfeng Guan

Unsupervised Dialogue Topic Segmentation in Hyperdimensional Space
Seongmin Park, Jinkyu Seo, Jihwa Lee

An Investigation of the Combination of Rehearsal and Knowledge Distillation in Continual Learning for Spoken Language Understanding
Umberto Cappellazzo, Daniele Falavigna, Alessio Brutti

Enhancing New Intent Discovery via Robust Neighbor-based Contrastive Learning
Zhenhe Wu, Xiaoguang Yu, Meng Chen, Liangqing Wu, Jiahao Ji, Zhoujun Li

Personalized Predictive ASR for Latency Reduction in Voice Assistants
Andreas Schwarz, Di He, Maarten Van Segbroeck, Mohammed Hethnawi, Ariya Rastrow

Compositional Generalization in Spoken Language Understanding
Avik Ray, Yilin Shen, Hongxia Jin

Sampling bias in NLU models: Impact and Mitigation
Zefei Li, Anil Ramakrishna, Anna Rumshisky, Andy Rosenbaum, Saleh Solta, Rahul Gupta

5IDER: Unified Query Rewriting for Steering, Intent Carryover, Disfluencies, Entity Carryover and Repair
Jiarui Lu, Bo-Hsiang Tseng, Joel Ruben Antony Moniz, Site Li, Xueyun Zhu, Hong Yu, Murat Akbacak

Emotion Awareness in Multi-utterance Turn for Improving Emotion Prediction in Multi-Speaker Conversation
Xiaohan Shi, Xingfeng Li, Tomoki Toda

WhiSLU: End-to-End Spoken Language Understanding with Whisper
Minghan Wang, Yinglu Li, Jiaxin Guo, Xiaosong Qiao, Zongyao Li, Hengchao Shang, Daimeng Wei, Shimin Tao, Min Zhang, Hao Yang

Speech Coding and Enhancement 1

Biophysically-inspired single-channel speech enhancement in the time domain
Chuan Wen, Sarah Verhulst

On-Device Speaker Anonymization of Acoustic Embeddings for ASR based on Flexible Location Gradient Reversal Layer
Md Asif Jalal, Pablo Peso Parada, Jisi Zhang, Mete Ozay, Karthikeyan Saravanan, Myoungji Han, Jung In Lee, Seokyeong Jung

How to Construct Perfect and Worse-than-Coin-Flip Spoofing Countermeasures: A Word of Warning on Shortcut Learning
Hye-jin Shim, Rosa Gonzalez Hautamäki, Md Sahidullah, Tomi Kinnunen

CleanUNet 2: A Hybrid Speech Denoising Model on Waveform and Spectrogram
Zhifeng Kong, Wei Ping, Ambrish Dantrey, Bryan Catanzaro

A Two-stage Progressive Neural Network for Acoustic Echo Cancellation
Zhuangqi Chen, Xianjun Xia, Cheng Chen, Xianke Wang, Yanhong Leng, Li Chen, Roberto Togneri, Yijian Xiao, Piao Ding, Shenyi Song, Pingjian Zhang

An Intra-BRNN and GB-RVQ Based END-TO-END Neural Audio Codec
Linping Xu, Jiawei Jiang, Dejun Zhang, Xianjun Xia, Li Chen, Yijian Xiao, Piao Ding, Shenyi Song, Sixing Yin, Ferdous Sohel

Real-Time Personalised Speech Enhancement Transformers with Dynamic Cross-attended Speaker Representations
Shucong Zhang, Malcolm Chadwick, Alberto Gil C. P. Ramos, Titouan Parcollet, Rogier van Dalen, Sourav Bhattacharya

CFTNet: Complex-valued Frequency Transformation Network for Speech Enhancement
Nursadul Mamun, John H. L. Hansen

Feature Normalization for Fine-tuning Self-Supervised Models in Speech Enhancement
Hejung Yang, Hong-Goo Kang

Multi-mode Neural Speech Coding Based on Deep Generative Networks
Wei Xiao, Wenzhe Liu, Meng Wang, Shan Yang, Yupeng Shi, Yuyong Kang, Dan Su, Shidong Shang, Dong Yu

Streaming Dual-Path Transformer for Speech Enhancement
Soo Hyun Bae, Seok Wan Chae, Youngseok Kim, Keunsang Lee, Hyunjin Lim, Lae-Hoon Kim

Sequence-to-Sequence Multi-Modal Speech In-Painting
Mahsa Kadkhodaei Elyaderani, Shahram Shirani

Hybrid AHS: A Hybrid of Kalman Filter and Deep Learning for Acoustic Howling Suppression
Hao Zhang, Meng Yu, Yuzhong Wu, Tao Yu, Dong Yu

Differentially Private Adapters for Parameter Efficient Acoustic Modeling
Chun-Wei Ho, Chao-Han Huck Yang, Sabato Marco Siniscalchi

Incorporating Ultrasound Tongue Images for Audio-Visual Speech Enhancement through Knowledge Distillation
Rui-Chen Zheng, Yang Ai, Zhen-Hua Ling

Consonant-emphasis Method Incorporating Robust Consonant-section Detection to Improve Intelligibility of Bone-conducted speech
Yasufumi Uezu, Sicheng Wang, Teruki Toya, Masashi Unoki

Downstream Task Agnostic Speech Enhancement with Self-Supervised Representation Loss
Hiroshi Sato, Ryo Masumura, Tsubasa Ochiai, Marc Delcroix, Takafumi Moriya, Takanori Ashihara, Kentaro Shinayama, Saki Mizuno, Mana Ihori, Tomohiro Tanaka, Nobukatsu Hojo

Perceptual Improvement of Deep Neural Network (DNN) Speech Coder Using Parametric and Non-parametric Density Models
Joon Byun, Seungmin Shin, Jongmo Sung, Seungkwon Beack, Youngcheol Park

DeFT-AN RT: Real-time Multichannel Speech Enhancement using Dense Frequency-Time Attentive Network and Non-overlapping Synthesis Window
Dongheon Lee, Dayun Choi, Jung-Woo Choi

Speech Recognition: Signal Processing, Acoustic Modeling, Robustness, Adaptation 2

A More Accurate Internal Language Model Score Estimation for the Hybrid Autoregressive Transducer
Kyungmin Lee, Haeri Kim, Sichen Jin, Jinhwan Park, Youngho Han

Attention Gate Between Capsules in Fully Capsule-Network Speech Recognition
Kyungmin Lee, Hyeontaek Lim, Mun-Hwan Lee, Hong-Gee Kim

ML-SUPERB: Multilingual Speech Universal PERformance Benchmark
Jiatong Shi, Dan Berrebbi, William Chen, En-Pei Hu, Wei-Ping Huang, Ho-Lam Chung, Xuankai Chang, Shang-Wen Li, Abdelrahman Mohamed, Hung-yi Lee, Shinji Watanabe

General-purpose Adversarial Training for Enhanced Automatic Speech Recognition Model Generalization
Dohee Kim, Daeyeol Shim, Joon-Hyuk Chang

Joint Instance Reconstruction and Feature Subspace Alignment for Cross-Domain Speech Emotion Recognition
Keke Zhao, Peng Song, Shaokai Li, Wenming Zheng

Knowledge Distillation for Neural Transducer-based Target-Speaker ASR: Exploiting Parallel Mixture/Single-Talker Speech Data
Takafumi Moriya, Hiroshi Sato, Tsubasa Ochiai, Marc Delcroix, Takanori Ashihara, Kohei Matsuura, Tomohiro Tanaka, Ryo Masumura, Atsunori Ogawa, Taichi Asami

Random Utterance Concatenation Based Data Augmentation for Improving Short-video Speech Recognition
Yist Y. Lin, Tao Han, Haihua Xu, Van Tung Pham, Yerbolat Khassanov, Tze Yuang Chong, Yi He, Lu Lu, Zejun Ma

Adapter Incremental Continual Learning of Efficient Audio Spectrogram Transformers
Nithish Muthuchamy Selvaraj, Xiaobao Guo, Adams Kong, Bingquan Shen, Alex Kot

Rethinking Speech Recognition with A Multimodal Perspective via Acoustic and Semantic Cooperative Decoding
Tian-Hao Zhang, Hai-Bo Qin, Zhi-Hao Lai, Song-Lu Chen, Qi Liu, Feng Chen, Xinyuan Qian, Xu-Cheng Yin

Improving Code-Switching and Name Entity Recognition in ASR with Speech Editing based Data Augmentation
Zheng Liang, Zheshu Song, Ziyang Ma, Chenpeng Du, Kai Yu, Xie Chen

Bypass Temporal Classification: Weakly Supervised Automatic Speech Recognition with Imperfect Transcripts
Dongji Gao, Matthew Wiesner, Hainan Xu, Leibny Paola Garcia, Daniel Povey, Sanjeev Khudanpur

DCCRN-KWS: An Audio Bias Based Model for Noise Robust Small-Footprint Keyword Spotting
Shubo Lv, Xiong Wang, Sining Sun, Long Ma, Lei Xie

OTF: Optimal Transport based Fusion of Supervised and Self-Supervised Learning Models for Automatic Speech Recognition
Li Fu, Siqi Li, Qingtao Li, Fangzhu Li, Liping Deng, Lu Fan, Meng Chen, Youzheng Wu, Xiaodong He

Approximate Nearest Neighbour Phrase Mining for Contextual Speech Recognition
Maurits Bleeker, Pawel Swietojanski, Stefan Braun, Xiaodan Zhuang

Rehearsal-Free Online Continual Learning for Automatic Speech Recognition
Steven Vander Eeckt, Hugo Van hamme

Speech Recognition: Technologies and Systems for New Applications 2

Phonetic and Prosody-aware Self-supervised Learning Approach for Non-native Fluency Scoring
Kaiqi Fu, Shaojun Gao, Shuju Shi, Xiaohai Tian, Wei Li, Zejun Ma

Disentangling the Contribution of Non-native Speech in Automated Pronunciation Assessment
Shuju Shi, Kaiqi Fu, Yiwei Gu, Xiaohai Tian, Shaojun Gao, Wei Li, Zejun Ma

A Joint Model for Pronunciation Assessment and Mispronunciation Detection and Diagnosis with Multi-task Learning
Hyungshin Ryu, Sunhee Kim, Minhwa Chung

Assessing Intelligibility in Non-native Speech: Comparing Measures Obtained at Different Levels
Xing Wei, Roeland van Hout, Catia Cucchiarini, Danielle Reuvekamp, Helmer Strik

End-to-End Word-Level Pronunciation Assessment with MASK Pre-training
Yukang Liang, Kaitao Song, Shaoguang Mao, Huiqiang Jiang, Luna Qiu, Yuqing Yang, Dongsheng Li, Linli Xu, Lili Qiu

A Hierarchical Context-aware Modeling Approach for Multi-aspect and Multi-granular Pronunciation Assessment
Fu-An Chao, Tien-Hong Lo, Tzu-I Wu, Yao-Ting Sung, Berlin Chen

Automatic Prediction of Language Learners' Listenability Using Speech and Text Features Extracted from Listening Drills
Yingxiang Gao, Jaehyun Choi, Nobuaki Minematsu, Noriko Nakanishi, Daisuke Saito

Assessment of Non-Native Speech Intelligibility using Wav2vec2-based Mispronunciation Detection and Multi-level Goodness of Pronunciation Transformer
Ram C. M. C. Shekar, Mu Yang, Kevin Hirschi, Stephen Looney, Okim Kang, John H. L. Hansen

Adapting an Unadaptable ASR System
Rao Ma, Mengjie Qian, Mark J. F. Gales, Kate M. Knill

Addressing Cold Start Problem for End-to-end Automatic Speech Scoring
Jungbae Park, Seungtaek Choi

Improving grapheme-to-phoneme conversion by learning pronunciations from speech recordings
Sam Ribeiro, Giulia Comini, Jaime Lorenzo-Trueba

Orthography-based Pronunciation Scoring for Better CAPT Feedback
Caitlin Richter, Ragnar Pálsson, Luke O'Brien, Kolbrún Friðriksdóttir, Branislav Bédi, Eydís Huld Magnúsdóttir, Jón Guðnason

Zero-Shot Automatic Pronunciation Assessment
Hongfu Liu, Mingqian Shi, Ye Wang

Mispronunciation detection and diagnosis model for tonal language, applied to Vietnamese
Tuong Tu Huu, Viet Thanh Pham, Thi Thu Trang Nguyen, Thai Lai Dao

Keynote 2

Beyond the AI hype: Balancing Innovation and Social Responsibility
Virginia Dignum

Paralinguistics 1

Detection of Emotional Hotspots in Meetings Using a Cross-Corpus Approach
Georg Stemmer, Paulo Lopez Meyer, Juan Del Hoyo Ontiveros, Jose Lopez, Hector A. Cordourier, Tobias Bocklet

Detection of Laughter and Screaming Using the Attention and CTC Models
Takuto Matsuda, Yoshiko Arimoto

Capturing Formality in Speech Across Domains and Languages
Debasmita Bhattacharya, Jie Chi, Julia Hirschberg, Peter Bell

Towards Robust Family-Infant Audio Analysis Based on Unsupervised Pretraining of Wav2vec 2.0 on Large-Scale Unlabeled Family Audio
Jialu Li, Mark Hasegawa-Johnson, Nancy L. McElwain

Cues to next-speaker projection in conversational Swedish: Evidence from reaction times
Kathrin Feindt, Martina Rossi, Ghazaleh Esfandiari-Baiat, Axel G. Ekström, Margaret Zellers

Multiple Instance Learning for Inference of Child Attachment From Paralinguistic Aspects of Speech
Areej Buker, Huda Alsofyani, Alessandro Vinciarelli

Speech Enhancement and Denoising

Real-Time Joint Personalized Speech Enhancement and Acoustic Echo Cancellation
Sefik Emre Eskimez, Takuya Yoshioka, Alex Ju, Min Tang, Tanel Pärnamaa, Huaming Wang

TaylorBeamixer: Learning Taylor-Inspired All-Neural Multi-Channel Speech Enhancement from Beam-Space Dictionary Perspective
Andong Li, Weixin Meng, Guochen Yu, Wenzhe Liu, Xiaodong Li, Chengshi Zheng

MFT-CRN:Multi-scale Fourier Transform for Monaural Speech Enhancement
Yulong Wang, Xueliang Zhang

Variance-Preserving-Based Interpolation Diffusion Models for Speech Enhancement
Zilu Guo, Jun Du, Chin-Hui Lee, Yu Gao, Wenbin Zhang

Multi-input Multi-output Complex Spectral Mapping for Speaker Separation
Hassan Taherian, Ashutosh Pandey, Daniel Wong, Buye Xu, DeLiang Wang

Short-term Extrapolation of Speech Signals Using Recursive Neural Networks in the STFT Domain
Maurice Oberhag, Daniel Neudek, Rainer Martin, Tobias Rosenkranz, Henning Puder

Speech Synthesis: Evaluation

Listener sensitivity to deviating obstruents in WaveNet
Ayushi Pandey, Jens Edlund, Sébastien Le Maguer, Naomi Harte

How Generative Spoken Language Modeling Encodes Noisy Speech: Investigation from Phonetics to Syntactics
Joonyong Park, Shinnosuke Takamichi, Tomohiko Nakamura, Kentaro Seki, Detai Xin, Hiroshi Saruwatari

MOS vs. AB: Evaluating Text-to-Speech Systems Reliably Using Clustered Standard Errors
Joshua Camp, Tom Kenter, Lev Finkelstein, Rob Clark

RAMP: Retrieval-Augmented MOS Prediction via Confidence-based Dynamic Weighting
Hui Wang, Shiwan Zhao, Xiguang Zheng, Yong Qin

Can Better Perception Become a Disadvantage? Synthetic Speech Perception in Congenitally Blind Users
Gerda Ana Melnik-Leroy, Gediminas Navickas

Investigating Range-Equalizing Bias in Mean Opinion Score Ratings of Synthesized Speech
Erica Cooper, Junichi Yamagishi

End-to-end Spoken Dialog Systems

Can ChatGPT Detect Intent? Evaluating Large Language Models for Spoken Language Understanding
Mutian He, Philip N. Garner

Improving End-to-End SLU performance with Prosodic Attention and Distillation
Shangeth Rajaa

Modality Confidence Aware Training for Robust End-to-End Spoken Language Understanding
Suyoun Kim, Akshat Shrivastava, Duc Le, Ju Lin, Ozlem Kalinli, Michael L. Seltzer

Cross-Modal Semantic Alignment before Fusion for Two-Pass End-to-End Spoken Language Understanding
Lingyan Huang, Tao Li, Haodong Zhou, Qingyang Hong, Lin Li

ConvKT: Conversation-Level Knowledge Transfer for Context Aware End-to-End Spoken Language Understanding
Vishal Sunder, Eric Fosler-Lussier, Samuel Thomas, Hong-Kwang J Kuo, Brian Kingsbury

GhostT5: Generate More Features with Cheap Operations to Improve Textless Spoken Question Answering
Xuxin Cheng, Zhihong Zhu, Ziyu Yao, Hongxiang Li, Yaowei Li, Yuexian Zou

Biosignal-enabled Spoken Communication

Obstructive Sleep Apnea Detection using Pre-trained Speech Representations
Kaibo Zhang, Lili Cao, Yiming Ding, Yanru Li, Chao Zhang, Ji Wu, Demin Han

EEG-based Auditory Attention Detection with Spatiotemporal Graph and Graph Convolutional Network
Ruicong Wang, Siqi Cai, Haizhou Li

Silent Speech Recognition with Articulator Positions Estimated from Tongue Ultrasound and Lip Video
Rachel Beeson, Korin Richmond

Auditory Attention Detection in Real-Life Scenarios Using Common Spatial Patterns from EEG
Kai Yang, Zhuang Xie, Di Zhou, Longbiao Wang, Gaoyan Zhang

Diff-E: Diffusion-based Learning for Decoding Imagined Speech EEG
Soowon Kim, Young-Eun Lee, Seo-Hyun Lee, Seong-Whan Lee

Towards Ultrasound Tongue Image prediction from EEG during speech production
Tamás Gábor Csapó, Frigyes Viktor Arthur, Péter Nagy, Ádám Boncz

Adaptation of Tongue Ultrasound-Based Silent Speech Interfaces Using Spatial Transformer Networks
László Tóth, Amin Honarmandi Shandiz, Gábor Gosztolya, Tamás Gábor Csapó

STE-GAN: Speech-to-Electromyography Signal Conversion using Generative Adversarial Networks
Kevin Scheck, Tanja Schultz

Spanish Phone Confusion Analysis for EMG-Based Silent Speech Interfaces
Inge Salomons, Eder del Blanco, Eva Navas, Inma Hernáez

Hybrid Silent Speech Interface Through Fusion of Electroencephalography and Electromyography
Huiyan Li, Mingyi Wang, Han Gao, Shuo Zhao, Guang Li, You Wang

Neural-based Speech and Acoustic Analysis

Can Self-Supervised Neural Representations Pre-Trained on Human Speech distinguish Animal Callers?
Eklavya Sarkar, Mathew Magimai.-Doss

Discovering COVID-19 Coughing and Breathing Patterns from Unlabeled Data Using Contrastive Learning with Varying Pre-Training Domains
Jinjin Cai, Sudip Vhaduri, Xiao Luo

Background-aware Modeling for Weakly Supervised Sound Event Detection
Yifei Xin, Dongchao Yang, Yuexian Zou

How to (Virtually) Train Your Speaker Localizer
Prerak Srivastava, Antoine Deleforge, Archontis Politis, Emmanuel Vincent

MMER: Multimodal Multi-task Learning for Speech Emotion Recognition
Sreyan Ghosh, Utkarsh Tyagi, S Ramaneswaran, Harshvardhan Srivastava, Dinesh Manocha

A Multi-Task Learning Framework for Sound Event Detection using High-level Acoustic Characteristics of Sounds
Tanmay Khandelwal, Rohan Kumar Das

DiGo - Dialog for Good: Speech and Language Technology for Social Good

A Multimodal Investigation of Speech, Text, Cognitive and Facial Video Features for Characterizing Depression With and Without Medication
Michael Neumann, Hardik Kothare, Doug Habberstad, Vikram Ramanarayanan

Understanding Disrupted Sentences Using Underspecified Abstract Meaning Representation
Angus Addlesee, Marco Damonte

Developing Speech Processing Pipelines for Police Accountability
Anjalie Field, Prateek Verma, Nay San, Jennifer L. Eberhardt, Dan Jurafsky

Prosody-controllable Gender-ambiguous Speech Synthesis: A Tool for Investigating Implicit Bias in Speech Perception
Éva Székely, Joakim Gustafson, Ilaria Torre

Affective attributes of French caregivers' professional speech
Jean-Luc Rouas, Yaru Wu, Takaaki Shochi

Speech Recognition: Signal Processing, Acoustic Modeling, Robustness, Adaptation 3

ASR data augmentation in low-resource settings using cross-lingual multi-speaker TTS and cross-lingual voice conversion
Edresson Casanova, Christopher Shulby, Alexander Korolev, Arnaldo Candido Junior, Anderson da Silva Soares, Sandra Aluísio, Moacir Antonelli Ponti

Personality-aware Training based Speaker Adaptation for End-to-end Speech Recognition
Yue Gu, Zhihao Du, Shiliang Zhang, Qian Chen, Jiqing Han

Target Vocabulary Recognition Based on Multi-Task Learning with Decomposed Teacher Sequences
Aoi Ito, Tatsuya Komatsu, Yusuke Fujita, Yusuke Kida

Wave to Syntax: Probing spoken language models for syntax
Gaofei Shen, Afra Alishahi, Arianna Bisazza, Grzegorz Chrupała

Effective Training of Attention-based Contextual Biasing Adapters with Synthetic Audio for Personalised ASR
Burin Naowarat, Philip Harding, Pasquale D'Alterio, Sibo Tong, Bashar Awwad Shiekh Hasan

Pushing the Limits of Unsupervised Unit Discovery for SSL Speech Representation
Ziyang Ma, Zhisheng Zheng, Guanrou Yang, Yu Wang, Chao Zhang, Xie Chen

SlothSpeech: Denial-of-service Attack Against Speech Recognition Models
Mirazul Haque, Rutvij Shah, Simin Chen, Berrak Sisman, Cong Liu, Wei Yang

CLRL-Tuning: A Novel Continual Learning Approach for Automatic Speech Recognition
Zhihan Wang, Feng Hou, Ruili Wang

Exploring Sources of Racial Bias in Automatic Speech Recognition through the Lens of Rhythmic Variation
Li-Fang Lai, Nicole Holliday

Can Contextual Biasing Remain Effective with Whisper and GPT-2?
Guangzhi Sun, Xianrui Zheng, Chao Zhang, Philip C. Woodland

Masked Modeling Duo for Speech: Specializing General-Purpose Audio Representation to Speech using Denoising Distillation
Daisuke Niizumi, Daiki Takeuchi, Yasunori Ohishi, Noboru Harada, Kunio Kashino

Improving RNN Transducer Acoustic Models for English Conversational Speech Recognition
Xiaodong Cui, George Saon, Brian Kingsbury

MixRep: Hidden Representation Mixup for Low-Resource Speech Recognition
Jiamin Xie, John H. L. Hansen

Adapting Multi-Lingual ASR Models for Handling Multiple Talkers
Chenda Li, Yao Qian, Zhuo Chen, Naoyuki Kanda, Dongmei Wang, Takuya Yoshioka, Yanmin Qian, Michael Zeng

Adapter-tuning with Effective Token-dependent Representation Shift for Automatic Speech Recognition
Dianwen Ng, Chong Zhang, Ruixi Zhang, Yukun Ma, Trung Hieu Nguyen, Chongjia Ni, Shengkui Zhao, Qian Chen, Wen Wang, Eng Siong Chng, Bin Ma

Model-Internal Slot-triggered Biasing for Domain Expansion in Neural Transducer ASR Models
Yiting Lu, Philip Harding, Kanthashree Mysore Sathyendra, Sibo Tong, Xuandi Fu, Jing Liu, Feng-Ju Chang, Simon Wiesler, Grant P. Strimel

Delay-penalized CTC Implemented Based on Finite State Transducer
Zengwei Yao, Wei Kang, Fangjun Kuang, Liyong Guo, Xiaoyu Yang, Yifan Yang, Long Lin, Daniel Povey

Speech Recognition: Architecture, Search, and Linguistic Components 2

Text-Only Domain Adaptation for End-to-End Speech Recognition through Down-Sampling Acoustic Representation
Jiaxu Zhu, Weinan Tong, Yaoxun Xu, Changhe Song, Zhiyong Wu, Zhao You, Dan Su, Dong Yu, Helen Meng

Knowledge Distillation Approach for Efficient Internal Language Model Estimation
Zhipeng Chen, Haihua Xu, Yerbolat Khassanov, Yi He, Lu Lu, Zejun Ma, Ji Wu

Language Model Personalization for Improved Touchscreen Typing
Jiban Adhikary, Keith Vertanen

Blank Collapse: Compressing CTC Emission for the Faster Decoding
Minkyu Jung, Ohhyeok Kwon, Seunghyun Seo, Soonshin Seo

Improving Joint Speech-Text Representations Without Alignment
Cal Peyser, Zhong Meng, Rohit Prabhavalkar, Andrew Rosenberg, Tara Sainath, Michael Picheny, Kyunghyun Cho, Ke Hu

Leveraging Cross-Utterance Context For ASR Decoding
Robert Flynn, Anton Ragni

Knowledge Transfer from Pre-trained Language Models to Cif-based Speech Recognizers via Hierarchical Distillation
Minglun Han, Feilong Chen, Jing Shi, Shuang Xu, Bo Xu

Integration of Frame- and Label-synchronous Beam Search for Streaming Encoder-decoder Speech Recognition
Emiru Tsunoo, Hayato Futami, Yosuke Kashiwagi, Siddhant Arora, Shinji Watanabe

A Neural Time Alignment Module for End-to-End Automatic Speech Recognition
Dongcheng Jiang, Chao Zhang, Philip C. Woodland

Accelerating Transducers through Adjacent Token Merging
Yuang Li, Yu Wu, Jinyu Li, Shujie Liu

Language-Universal Phonetic Representation in Multilingual Speech Pretraining for Low-Resource Speech Recognition
Siyuan Feng, Ming Tu, Rui Xia, Chuanzeng Huang, Yuxuan Wang

Language-Routing Mixture of Experts for Multilingual and Code-Switching Speech Recognition
Wenxuan Wang, Guodong Ma, Yuke Li, Binbin Du

Embedding Articulatory Constraints for Low-resource Speech Recognition Based on Large Pre-trained Model
Jaeyoung Lee, Masato Mimura, Tatsuya Kawahara

Exploration of Efficient End-to-End ASR using Discretized Input from Self-Supervised Learning
Xuankai Chang, Brian Yan, Yuya Fujita, Takashi Maekaku, Shinji Watanabe

SpellMapper: A non-autoregressive neural spellchecker for ASR customization with candidate retrieval based on n-gram mappings
Alexandra Antonova, Evelina Bakhturina, Boris Ginsburg

Text Injection for Capitalization and Turn-Taking Prediction in Speech Models
Shaan Bijwadia, Shuo-Yiin Chang, Weiran Wang, Zhong Meng, Hao Zhang

Confidence-based Ensembles of End-to-End Speech Recognition Models
Igor Gitman, Vitaly Lavrukhin, Aleksandr Laptev, Boris Ginsburg

Unsupervised Code-switched Text Generation from Parallel Text
Jie Chi, Brian Lu, Jason Eisner, Peter Bell, Preethi Jyothi, Ahmed M. Ali

A Binary Keyword Spotting System with Error-Diffusion Based Feature Binarization
Dingyi Wang, Mengjie Luo, Lin Li, Xiaoqin Wang, Shushan Qiao, Yumei Zhou

Language-universal Phonetic Encoder for Low-resource Speech Recognition
Siyuan Feng, Ming Tu, Rui Xia, Chuanzeng Huang, Yuxuan Wang

A Lexical-aware Non-autoregressive Transformer-based ASR Model
Chong-En Lin, Kuan-Yu Chen

Improving Under-Resourced Code-Switched Speech Recognition: Large Pre-trained Models or Architectural Interventions
Joshua Jansen van Vüren, Thomas Niesler

Spoken Language Translation, Information Retrieval, Summarization, Resources, and Evaluation 1

Pragmatic Pertinence: A Learnable Confidence Metric to Assess the Subjective Quality of LM-Generated Text
Jerome R. Bellegarda

ASR and Emotional Speech: A Word-Level Investigation of the Mutual Impact of Speech and Emotion Recognition
Yuanchao Li, Zeyu Zhao, Ondřej Klejch, Peter Bell, Catherine Lai

BASS: Block-wise Adaptation for Speech Summarization
Roshan Sharma, Siddhant Arora, Kenneth Zheng, Shinji Watanabe, Rita Singh, Bhiksha Raj

Speaker Tracking using Graph Attention Networks with Varying Duration Utterances across Multi-Channel Naturalistic Data: Fearless Steps Apollo-11 Audio Corpus
Meena M. C. Shekar, John H. L. Hansen

Combining language corpora in a Japanese electromagnetic articulography database for acoustic-to-articulatory inversion
Tianfang Yan, Kikuo Maekawa, Yukiko Nota, Masayuki Hirata

A Dual Attention-based Modality-Collaborative Fusion Network for Emotion Recognition
Xiaoheng Zhang, Yang Li

Large Dataset Generation of Synchronized Music Audio and Lyrics at Scale using Teacher-Student Paradigm
Cristian Chivriga, Rinita Roy

Enc-Dec RNN Acoustic Word Embeddings learned via Pairwise Prediction
Adhiraj Banerjee, Vipul Arora

Query Based Acoustic Summarization for Podcasts
Samantha Kotey, Rozenn Dahyot, Naomi Harte

Spot Keywords From Very Noisy and Mixed Speech
Ying Shi, Dong Wang, Lantian Li, Jiqing Han, Shi Yin

Knowledge Distillation on Joint Task End-to-End Speech Translation
Khandokar Md. Nayem, Ran Xue, Ching-Yun Chang, Akshaya Vishnu Kudlu Shanbhogue

Investigating Pre-trained Audio Encoders in the Low-Resource Condition
Hao Yang, Jinming Zhao, Gholamreza Haffari, Ehsan Shareghi

Improving Textless Spoken Language Understanding with Discrete Units as Intermediate Target
Guan-Wei Wu, Guan-Ting Lin, Shang-Wen Li, Hung-yi Lee

Speech, Voice, and Hearing Disorders 1

Debiased Automatic Speech Recognition for Dysarthric Speech via Sample Reweighting with Sample Affinity Test
Eungbeom Kim, Yunkee Chae, Jaeheon Sim, Kyogu Lee

Multimodal Locally Enhanced Transformer for Continuous Sign Language Recognition
Katerina Papadimitriou, Gerasimos Potamianos

Towards Supporting an Early Diagnosis of Multiple Sclerosis using Vocal Features
Monica Gonzalez-Machorro, Pascal Hecker, Uwe D. Reichel, Helly N. Hammer, Robert Hoepner, Lisa Pedrotti, Alisha Zmutt, Hesam Sagha, Johan van Beek, Florian Eyben, Dagmar M. Schuller, Björn W. Schuller, Bert Arnrich

Whisper Features for Dysarthric Severity-Level Classification
Siddharth Rathod, Monil Charola, Akshat Vora, Yash Jogi, Hemant A. Patil

A New Benchmark of Aphasia Speech Recognition and Detection Based on E-Branchformer and Multi-task Learning
Jiyang Tang, William Chen, Xuankai Chang, Shinji Watanabe, Brian MacWhinney

Dysarthric Speech Recognition, Detection and Classification using Raw Phase and Magnitude Spectra
Zhengjun Yue, Erfan Loweimi, Zoran Cvetkovic

A Stutter Seldom Comes Alone – Cross-Corpus Stuttering Detection as a Multi-label Problem
Sebastian P. Bayerl, Dominik Wagner, Ilja Baumann, Florian Hönig, Tobias Bocklet, Elmar Nöth, Korbinian Riedhammer

Transfer Learning to Aid Dysarthria Severity Classification for Patients with Amyotrophic Lateral Sclerosis
Tanuka Bhattacharjee, Anjali Jayakumar, Yamini Belur, Atchayaram Nalini, Ravi Yadav, Prasanta Kumar Ghosh

DuTa-VC: A Duration-aware Typical-to-atypical Voice Conversion Approach with Diffusion Probabilistic Model
Helin Wang, Thomas Thebaud, Jesús Villalba, Myra Sydnor, Becky Lammers, Najim Dehak, Laureano Moro-Velazquez

CNVVE: Dataset and Benchmark for Classifying Non-verbal Voice
Ramin Hedeshy, Raphael Menges, Steffen Staab

Arabic Dysarthric Speech Recognition Using Adversarial and Signal-Based Augmentation
Massa Baali, Ibrahim Almakky, Shady Shehata, Fakhri Karray

Weakly-supervised forced alignment of disfluent speech using phoneme-level modeling
Theodoros Kouzelis, Georgios Paraskevopoulos, Athanasios Katsamanis, Vassilis Katsouros

Glottal source analysis of voice deficits in basal ganglia dysfunction: evidence from de novo Parkinson's disease and Huntington's disease
Michal Novotný, Tereza Tykalová, Michal Šimek, Tomáš Kouba, Jan Rusz

An Analysis of Glottal Features of Chronic Kidney Disease Speech and Its Application to CKD Detection
Jihyun Mun, Sunhee Kim, Myeong Ju Kim, Jiwon Ryu, Sejoong Kim, Minhwa Chung

Weakly supervised glottis segmentation in high-speed videoendoscopy using bounding box labels
Varun Belagali, Achuth Rao, Prasanta Kumar Ghosh

Speech Recognition: Technologies and Systems for New Applications 3

An Efficient and Noise-Robust Audiovisual Encoder for Audiovisual Speech Recognition
Zhengyang Li, Chenwei Liang, Timo Lohrenz, Marvin Sach, Björn Möller, Tim Fingscheidt

A Novel Self-training Approach for Low-resource Speech Recognition
Satwinder Singh, Feng Hou, Ruili Wang

FunASR: A Fundamental End-to-End Speech Recognition Toolkit
Zhifu Gao, Zerui Li, Jiaming Wang, Haoneng Luo, Xian Shi, Mengzhe Chen, Yabin Li, Lingyun Zuo, Zhihao Du, Shiliang Zhang

Streaming Audio-Visual Speech Recognition with Alignment Regularization
Pingchuan Ma, Niko Moritz, Stavros Petridis, Christian Fuegen, Maja Pantic

SparseVSR: Lightweight and Noise Robust Visual Speech Recognition
Adriana Fernandez-Lopez, Honglie Chen, Pingchuan Ma, Alexandros Haliassos, Stavros Petridis, Maja Pantic

Multimodal Speech Recognition for Language-Guided Embodied Agents
Allen Chang, Xiaoyuan Zhu, Aarav Monga, Seoho Ahn, Tejas Srinivasan, Jesse Thomason

Spoken Term Detection and Voice Search

Matching Latent Encoding for Audio-Text based Keyword Spotting
Kumari Nishu, Minsik Cho, Devang Naik

Self-Paced Pattern Augmentation for Spoken Term Detection in Zero-Resource
Sudhakar P, Sreenivasa K. Rao, Pabitra Mitra

On-Device Constrained Self-Supervised Speech Representation Learning for Keyword Spotting via Knowledge Distillation
Gene-Ping Yang, Yue Gu, Qingming Tang, Dongsu Du, Yuzong Liu

Online Continual Learning in Keyword Spotting for Low-Resource Devices via Pooling High-Order Temporal Statistics
Umberto Michieli, Pablo Peso Parada, Mete Ozay

Improving Small Footprint Few-shot Keyword Spotting with Supervision on Auxiliary Data
Seunghan Yang, Byeonggeun Kim, Kyuhong Shim, Simyoung Chang

Robust Keyword Spotting for Noisy Environments by Leveraging Speech Enhancement and Speech Presence Probability
Chouchang Yang, Yashas Malur Saidutta, Rakshith Sharma Srinivasa, Ching-Hua Lee, Yilin Shen, Hongxia Jin

Models for Streaming ASR

Enhancing the Unified Streaming and Non-streaming Model with Contrastive Learning
Yuting Yang, Yuke Li, Binbin Du

ZeroPrompt: Streaming Acoustic Encoders are Zero-Shot Masked LMs
Xingchen Song, Di Wu, Binbin Zhang, Zhendong Peng, Bo Dang, Fuping Pan, Zhiyong Wu

Improved Training for End-to-End Streaming Automatic Speech Recognition Model with Punctuation
Hanbyul Kim, Seunghyun Seo, Lukas Lee, Seolki Baek

DCTX-Conformer: Dynamic context carry-over for low latency unified streaming and non-streaming Conformer
Goeric Huybrechts, Srikanth Ronanki, Xilai Li, Hadis Nosrati, Sravan Bodapati, Katrin Kirchhoff

Knowledge Distillation from Non-streaming to Streaming ASR Encoder using Auxiliary Non-streaming Layer
Kyuhong Shim, Jinkyu Lee, Simyoung Chang, Kyuwoong Hwang

Adaptive Contextual Biasing for Transducer Based Streaming Speech Recognition
Tianyi Xu, Zhanheng Yang, Kaixun Huang, Pengcheng Guo, Ao Zhang, Biao Li, Changru Chen, Chao Li, Lei Xie

Source Separation

Audio-Visual Speech Separation in Noisy Environments with a Lightweight Iterative Model
Héctor Martel, Julius Richter, Kai Li, Xiaolin Hu, Timo Gerkmann

Remixing-based Unsupervised Source Separation from Scratch
Kohei Saijo, Tetsuji Ogawa

CAPTDURE: Captioned Sound Dataset of Single Sources
Yuki Okamoto, Kanta Shimonishi, Keisuke Imoto, Kota Dohi, Shota Horiguchi, Yohei Kawaguchi

Recursive Sound Source Separation with Deep Learning-based Beamforming for Unknown Number of Sources
Hokuto Munakata, Ryu Takeda, Kazunori Komatani

Multi-Channel Speech Separation with Cross-Attention and Beamforming
Ladislav Mosner, Oldřich Plchot, Junyi Peng, Lukáš Burget, Jan "Honza" Černocký

Background-Sound Controllable Voice Source Separation
Deokjun Eom, Woo Hyun Nam, Kyung-Rae Kim

Speech and Language in Health: From Remote Monitoring to Medical Conversations 1

An Automatic Multimodal Approach to Analyze Linguistic and Acoustic Cues on Parkinson's Disease Patients
Daniel Escobar-Grisales, Tomás Arias-Vergara, Cristian David Ríos-Urrego, Elmar Nöth, Adolfo M. García, Juan Rafael Orozco-Arroyave

Personalization for Robust Voice Pathology Detection in Sound Waves
Khanh-Tung Tran, Truong Hoang, Duy Khuong Nguyen, Hoang D. Nguyen, Xuan-Son Vu

Integrated and Enhanced Pipeline System to Support Spoken Language Analytics for Screening Neurocognitive Disorders
Helen Meng, Brian Mak, Man-Wai Mak, Helene Fung, Xianmin Gong, Timothy Kwok, Xunying Liu, Vincent Mok, Patrick Wong, Jean Woo, Xixin Wu, Ka Ho Wong, Shensheng Xu, Naijun Zheng, Ranzo Huang, Jiawen Kang, Xiaoquan Ke, Junan Li, Jinchao Li, Yi Wang

Capturing Mismatch between Textual and Acoustic Emotion Expressions for Mood Identification in Bipolar Disorder
Minxue Niu, Amrit Romana, Mimansa Jaiswal, Melvin McInnis, Emily Mower Provost

FTA-net: A Frequency and Time Attention Network for Speech Depression Detection
Qifei Li, Dong Wang, Yiming Ren, Yingming Gao, Ya Li

Bayesian Networks for the robust and unbiased prediction of depression and its symptoms utilizing speech and multimodal data
Salvatore Fara, Orlaith Hickey, Alexandra Georgescu, Stefano Goria, Emilia Molimpakis, Nicholas Cummins

Hyper-parameter Adaptation of Conformer ASR Systems for Elderly and Dysarthric Speech Recognition
Tianzi Wang, Shoukang Hu, Jiajun Deng, Zengrui Jin, Mengzhe Geng, Yi Wang, Helen Meng, Xunying Liu

Classifying depression symptom severity: Assessment of speech representations in personalized and generalized machine learning models.
Edward L. Campbell, Judith Dineley, Pauline Conde, Faith Matcham, Katie M. White, Carolin Oetzmann, Sara Simblett, Stuart Bruce, Amos A. Folarin, Til Wykes, Srinivasan Vairavan, Richard J. B. Dobson, Laura Docio-Fernandez, Carmen Garcia-Mateo, Vaibhav A. Narayan, Matthew Hotopf, Nicholas Cummins

Active Learning for Abnormal Lung Sound Data Curation and Detection in Asthma
Shabnam Ghaffarzadegan, Luca Bondi, Ho-Hsiang Wu, Sirajum Munir, Kelly J. Shields, Samarjit Das, Joseph Aracri

Automatic Assessment of Alzheimer's across Three Languages Using Speech and Language Features
Paula A. Pérez-Toro, Tomás Arias-Vergara, Franziska Braun, Florian Hönig, Carlos A. Tobón-Quintero, David Aguillón, Francisco Lopera, Liliana Hincapié-Henao, Maria Schuster, Korbinian Riedhammer, Andreas Maier, Elmar Nöth, Juan Rafael Orozco-Arroyave

On-the-Fly Feature Based Rapid Speaker Adaptation for Dysarthric and Elderly Speech Recognition
Mengzhe Geng, Xurong Xie, Rongfeng Su, Jianwei Yu, Zengrui Jin, Tianzi Wang, Shujie Hu, Zi Ye, Helen Meng, Xunying Liu

Relationship between LTAS-based spectral moments and acoustic parameters of hypokinetic dysarthria in Parkinson’s disease
Jan Svihlik, Vojtěch Illner, Petr Kryze, Mário Sousa, Paul Krack, Elina Tripoliti, Robert Jech, Jan Rusz

Respiratory distress estimation in human-robot interaction scenario
Eduardo Alvarado, Nicolás Grágeda, Alejandro Luzanto, Rodrigo Mahu, Jorge Wuth, Laura Mendoza, Richard Stern, Néstor Becerra Yoma

Prediction of the Gender-based Violence Victim Condition using Speech: What do Machine Learning Models rely on?
Emma Reyner-Fuentes, Esther Rituerto-González, Isabel Trancoso, Carmen Peláez-Moreno

Whisper Encoder features for Infant Cry Classification
Monil Charola, Aastha Kachhi, Hemant A. Patil

Speech Perception

A neural architecture for selective attention to speech features
Nika Jurov, William Idsardi, Naomi H. Feldman

Quantifying Informational Masking due to Masker Intelligibility in Same-talker Speech-in-speech Perception
Mingyue Huo, Yinglun Sun, Dan Fogerty, Yan Tang

On the Benefits of Self-supervised Learned Speech Representations for Predicting Human Phonetic Misperceptions
Santiago Cuervo, Ricard Marxer

Predicting Perceptual Centers Located at Vowel Onset in German Speech Using Long Short-Term Memory Networks
Felicia Schulz, Mirella De Sisto, M. Paula Roncaglia-Denissen, Peter Hendrix

Exploring the mutual intelligibility breakdown caused by sculpting speech from a competing speech signal
Martin Cooke, María Luisa García Lecumberri

Perception of Incomplete Voicing Neutralization of Obstruents in Tohoku Japanese
Mafuyu Kitahara, Naoya Watabe, Hiroto Noguchi, Chuyu Huang, Ayako Hashimoto, Ai Mizoguchi

Phonetics and Phonology: Languages and Varieties

The emergence of obstruent-intrinsic f0 and VOT as cues to the fortis/lenis contrast in West Central Bavarian
Jasmin Pöhnlein, Felicitas Kleber

〈'〉 in Tsimane': a Preliminary Investigation
William N. Havard, Yaya Sy, Camila Scaff, Loann Peurey, Alejandrina Cristia

Segmental features of Brazilian (Santa Catarina) Hunsrik
Dennis Hoffmann, Maria O'Reilly

Opening or Closing? An Electroglottographic Analysis of Voiceless Coda Consonants in Australian English
Louise Ratko, Joshua Penney, Felicity Cox

Increasing aspiration of word-medial fortis plosives in Swiss Standard German
Franka Zebe

Lexical Stress and Velar Palatalization in Italian: A spatio-temporal Interaction
Bowei Shao, Philipp Buech, Anne Hermes, Maria Giavazzi

Paralinguistics 2

Speaker Embeddings as Individuality Proxy for Voice Stress Detection
Zihan Wu, Neil Scheidwasser-Clow, Karl El Hajal, Milos Cernak

From Interval to Ordinal: A HMM based Approach for Emotion Label Conversion
Jingyao Wu, Ting Dang, Vidhyasaharan Sethu, Eliathamby Ambikairajah

Turbo your multi-modal classification with contrastive learning
Zhiyu Zhang, Da Liu, Shengqiang Liu, Anna Wang, Jie Gao, Yali Li

Towards Paralinguistic-Only Speech Representations for End-to-End Speech Emotion Recognition
Georgios Ioannides, Michael Owen, Andrew Fletcher, Viktor Rozgic, Chao Wang

SOT: Self-supervised Learning-Assisted Optimal Transport for Unsupervised Adaptive Speech Emotion Recognition
Ruiteng Zhang, Jianguo Wei, Xugang Lu, Yongwei Li, Junhai Xu, Di Jin, Jianhua Tao

On the Efficacy and Noise-Robustness of Jointly Learned Speech Emotion and Automatic Speech Recognition
Lokesh Bansal, S. Pavankumar Dubagunta, Malolan Chetlur, Pushpak Jagtap, Aravind Ganapathiraju

Speaking State Decoder with Transition Detection for Next Speaker Prediction
Shao-Hao Lu, Yun-Shao Lin, Chi-Chun Lee

What are differences? Comparing DNN and Human by Their Performance and Characteristics in Speaker Age Estimation
Yuki Kitagishi, Naohiro Tawara, Atsunori Ogawa, Ryo Masumura, Taichi Asami

Effects of perceived gender on the perceived social function of laughter
Joop Arts, Khiet P. Truong

Implicit phonetic information modeling for speech emotion recognition
Tilak Purohit, Bogdan Vlasenko, Mathew Magimai.-Doss

Computation and Memory Efficient Noise Adaptation of Wav2Vec2.0 for Noisy Speech Emotion Recognition with Skip Connection Adapters
Seong-Gyun Leem, Daniel Fulford, Jukka-Pekka Onnela, David Gard, Carlos Busso

Multi-Level Knowledge Distillation for Speech Emotion Recognition in Noisy Conditions
Yang Liu, Haoqin Sun, Geng Chen, Qingyue Wang, Zhen Zhao, Xugang Lu, Longbiao Wang

Preference Learning Labels by Anchoring on Consecutive Annotations
Abinay Reddy Naini, Ali N. Salman, Carlos Busso

Transforming the Embeddings: A Lightweight Technique for Speech Emotion Recognition Tasks
Orchid Chetia Phukan, Arun Balaji Buduru, Rajesh Sharma

Learning Local to Global Feature Aggregation for Speech Emotion Recognition
Cheng Lu, Hailun Lian, Wenming Zheng, Yuan Zong, Yan Zhao, Sunan Li

Supervised Contrastive Learning with Nearest Neighbor Search for Speech Emotion Recognition
Xuechen Wang, Shiwan Zhao, Yong Qin

Speaker and Language Identification 1

Vietnam-Celeb: a large-scale dataset for Vietnamese speaker recognition
Viet Thanh Pham, Xuan Thai Hoa Nguyen, Vu Hoang, Thi Thu Trang Nguyen

What Can an Accent Identifier Learn? Probing Phonetic and Prosodic Information in a Wav2vec2-based Accent Identification Model
Mu Yang, Ram C. M. C. Shekar, Okim Kang, John H. L. Hansen

The 2022 NIST Language Recognition Evaluation
Yooyoung Lee, Craig Greenberg, Eliot Godard, Asad A. Butt, Elliot Singer, Trang Nguyen, Lisa Mason, Douglas Reynolds

Description and analysis of the KPT system for NIST Language Recognition Evaluation 2022
Salvatore Sarni, Sandro Cumani, Sabato Marco Siniscalchi, Andrea Bottino

ACA-Net: Towards Lightweight Speaker Verification using Asymmetric Cross Attention
Jia Qi Yip, Duc-Tuan Truong, Dianwen Ng, Chong Zhang, Yukun Ma, Trung Hieu Nguyen, Chongjia Ni, Shengkui Zhao, Eng Siong Chng, Bin Ma

Branch-ECAPA-TDNN: A Parallel Branch Architecture to Capture Local and Global Features for Speaker Verification
Jiadi Yao, Chengdong Liang, Zhendong Peng, Binbin Zhang, Xiao-Lei Zhang

Speaker Verification Across Ages: Investigating Deep Speaker Embedding Sensitivity to Age Mismatch in Enrollment and Test Speech
Vishwanath Pratap Singh, Md Sahidullah, Tomi Kinnunen

Wavelet Scattering Transform for Improving Generalization in Low-Resourced Spoken Language Identification
Spandan Dey, Premjeet Singh, Goutam Saha

A Parameter-Efficient Learning Approach to Arabic Dialect Identification with Pre-Trained General-Purpose Speech Model
Srijith Radhakrishnan, Chao-Han Huck Yang, Sumeer Ahmad Khan, Narsis A. Kiani, David Gomez-Cabrero, Jesper N. Tegner

HABLA: A Dataset of Latin American Spanish Accents for Voice Anti-spoofing
Pablo Andrés Tamayo Flórez, Rubén Manrique, Bernardo Pereira Nunes

Self-supervised Learning Representation based Accent Recognition with Persistent Accent Memory
Rui Li, Zhiwei Xie, Haihua Xu, Yizhou Peng, Hexin Liu, Hao Huang, Eng Siong Chng

Extremely Low Bit Quantization for Mobile Speaker Verification Systems Under 1MB Memory
Bei Liu, Haoyu Wang, Yanmin Qian

Unsupervised Out-of-Distribution Dialect Detection with Mahalanobis Distance
Sourya Dipta Das, Yash Vadi, Abhishek Unnam, Kuldeep Yadav

pyannote.audio 2.1 speaker diarization pipeline: principle, benchmark, and recipe
Hervé Bredin

Model Compression for DNN-based Speaker Verification Using Weight Quantization
Jingyu Li, Wei Liu, Zhaoyang Zhang, Jiong Wang, Tan Lee

Multi-resolution Approach to Identification of Spoken Languages and To Improve Overall Language Diarization System Using Whisper Model
Bhavik Vachhani, Dipesh Singh, Rustom Lawyer

Improving Generalization Ability of Countermeasures for New Mismatch Scenario by Combining Multiple Advanced Regularization Terms
Chang Zeng, Xin Wang, Xiaoxiao Miao, Erica Cooper, Junichi Yamagishi

Dynamic Fully-Connected Layer for Large-Scale Speaker Verification
Zhida Song, Liang He, Baowei Zhao, Minqiang Xu, Yu Zheng

Show and Tell: Speech tools, speech enhancement, speech synthesis

DeepFilterNet: Perceptually Motivated Real-Time Speech Enhancement
Hendrik Schröter, Alberto N. Escalante-B., Tobias Rosenkranz, Andreas Maier

Nkululeko: Machine Learning Experiments on Speaker Characteristics Without Programming
Felix Burkhardt, Florian Eyben, Björn W. Schuller

Sp1NY: A Quick and Flexible Speech Visualisation Tool in Python
Sébastien Le Maguer, Mark Anderson, Naomi Harte

Intonation Control for Neural Text-to-Speech Synthesis with Polynomial Models of F0
Niamh Corkey, Johannah O'Mahony, Simon King

So-to-Speak: An Exploratory Platform for Investigating the Interplay between Style and Prosody in TTS
Éva Székely, Siyang Wang, Joakim Gustafson

Comparing /b/ and /d/ with a Single Physical Model of the Human Vocal Tract to Visualize Droplets Produced while Speaking
Takayuki Arai, Tsukasa Yoshinaga, Akiyoshi Iida

Show & Tell: Voice Activity Projection and Turn-taking
Erik Ekstedt, Gabriel Skantze

Real Time Detection of Soft Voice for Speech Enhancement
Hector A. Cordourier, Georg Stemmer, Sinem Aslan, Tobias Bocklet, Himanshu Bhalla

Data Augmentation for Diverse Voice Conversion in Noisy Environments
Avani Tanna, Michael Saxon, Amr El Abbadi, William Yang Wang

Application for Real-time Audio-Visual Speech Enhancement
Mandar Gogate, Kia Dashtipour, Amir Hussain

Speech Synthesis and Voice Conversion

Mitigating the Exposure Bias in Sentence-Level Grapheme-to-Phoneme (G2P) Transduction
Eunseop Yoon, Hee Suk Yoon, Dhananjaya Gowda, SooHwan Eom, Daehyeok Kim, John Harvill, Heting Gao, Mark Hasegawa-Johnson, Chanwoo Kim, Chang D. Yoo

Streaming Parrotron for on-device speech-to-speech conversion
Oleg Rybakov, Fadi Biadsy, Xia Zhang, Liyang Jiang, Phoenix Meadowlark, Shivani Agrawal

Exploiting Emotion Information in Speaker Embeddings for Expressive Text-to-Speech
Zein Shaheen, Tasnima Sadekova, Yulia Matveeva, Alexandra Shirshova, Mikhail Kudinov

E2E-S2S-VC: End-To-End Sequence-To-Sequence Voice Conversion
Takuma Okamoto, Tomoki Toda, Hisashi Kawai

DC CoMix TTS: An End-to-End Expressive TTS with Discrete Code Collaborated with Mixer
Yerin Choi, Myoung-Wan Koo

Voice Conversion With Just Nearest Neighbors
Matthew Baas, Benjamin van Niekerk, Herman Kamper

CFVC: Conditional Filtering for Controllable Voice Conversion
Kou Tanaka, Takuhiro Kaneko, Hirokazu Kameoka, Shogo Seki

DualVC: Dual-mode Voice Conversion using Intra-model Knowledge Distillation and Hybrid Predictive Coding
Ziqian Ning, Yuepeng Jiang, Pengcheng Zhu, Jixun Yao, Shuai Wang, Lei Xie, Mengxiao Bi

Attention-based Interactive Disentangling Network for Instance-level Emotional Voice Conversion
Yun Chen, Lingxiao Yang, Qi Chen, Jian-Huang Lai, Xiaohua Xie

ALO-VC: Any-to-any Low-latency One-shot Voice Conversion
Bohan Wang, Damien Ronssin, Milos Cernak

Evaluating and reducing the distance between synthetic and real speech distributions
Christoph Minixhofer, Ondřej Klejch, Peter Bell

Decoupling Segmental and Prosodic Cues of Non-native Speech through Vector Quantization
Waris Quamer, Anurag Das, Ricardo Gutierrez-Osuna

VC-T: Streaming Voice Conversion Based on Neural Transducer
Hiroki Kanagawa, Takafumi Moriya, Yusuke Ijima

Emo-StarGAN: A Semi-Supervised Any-to-Many Non-Parallel Emotion-Preserving Voice Conversion
Suhita Ghosh, Arnab Das, Yamini Sinha, Ingo Siegert, Tim Polzehl, Sebastian Stober

ControlVC: Zero-Shot Voice Conversion with Time-Varying Controls on Pitch and Speed
Meiying Chen, Zhiyao Duan

Reverberation-Controllable Voice Conversion Using Reverberation Time Estimator
Yeonjong Choi, Chao Xie, Tomoki Toda

Cross-utterance Conditioned Coherent Speech Editing
Cheng Yu, Yang Li, Weiqin Zu, Fanglei Sun, Zheng Tian, Jun Wang

Spoken Language Translation, Information Retrieval, Summarization, Resources, and Evaluation 2

MAVD: The First Open Large-Scale Mandarin Audio-Visual Dataset with Depth Information
Jianrong Wang, Yuchen Huo, Li Liu, Tianyi Xu, Qi Li, Sen Li

CN-Celeb-AV: A Multi-Genre Audio-Visual Dataset for Person Recognition
Lantian Li, Xiaolou Li, Haoyu Jiang, Chen Chen, Ruihai Hou, Dong Wang

Improving Zero-shot Cross-domain Slot Filling via Transformer-based Slot Semantics Fusion
Yuhang Li, Xiao Wei, Yuke Si, Longbiao Wang, Xiaobao Wang, Jianwu Dang

Rethinking Transfer and Auxiliary Learning for Improving Audio Captioning Transformer
Wooseok Shin, Hyun Joon Park, Jin Sob Kim, Dongwon Kim, Seungjin Lee, Sung Won Han

Boosting Punctuation Restoration with Data Generation and Reinforcement Learning
Viet Dac Lai, Abel Salinas, Hao Tan, Trung Bui, Quan Tran, Seunghyun Yoon, Hanieh Deilamsalehy, Franck Dernoncourt, Thien Huu Nguyen

J-ToneNet: A Transformer-based Encoding Network for Improving Tone Classification in Continuous Speech via F0 Sequences
Yi-Fen Liu, Xiang-Li Lu

Towards Cross-Language Prosody Transfer for Dialog
Jonathan E. Avila, Nigel G. Ward

Strategies for Improving Low Resource Speech to Text Translation Relying on Pre-trained ASR Models
Santosh Kesiraju, Marek Sarvaš, Tomáš Pavlíček, Cécile Macaire, Alejandro Ciuba

ITALIC: An Italian Intent Classification Dataset
Alkis Koudounas, Moreno La Quatra, Lorenzo Vaiani, Luca Colomba, Giuseppe Attanasio, Eliana Pastor, Luca Cagliero, Elena Baralis

Perceptual and Task-Oriented Assessment of a Semantic Metric for ASR Evaluation
Janine Rugayan, Giampiero Salvi, Torbjørn Svendsen

How ChatGPT is Robust for Spoken Language Understanding?
Guangpeng Li, Lu Chen, Kai Yu

GigaST: A 10,000-hour Pseudo Speech Translation Corpus
Rong Ye, Chengqi Zhao, Tom Ko, Chutong Meng, Tao Wang, Mingxuan Wang, Jun Cao

Boosting Chinese ASR Error Correction with Dynamic Error Scaling Mechanism
Jiaxin Fan, Yong Zhang, Hanzhang Li, Jianzong Wang, Zhitao Li, Sheng Ouyang, Ning Cheng, Jing Xiao

Crowdsource-based Validation of the Audio Cocktail as a Sound Browsing Tool
Per Fallgren, Jens Edlund

PunCantonese: A Benchmark Corpus for Low-Resource Cantonese Punctuation Restoration from Speech Transcripts
Yunxiang Li, Pengfei Liu, Xixin Wu, Helen Meng

Speech-to-Face Conversion Using Denoising Diffusion Probabilistic Models
Shuhei Kato, Taiichi Hashimoto

Inter-connection: Effective Connection between Pre-trained Encoder and Decoder for Speech Translation
Yuta Nishikawa, Satoshi Nakamura

Novel Transformer Models for ASR

Conmer: Streaming Conformer Without Self-attention for Interactive Voice Assistants
Martin Radfar, Paulina Lyskawa, Brandon Trujillo, Yi Xie, Kai Zhen, Jahn Heymann, Denis Filimonov, Grant P. Strimel, Nathan Susanj, Athanasios Mouchtaris

Intra-ensemble: A New Method for Combining Intermediate Outputs in Transformer-based Automatic Speech Recognition
Dohee Kim, Jieun Choi, Joon-Hyuk Chang

A Comparative Study on E-Branchformer vs Conformer in Speech Recognition, Translation, and Understanding Tasks
Yifan Peng, Kwangyoun Kim, Felix Wu, Brian Yan, Siddhant Arora, William Chen, Jiyang Tang, Suwon Shon, Prashant Sridhar, Shinji Watanabe

HyperConformer: Multi-head HyperMixer for Efficient Speech Recognition
Florian Mai, Juan Zuluaga-Gomez, Titouan Parcollet, Petr Motlicek

Memory-augmented conformer for improved end-to-end long-form ASR
Carlos Carvalho, Alberto Abad

Towards Effective and Compact Contextual Representation for Conformer Transducer Speech Recognition Systems
Mingyu Cui, Jiawen Kang, Jiajun Deng, Xi Yin, Yutao Xie, Xie Chen, Xunying Liu

Speaker Recognition 1

An Enhanced Res2Net with Local and Global Feature Fusion for Speaker Verification
Yafeng Chen, Siqi Zheng, Hui Wang, Luyao Cheng, Qian Chen, Jiajun Qi

A Study on Visualization of Voiceprint Feature
Jian Zhang, Liang He, Xiaochen Guo, Jing Ma

VoxTube: a multilingual speaker recognition dataset
Ivan Yakovlev, Anton Okhotnikov, Nikita Torgashov, Rostislav Makarov, Yuri Voevodin, Konstantin Simonchik

Visualizing Data Augmentation in Deep Speaker Recognition
Pengqi Li, Lantian Li, Askar Hamdulla, Dong Wang

Cross-lingual and Multilingual ASR

Fast and Efficient Multilingual Self-Supervised Pre-training for Low-Resource Speech Recognition
Zhilong Zhang, Wei Wang, Yanmin Qian

UniSplice: Universal Cross-Lingual Data Splicing for Low-Resource ASR
Wei Wang, Yanmin Qian

Allophant: Cross-lingual Phoneme Recognition with Articulatory Attributes
Kevin Glocker, Aaricia Herygers, Munir Georges

Phonetic-assisted Multi-Target Units Modeling for Improving Conformer-Transducer ASR system
Li Li, Dongxing Xu, Haoran Wei, Yanhua Long

Comparison of Multilingual Self-Supervised and Weakly-Supervised Speech Pre-Training for Adaptation to Unseen Languages
Andrew Rouditchenko, Sameer Khurana, Samuel Thomas, Rogerio Feris, Leonid Karlinsky, Hilde Kuehne, David Harwath, Brian Kingsbury, James Glass

DistilXLSR: A Light Weight Cross-Lingual Speech Representation Model
Haoyu Wang, Siyuan Wang, Wei-Qiang Zhang, Jinfeng Bai

Voice Conversion

Emotional Voice Conversion with Semi-Supervised Generative Modeling
Hai Zhu, Huayi Zhan, Hong Cheng, Ying Wu

Diff-HierVC: Diffusion-based Hierarchical Voice Conversion with Robust Pitch Generation and Masked Prior for Zero-shot Speaker Adaptation
Ha-Yeong Choi, Sang-Hoon Lee, Seong-Whan Lee

S2CD: Self-heuristic Speaker Content Disentanglement for Any-to-Any Voice Conversion
Pengfei Wei, Xiang Yin, Chunfeng Wang, Zhonghao Li, Xinghua Qu, Zhiqiang Xu, Zejun Ma

Flow-VAE VC: End-to-End Flow Framework with Contrastive Loss for Zero-shot Voice Conversion
Le Xu, Rongxiu Zhong, Ying Liu, Huibao Yang, Shilei Zhang

Automatic Speech Disentanglement for Voice Conversion using Rank Module and Speech Augmentation
Zhonghua Liu, Shijun Wang, Ning Chen

End-to-End Zero-Shot Voice Conversion with Location-Variable Convolutions
Wonjune Kang, Mark Hasegawa-Johnson, Deb Roy

Speech and Language in Health: From Remote Monitoring to Medical Conversations 2

Classifying Dementia in the Presence of Depression: A Cross-Corpus Study
Franziska Braun, Sebastian P. Bayerl, Paula A. Pérez-Toro, Florian Hönig, Hartmut Lehfeld, Thomas Hillemacher, Elmar Nöth, Tobias Bocklet, Korbinian Riedhammer

Exploiting Cross-Domain And Cross-Lingual Ultrasound Tongue Imaging Features For Elderly And Dysarthric Speech Recognition
Shujie Hu, Xurong Xie, Mengzhe Geng, Mingyu Cui, Jiajun Deng, Guinan Li, Tianzi Wang, Helen Meng, Xunying Liu

Multi-class Detection of Pathological Speech with Latent Features: How does it perform on unseen data?
Dominik Wagner, Ilja Baumann, Franziska Braun, Sebastian P. Bayerl, Elmar Nöth, Korbinian Riedhammer, Tobias Bocklet

Responsiveness, Sensitivity and Clinical Utility of Timing-Related Speech Biomarkers for Remote Monitoring of ALS Disease Progression
Hardik Kothare, Michael Neumann, Jackson Liscombe, Jordan Green, Vikram Ramanarayanan

Use of Speech Impairment Severity for Dysarthric Speech Recognition
Mengzhe Geng, Zengrui Jin, Tianzi Wang, Shujie Hu, Jiajun Deng, Mingyu Cui, Guinan Li, Jianwei Yu, Xurong Xie, Xunying Liu

MMLung: Moving Closer to Practical Lung Health Estimation using Smartphones
Mohammed Mosuily, Lindsay Welch, Jagmohan Chauhan

Investigating the Utility of Synthetic Data for Doctor-Patient Conversation Summarization
Siyuan Chen, Colin A. Grambow, Mojtaba Kadkhodaie Elyaderani, Alireza Sadeghi, Federico Fancellu, Thomas Schaaf

Non-uniform Speaker Disentanglement For Depression Detection From Raw Speech Signals
Jinhan Wang, Vijay Ravi, Abeer Alwan

PoCaPNet: A Novel Approach for Surgical Phase Recognition Using Speech and X-Ray Images
Kubilay Can Demir, Tobias Weise, Matthias May, Axel Schmid, Andreas Maier, Seung Hee Yang

Combining Multiple Multimodal Speech Features into an Interpretable Index Score for Capturing Disease Progression in Amyotrophic Lateral Sclerosis
Michael Neumann, Hardik Kothare, Vikram Ramanarayanan

The MASCFLICHT Corpus: Face Mask Type and Coverage Area Recognition from Speech
Adria Mallol-Ragolta, Nils Urbach, Shuo Liu, Anton Batliner, Björn W. Schuller

Towards Reference Speech Characterization for Health Applications
Catarina Botelho, Alberto Abad, Tanja Schultz, Isabel Trancoso

Automatic Classification of Hypokinetic and Hyperkinetic Dysarthria based on GMM-Supervectors
Cristian David Ríos-Urrego, Jan Rusz, Elmar Nöth, Juan Rafael Orozco-Arroyave

Towards robust paralinguistic assessment for real-world mobile health (mHealth) monitoring: an initial study of reverberation effects on speech
Judith Dineley, Ewan Carr, Faith Matcham, Johnny Downs, Richard J. B. Dobson, Thomas F. Quatieri, Nicholas Cummins

Pathological Speech Analysis 1

Multimodal Assessment of Bulbar Amyotrophic Lateral Sclerosis (ALS) Using a Novel Remote Speech Assessment App
Leif Simmatis, Timothy Pommeé, Yana Yunusova

On the Use of High Frequency Information for Voice Pathology Classification
David Martínez, Dayana Ribas, Eduardo Lleida

Do Phonatory Features Display Robustness to Characterize Parkinsonian Speech Across Corpora?
Anna Favaro, Tianyu Cao, Thomas Thebaud, Jesus Villalba, Ankur Butala, Najim Dehak, Laureano Moro-Velazquez

Severity Classification of Parkinson's Disease from Speech using Single Frequency Filtering-based Features
Sudarsana Reddy Kadiri, Manila Kodali, Paavo Alku

Comparison of acoustic measures of dysphonia in Parkinson's disease and Huntington's disease: Effect of sex and speaking task
Michal Šimek, Tomáš Kouba, Michal Novotný, Tereza Tykalová, Jan Rusz

Alzheimer Disease Classification through ASR-based Transcriptions: Exploring the Impact of Punctuation and Pauses
Lucía Gómez-Zaragozá, Simone Wills, Cristian Tejedor-Garcia, Javier Marín-Morales, Mariano Alcañiz, Helmer Strik

Multimodal Speech Emotion Recognition

LanSER: Language-Model Supported Speech Emotion Recognition
Taesik Gong, Josh Belanich, Krishna Somandepalli, Arsha Nagrani, Brian Eoff, Brendan Jou

Fine-tuned RoBERTa Model with a CNN-LSTM Network for Conversational Emotion Recognition
Jiachen Luo, Huy Phan, Joshua Reiss

Emotion Label Encoding Using Word Embeddings for Speech Emotion Recognition
Eimear Stanley, Eric DeMattos, Anita Klementiev, Piotr Ozimek, Georgia Clarke, Michael Berger, Dimitri Palaz

Discrimination of the Different Intents Carried by the Same Text Through Integrating Multimodal Information
Zhongjie Li, Gaoyan Zhang, Longbiao Wang, Jianwu Dang

Meta-domain Adversarial Contrastive Learning for Alleviating Individual Bias in Self-sentiment Predictions
Zhi Li, Ryu Takeda, Takahiro Hara

SWRR: Feature Map Classifier Based on Sliding Window Attention and High-Response Feature Reuse for Multimodal Emotion Recognition
Ziping Zhao, Tian Gao, Haishuai Wang, Björn W. Schuller

Speech Coding and Enhancement 2

PCNN: A Lightweight Parallel Conformer Neural Network for Efficient Monaural Speech Enhancement
Xinmeng Xu, Weiping Tu, Yuhong Yang

Exploring the Interactions Between Target Positive and Negative Information for Acoustic Echo Cancellation
Chang Han, Xinmeng Xu, Weiping Tu, Yuhong Yang, Yajie Liu

Iterative autoregression: a novel trick to improve your low-latency speech enhancement model
Pavel Andreev, Nicholas Babaev, Azat Saginbaev, Ivan Shchekotov, Aibek Alanov

A Multi-dimensional Deep Structured State Space Approach to Speech Enhancement Using Small-footprint Models
Pin-Jui Ku, Chao-Han Huck Yang, Sabato Siniscalchi, Chin-Hui Lee

Domain Adaptation for Speech Enhancement in a Large Domain Gap
Lior Frenkel, Jacob Goldberger, Shlomo E. Chazan

SCP-GAN: Self-Correcting Discriminator Optimization for Training Consistency Preserving Metric GAN on Speech Enhancement Tasks
Vasily Zadorozhnyy, Qiang Ye, Kazuhito Koishida

A Mask Free Neural Network for Monaural Speech Enhancement
Liang Liu, Haixin Guan, Jinlong Ma, Wei Dai, Guangyong Wang, Shaowei Ding

A Training and Inference Strategy Using Noisy and Enhanced Speech as Target for Speech Enhancement without Clean Speech
Li-Wei Chen, Yao-Fei Cheng, Hung-Shin Lee, Yu Tsao, Hsin-Min Wang

A Simple RNN Model for Lightweight, Low-compute and Low-latency Multichannel Speech Enhancement in the Time Domain
Ashutosh Pandey, Ke Tan, Buye Xu

High Fidelity Speech Enhancement with Band-split RNN
Jianwei Yu, Hangting Chen, Yi Luo, Rongzhi Gu, Chao Weng

Focus on the Sound around You: Monaural Target Speaker Extraction via Distance and Speaker Information
Jiuxin Lin, Peng Wang, Heinrich Dinkel, Jun Chen, Zhiyong Wu, Zhiyong Yan, Yongqing Wang, Junbo Zhang, Yujun Wang

DFSNet: A Steerable Neural Beamformer Invariant to Microphone Array Configuration for Real-Time, Low-Latency Speech Enhancement
Anton Kovalyov, Kashyap Patel, Issa Panahi

Speaker-Aware Anti-spoofing
Xuechen Liu, Md Sahidullah, Kong Aik Lee, Tomi Kinnunen

Impact of Residual Noise and Artifacts in Speech Enhancement Errors on Intelligibility of Human and Machine
Shoko Araki, Ayako Yamamoto, Tsubasa Ochiai, Kenichi Arai, Atsunori Ogawa, Tomohiro Nakatani, Toshio Irino

EffCRN: An Efficient Convolutional Recurrent Network for High-Performance Speech Enhancement
Marvin Sach, Jan Franzen, Bruno Defraene, Kristoff Fluyt, Maximilian Strake, Wouter Tirry, Tim Fingscheidt

HAD-ANC: A Hybrid System Comprising an Adaptive Filter and Deep Neural Networks for Active Noise Control
JungPhil Park, Jeong-Hwan Choi, Yungyeo Kim, Joon-Hyuk Chang

MSAF: A Multiple Self-Attention Field Method for Speech Enhancement
Minghang Chu, Jing Wang, Yaoyao Ma, Zhiwei Fan, Mengtao Yang, Chao Xu, Zhi Tao, Di Wu

Ultra Dual-Path Compression For Joint Echo Cancellation And Noise Suppression
Hangting Chen, Jianwei Yu, Yi Luo, Rongzhi Gu, Weihua Li, Zhuocheng Lu, Chao Weng

ABC-KD: Attention-Based-Compression Knowledge Distillation for Deep Learning-Based Noise Suppression
Yixin Wan, Yuan Zhou, Xiulian Peng, Kai-Wei Chang, Yan Lu

PLCMOS – A Data-driven Non-intrusive Metric for The Evaluation of Packet Loss Concealment Algorithms
Lorenz Diener, Marju Purin, Sten Sootla, Ando Saabas, Robert Aichner, Ross Cutler

Phonetics, Phonology, and Prosody 1

Effects of Meter, Genre and Experience on Pausing, Lengthening and Prosodic Phrasing in German Poetry Reading
Petra Wagner, Simon Betz

Comparing first spectral moment of Australian English /s/ between straight and gay voices using three analysis window sizes
Tünde Szalay, John Holik, Duy Duong Nguyen, James Morandini, Catherine J. Madill

Universal Automatic Phonetic Transcription into the International Phonetic Alphabet
Chihiro Taguchi, Yusuke Sakai, Parisa Haghani, David Chiang

Voice Twins: Discovering Extremely Similar-sounding, Unrelated Speakers
Linda Gerlach, Kirsty McDougall, Finnian Kelly, Anil Alexander

Filling the population statistics gap: Swiss German reference data on F0 and speech tempo for forensic contexts
Hannah Hedegard, Andrea Fröhlich, Fabian Tomaschek, Carina Steiner, Adrian Leemann

Investigating the Syntax-Discourse Interface in the Phonetic Implementation of Discourse Markers
Mathilde Hutin, Liesbeth Degand, Marc Allassonnière-Tang

Evaluation of a Forensic Automatic Speaker Recognition System with Emotional Speech Recordings
Robert Essery, Philip Harrison, Vincent Hughes

An Outlier Analysis of Vowel Formants from a Corpus Phonetics Pipeline
Emily P. Ahn, Gina-Anne Levow, Richard A. Wright, Eleanor Chodroff

The Hidden Dance of Phonemes and Visage: Unveiling the Enigmatic Link between Phonemes and Facial Features
Liao Qu, Xianwei Zou, Xiang Li, Yandong Wen, Rita Singh, Bhiksha Raj

Beatboxing Kick Drum Kinematics
Reed Blaylock, Shrikanth Narayanan

Effects of hearing loss and amplification on Mandarin consonant perception
Huali Zhou, Xianming Bei, Nengheng Zheng, Qinglin Meng

An Acoustic Analysis of Fricative Variation in Three Accents of English
Roland Adams, Calbert Graham

Acoustic cues to stress perception in Spanish – a mismatch negativity study
Karolina Broś

Bulgarian Unstressed Vowel Reduction: Received Views vs Corpus Findings
Mitko Sabev, Bistra Andreeva, Christoph Gabriel, Jonas Gruenke

An Investigation of Indian Native Language Phonemic Influences on L2 English Pronunciations
Shelly Jain, Priyanshi Pal, Anil Kumar Vuppala, Prasanta Kumar Ghosh, Chiranjeevi Yarra

Identifying Stable Sections for Formant Frequency Extraction of French Nasal Vowels Based on Difference Thresholds
Hye-Sook Park, Sunhee Kim

Evaluation of delexicalization methods for research on emotional speech
Nicolas Audibert, Francesca Carbone, Maud Champagne-Lavau, Aurélien Said Housseini, Caterina Petrone

Spoken Dialog Systems and Conversational Analysis 2

Relationship between auditory and semantic entrainment using Deep Neural Networks (DNN)
Jay Kejriwal, Štefan Beňuš

Unsupervised Auditory and Semantic Entrainment Models with Deep Neural Networks
Jay Kejriwal, Štefan Beňuš, Lina M. Rojas-Barahona

Parsing dialog turns with prosodic features in English
Elizabeth Nielsen, Mark Steedman, Sharon Goldwater

Estimation of Listening Response Timing by Generative Model and Parameter Control of Response Substantialness Using Dynamic-Prompt-Tune
Toshiki Muromachi, Yoshinobu Kano

Parameter Selection for Analyzing Conversations with Autism Spectrum Disorder
Tahiya Chowdhury, Veronica Romero, Amanda Stent

Efficient Multimodal Neural Networks for Trigger-less Voice Assistants
Sai Srujana Buddi, Utkarsh Oggy Sarawgi, Tashweena Heeramun, Karan Sawnhey, Ed Yanosik, Saravana Rathinam, Saurabh Adya

Rapid Lexical Alignment to a Conversational Agent
Rachel Ostrand, Victor S. Ferreira, David Piorkowski

Multimodal Turn-Taking Model Using Visual Cues for End-of-Utterance Prediction in Spoken Dialogue Systems
Fuma Kurata, Mao Saeki, Shinya Fujie, Yoichi Matsuyama

Audio-Visual Praise Estimation for Conversational Video based on Synchronization-Guided Multimodal Transformer
Nobukatsu Hojo, Saki Mizuno, Satoshi Kobashikawa, Ryo Masumura, Mana Ihori, Hiroshi Sato, Tomohiro Tanaka

Improving the response timing estimation for spoken dialogue systems by reducing the effect of speech recognition delay
Jin Sakuma, Shinya Fujie, Huaibo Zhao, Tetsunori Kobayashi

Focus-attention-enhanced Crossmodal Transformer with Metric Learning for Multimodal Speech Emotion Recognition
Keulbit Kim, Namhyun Cho

A Multiple-Teacher Pruning Based Self-Distillation (MT-PSD) Approach to Model Compression for Audio-Visual Wake Word Spotting
Haotian Wang, Jun Du, Hengshun Zhou, Chin-Hui Lee, Yuling Ren, Jiangjiang Zhao

Abusive Speech Detection in Indic Languages Using Acoustic Features
Anika A. Spiesberger, Andreas Triantafyllopoulos, Iosif Tsangko, Björn W. Schuller

Listening To Silences In Contact Center Conversations Using Textual Cues
Digvijay Anil Ingle, Ayush Kumar, Jithendra Vepa

I Learned Error, I Can Fix It! : A Detector-Corrector Structure for ASR Error Calibration
Heui-Yeen Yeen, Min-Ju Kim, Myoung-Wan Koo

Verbal and nonverbal feedback signals in response to increasing levels of miscommunication
Maeva Garnier, Eric Le Ferrand, Fabien Ringeval

Speech-Based Classification of Defensive Communication: A Novel Dataset and Results
Shahin Amiriparian, Lukas Christ, Regina Kushtanova, Maurice Gerczuk, Alexandra Teynor, Björn W. Schuller

Quantifying the perceptual value of lexical and non-lexical channels in speech
Sarenne Wallbridge, Peter Bell, Catherine Lai

Relationships Between Gender, Personality Traits and Features of Multi-Modal Data to Responses to Spoken Dialog Systems Breakdown
Kazuya Tsubokura, Yurie Iribe, Norihide Kitaoka

Speaker-aware Cross-modal Fusion Architecture for Conversational Emotion Recognition
Huan Zhao, Bo Li, Zixing Zhang

Analysis of Speech and Audio Signals 2

Blind Estimation of Room Impulse Response from Monaural Reverberant Speech with Segmental Generative Neural Network
Zhiheng Liao, Feifei Xiong, Juan Luo, Minjie Cai, Eng Siong Chng, Jinwei Feng, Xionghu Zhong

Emotion-Aware Audio-Driven Face Animation via Contrastive Feature Disentanglement
Xin Ren, Juan Luo, Xionghu Zhong, Minjie Cai

Anomalous Sound Detection Based on Sound Separation
Kanta Shimonishi, Kota Dohi, Yohei Kawaguchi

Random Forest Classification of Breathing Phases from Audio Signals Recorded using Mobile Devices
Vitória S. Fahed, Emer P Doheny, Madeleine M Lowery

GRAVO: Learning to Generate Relevant Audio from Visual Features with Noisy Online Videos
Youngdo Ahn, Chengyi Wang, Yu Wu, Jong Won Shin, Shujie Liu

Wav2ToBI: a new approach to automatic ToBI transcription
Wanyue Zhai, Mark Hasegawa-Johnson

Joint-Former: Jointly Regularized and Locally Down-sampled Conformer for Semi-supervised Sound Event Detection
Lijian Gao, Qirong Mao, Ming Dong

Towards Attention-based Contrastive Learning for Audio Spoof Detection
Chirag Goel, Surya Koppisetti, Ben Colman, Ali Shahriyari, Gaurav Bharaj

Masked Audio Modeling with CLAP and Multi-Objective Learning
Yifei Xin, Xiulian Peng, Yan Lu

Few-Shot Open-Set Learning for On-Device Customization of KeyWord Spotting Systems
Manuele Rusci, Tinne Tuytelaars

Self-Supervised Dataset Pruning for Efficient Training in Audio Anti-spoofing
Abdul Hameed Azeemi, Ihsan Ayyub Qazi, Agha Ali Raza

Semantic Segmentation with Bidirectional Language Models Improves Long-form ASR
W. Ronny Huang, Hao Zhang, Shankar Kumar, Shuo-Yiin Chang, Tara Sainath

Multi-microphone Automatic Speech Segmentation in Meetings Based on Circular Harmonics Features
Théo Mariotte, Anthony Larcher, Silvio Montrésor, Jean-Hugh Thomas

Advanced RawNet2 with Attention-based Channel Masking for Synthetic Speech Detection
Jing Li, Yanhua Long, Yijie Li, Dongxing Xu

Insights into end-to-end audio-to-score transcription with real recordings: A case study with saxophone works
Juan Carlos Martínez-Sevilla, María Alfaro-Contreras, Jose J. Valero-Mas, Jorge Calvo-Zaragoza

Whisper-AT: Noise-Robust Automatic Speech Recognizers are Also Strong General Audio Event Taggers
Yuan Gong, Sameer Khurana, Leonid Karlinsky, James Glass

Synthetic Voice Spoofing Detection based on Feature Pyramid Conformer
Jingran Gong, Ning Chen

Learning A Self-Supervised Domain-Invariant Feature Representation for Generalized Audio Deepfake Detection
Yuankun Xie, Haonan Cheng, Yutian Wang, Long Ye

Application of Knowledge Distillation to Multi-Task Speech Representation Learning
Mine Kerpicci, Van Nguyen, Shuhua Zhang, Erik Visser

DeCoR: Defy Knowledge Forgetting by Predicting Earlier Audio Codes
Xilin Jiang, Yinghao Aaron Li, Nima Mesgarani

Variational Classifier for Unsupervised Anomalous Sound Detection under Domain Generalization
Antonio Almudévar, Alfonso Ortega, Luis Vicente, Antonio Miguel, Eduardo Lleida

FlexiAST: Flexibility is What AST Needs
Jiu Feng, Mehmet Hamza Erol, Joon Son Chung, Arda Senocak

MCR-Data2vec 2.0: Improving Self-supervised Speech Pre-training via Model-level Consistency Regularization
Ji Won Yoon, Seok Min Kim, Nam Soo Kim

Visually-Aware Audio Captioning With Adaptive Audio-Visual Attention
Xubo Liu, Qiushi Huang, Xinhao Mei, Haohe Liu, Qiuqiang Kong, Jianyuan Sun, Shengchen Li, Tom Ko, Yu Zhang, Lilian H. Tang, Mark D. Plumbley, Volkan Kılıç, Wenwu Wang

Speech Coding: Privacy

Masking Kernel for Learning Energy-Efficient Representations for Speaker Recognition and Mobile Health
Apiwat Ditthapron, Emmanuel O. Agu, Adam C. Lammert

eSTImate: A Real-time Speech Transmission Index Estimator With Speech Enhancement Auxiliary Task Using Self-Attention Feature Pyramid Network
Bajian Xiang, Hongkun Liu, Zedong Wu, Su Shen, Xiangdong Zhang

Efficient Encoder-Decoder and Dual-Path Conformer for Comprehensive Feature Learning in Speech Enhancement
Junyu Wang

Privacy-preserving Representation Learning for Speech Understanding
Minh Tran, Mohammad Soleymani

Vocoder drift in x-vector–based speaker anonymization
Michele Panariello, Massimiliano Todisco, Nicholas Evans

Malafide: a novel adversarial convolutive noise attack against deepfake and spoofing detection systems
Michele Panariello, Wanying Ge, Hemlata Tak, Massimiliano Todisco, Nicholas Evans

Analysis of Neural Speech Representations

Speech Self-Supervised Representation Benchmarking: Are We Doing it Right?
Salah Zaiem, Youcef Kemiche, Titouan Parcollet, Slim Essid, Mirco Ravanelli

An extension of disentanglement metrics and its application to voice
Olivier Zhang, Olivier Le Blouch, Nicolas Gengembre, Damien Lolive

An Information-Theoretic Analysis of Self-supervised Discrete Representations of Speech
Badr M. Abdullah, Mohammed Maqsood Shaik, Bernd Möbius, Dietrich Klakow

SpeechGLUE: How Well Can Self-Supervised Speech Models Capture Linguistic Knowledge?
Takanori Ashihara, Takafumi Moriya, Kohei Matsuura, Tomohiro Tanaka, Yusuke Ijima, Taichi Asami, Marc Delcroix, Yukinori Honma

Comparison of GIF- and SSL-based Features in Pathological-voice Detection
Akira Sasou, Yang Chen

What is Learnt by the LEArnable Front-end (LEAF)? Adapting Per-Channel Energy Normalisation (PCEN) to Noisy Conditions
Hanyu Meng, Vidhyasaharan Sethu, Eliathamby Ambikairajah

End-to-end ASR

End-to-End Joint Target and Non-Target Speakers ASR
Ryo Masumura, Naoki Makishima, Taiga Yamane, Yoshihiko Yamazaki, Saki Mizuno, Mana Ihori, Mihiro Uchida, Keita Suzuki, Hiroshi Sato, Tomohiro Tanaka, Akihiko Takashima, Satoshi Suzuki, Takafumi Moriya, Nobukatsu Hojo, Atsushi Ando

Improving Frame-level Classifier for Word Timings with Non-peaky CTC in End-to-End Automatic Speech Recognition
Xianzhao Chen, Yist Y. Lin, Kang Wang, Yi He, Zejun Ma

Joint Autoregressive Modeling of End-to-End Multi-Talker Overlapped Speech Recognition and Utterance-level Timestamp Prediction
Naoki Makishima, Keita Suzuki, Satoshi Suzuki, Atsushi Ando, Ryo Masumura

Dual-Path Style Learning for End-to-End Noise-Robust Speech Recognition
Yuchen Hu, Nana Hou, Chen Chen, Eng Siong Chng

Multi-pass Training and Cross-information Fusion for Low-resource End-to-end Accented Speech Recognition
Xuefei Wang, Yanhua Long, Yijie Li, Haoran Wei

Text-only domain adaptation for end-to-end ASR using integrated text-to-mel-spectrogram generator
Vladimir Bataev, Roman Korostik, Evgeny Shabalin, Vitaly Lavrukhin, Boris Ginsburg

Spoken Language Understanding, Summarization, and Information Retrieval

Leveraging Pretrained ASR Encoders for Effective and Efficient End-to-End Speech Intent Classification and Slot Filling
He Huang, Jagadeesh Balam, Boris Ginsburg

Relation-based Counterfactual Data Augmentation and Contrastive Learning for Robustifying Natural Language Inference Models
Heerin Yang, Seung-won Hwang, Jungmin So

Transfer Learning from Pre-trained Language Models Improves End-to-End Speech Summarization
Kohei Matsuura, Takanori Ashihara, Takafumi Moriya, Tomohiro Tanaka, Takatomo Kano, Atsunori Ogawa, Marc Delcroix

Audio Retrieval with WavText5K and CLAP Training
Soham Deshmukh, Benjamin Elizalde, Huaming Wang

Sequence-Level Knowledge Distillation for Class-Incremental End-to-End Spoken Language Understanding
Umberto Cappellazzo, Muqiao Yang, Daniele Falavigna, Alessio Brutti

Contrastive Disentangled Learning for Memory-Augmented Transformer
Jen-Tzung Chien, Shang-En Li

Invariant and Robust Pre-trained Acoustic Models

ProsAudit, a prosodic benchmark for self-supervised speech models
Maureen de Seyssel, Marvin Lavechin, Hadrien Titeux, Arthur Thomas, Gwendal Virlet, Andrea Santos Revilla, Guillaume Wisniewski, Bogdan Ludusan, Emmanuel Dupoux

Self-supervised Predictive Coding Models Encode Speaker and Phonetic Information in Orthogonal Subspaces
Oli Danyi Liu, Hao Tang, Sharon Goldwater

Evaluating context-invariance in unsupervised speech representations
Mark Hallap, Emmanuel Dupoux, Ewan Dunbar

CoBERT: Self-Supervised Speech Representation Learning Through Code Representation Learning
Chutong Meng, Junyi Ao, Tom Ko, Mingxuan Wang, Haizhou Li

Self-supervised Fine-tuning for Improved Content Representations by Speaker-invariant Clustering
Heng-Jui Chang, Alexander H. Liu, James Glass

Self-Supervised Acoustic Word Embedding Learning via Correspondence Transformer Encoder
Jingru Lin, Xianghu Yue, Junyi Ao, Haizhou Li

Pathological Speech Analysis 2

A Pipeline to Evaluate the Effects of Noise on Machine Learning Detection of Laryngeal Cancer
Mary Paterson, James Moor, Luisa Cutillo

ReCLR: Reference-Enhanced Contrastive Learning of Audio Representation for Depression Detection
Pingyue Zhang, Mengyue Wu, Kai Yu

Automated Multiple Sclerosis Screening Based on Encoded Speech Representations
José Egas-López, Veronika Svindt, Judit Bóna, Ildikó Hoffmann, Gábor Gosztolya

Cross-Lingual Features for Alzheimer’s Dementia Detection from Speech
Thomas Melistas, Lefteris Kapelonis, Nikos Antoniou, Petros Mitseas, Dimitris Sgouropoulos, Theodoros Giannakopoulos, Athanasios Katsamanis, Shrikanth Narayanan

Careful Whisper - leveraging advances in automatic speech recognition for robust and interpretable aphasia subtype classification
Mario Zusag, Laurin Wagner, Theresa Bloder

Behavioral Analysis of Pathological Speaker Embeddings of Patients During Oncological Treatment of Oral Cancer
Jenthe Thienpondt, Caroline M. Speksnijder, Kris Demuynck

Speech Synthesis: Representation Learning

Adversarial Learning of Intermediate Acoustic Feature for End-to-End Lightweight Text-to-Speech
Hyungchan Yoon, Seyun Um, Changhwan Kim, Hong-Goo Kang

Adapter-Based Extension of Multi-Speaker Text-To-Speech Model for New Speakers
Cheng-Ping Hsieh, Subhankar Ghosh, Boris Ginsburg

SALTTS: Leveraging Self-Supervised Speech Representations for improved Text-to-Speech Synthesis
Ramanan Sivaguru, Vasista Sai Lodagala, S Umesh

UnitSpeech: Speaker-adaptive Speech Synthesis with Untranscribed Data
Heeseung Kim, Sungwon Kim, Jiheum Yeom, Sungroh Yoon

LightVoc: An Upsampling-Free GAN Vocoder Based On Conformer And Inverse Short-time Fourier Transform
Dinh Son Dang, Tung Lam Nguyen, Bao Thang Ta, Tien Thanh Nguyen, Thi Ngoc Anh Nguyen, Dang Linh Le, Nhat Minh Le, Van Hai Do

ChatGPT-EDSS: Empathetic Dialogue Speech Synthesis Trained from ChatGPT-derived Context Word Embeddings
Yuki Saito, Shinnosuke Takamichi, Eiji Iimori, Kentaro Tachibana, Hiroshi Saruwatari

Speech Perception, Production, and Acquisition 1

Human Transcription Quality Improvement
Jian Gao, Hanbo Sun, Cheng Cao, Zheng Du

The effect of masking noise on listeners’ spectral tilt preferences
Olympia Simantiraki, Yannis Pantazis, Martin Cooke

The Effect of Whistled Vowels on Whistled Word Categorization for Naive Listeners
Anais Tran Ngoc, Fanny Meunier, Julien Meyer

Automatic Deep Neural Network-Based Segmental Pronunciation Error Detection of L2 English Speech (L1 Bengali)
Puja Bharati, Sabyasachi Chandra, Shayamal Kumar Das Mandal

The effect of stress on Mandarin tonal perception in continuous speech for Spanish-speaking learners
Lixia Hao, Qi Gong, Jinsong Zhang

Combining acoustic and aerodynamic data collection: A perceptual evaluation of acoustic distortions
Amélie Elmerich, Jiayin Gao, Angelique Amelot, Lise Crevier-Buchman, Shinji Maeda

Estimating virtual targets for lingual stop consonants using general Tau theory
Benjamin Elie, Alice Turk

Using Random Forests to classify language as a function of syllable timing in two groups: children with cochlear implants and with normal hearing
Mark Gibson

An Improved End-to-End Audio-Visual Speech Recognition Model
Sheng Yang, Zheng Gong, Jia Kang

What influences the foreign accent strength? Phonological and grammatical errors in the perception of accentedness
Sarah Wesołek, Piotr Gulgowski, Joanna Błaszczak, Marzena Żygis

Investigating the Perception Production Link through Perceptual Adaptation and Phonetic Convergence
Lena-Marie Huttner, Noël Nguyen, Martin J. Pickering

Emotion Prompting for Speech Emotion Recognition
Xingfa Zhou, Min Li, Lan Yang, Rui Sun, Xin Wang, Huayi Zhan

Speech-in-Speech Recognition is Modulated by Familiarity to Dialect
Jessica L. L. Chin, Elena Talevska, Mark Antoniou

BASEN: Time-Domain Brain-Assisted Speech Enhancement Network with Convolutional Cross Attention in Multi-talker Conditions
Jie Zhang, QingTian Xu, Qiu-Shi Zhu, Zhen-Hua Ling

Are retroflex-to-dental sibilant substitutions in Polish children's speech an example of a covert contrast? A preliminary acoustic study
Zuzanna Miodonska, Claartje Levelt, Natalia Mocko, Michał Kręcichwost, Agata Sage, Pawel Badura

Speaker and Language Identification 2

Reversible Neural Networks for Memory-Efficient Speaker Verification
Bei Liu, Yanmin Qian

ECAPA++: Fine-grained Deep Embedding Learning for TDNN Based Speaker Verification
Bei Liu, Yanmin Qian

TO-Rawnet: Improving RawNet with TCN and Orthogonal Regularization for Fake Audio Detection
Chenglong Wang, Jiangyan Yi, Jianhua Tao, Chu Yuan Zhang, Shuai Zhang, Ruibo Fu, Xun Chen

Fooling Speaker Identification Systems with Adversarial Background Music
Chu-Xiao Zuo, Jia-Yi Leng, Wu-Jun Li

Mutual Information-based Embedding Decoupling for Generalizable Speaker Verification
Jianchen Li, Jiqing Han, Shiwen Deng, Tieran Zheng, Yongjun He, Guibin Zheng

Target Active Speaker Detection with Audio-visual Cues
Yidi Jiang, Ruijie Tao, Zexu Pan, Haizhou Li

Improving End-to-End Neural Diarization Using Conversational Summary Representations
Samuel J. Broughton, Lahiru Samarakoon

Phase perturbation improves channel robustness for speech spoofing countermeasures
Yongyi Zang, You Zhang, Zhiyao Duan

Improving training datasets for resource-constrained speaker recognition neural networks
Pierre-Michel Bousquet, Mickael Rouvier

Instance-based Temporal Normalization for Speaker Verification
Thanathai Lertpetchpun, Ekapol Chuangsuwanich

On the robustness of wav2vec 2.0 based speaker recognition systems
Sergey Novoselov, Galina Lavrentyeva, Anastasia Avdeeva, Vladimir Volokhov, Nikita Khmelev, Artem Akulov, Polina Leonteva

P-vectors: A Parallel-coupled TDNN/Transformer Network for Speaker Verification
Xiyuan Wang, Fangyuan Wang, Bo Xu, Liang Xu, Jing Xiao

Group GMM-ResNet for Detection of Synthetic Speech Attacks
Zhenchun Lei, Yan Wen, Yingen Yang, Changhong Liu, Minglei Ma

Robust Training for Speaker Verification against Noisy Labels
Zhihua Fang, Liang He, Hanhan Ma, Xiaochen Guo, Lin Li

Self-Distillation into Self-Attention Heads for Improving Transformer-based End-to-End Neural Speaker Diarization
Ye-Rin Jeoung, Jeong-Hwan Choi, Ju-Seok Seong, Jehyun Kyung, Joon-Hyuk Chang

Build a SRE Challenge System: Lessons from VoxSRC 2022 and CNSRC 2022
Zhengyang Chen, Bing Han, Xu Xiang, Houjun Huang, Bei Liu, Yanmin Qian

Describing the phonetics in the underlying speech attributes for deep and interpretable speaker recognition
Imen Ben-Amor, Jean-François Bonastre, Benjamin O'Brien, Pierre-Michel Bousquet

Range-Based Equal Error Rate for Spoof Localization
Lin Zhang, Xin Wang, Erica Cooper, Nicholas Evans, Junichi Yamagishi

Exploring the English Accent-independent Features for Speech Emotion Recognition using Filter and Wrapper-based Methods for Feature Selection
Nowshin Tabassum, Tasfia Tabassum, Fardin Saad, Tahiya Sultana Safa, Hasan Mahmud, Md. Kamrul Hasan

Powerset multi-class cross entropy loss for neural speaker diarization
Alexis Plaquet, Hervé Bredin

A Method of Audio-Visual Person Verification by Mining Connections between Time Series
Peiwen Sun, Shanshan Zhang, Zishan Liu, Yougen Yuan, Taotao Zhang, Honggang Zhang, Pengfei Hu

Speech Recognition: Architecture, Search, and Linguistic Components 3

A Model for Every User and Budget: Label-Free and Personalized Mixed-Precision Quantization
Edward Fish, Umberto Michieli, Mete Ozay

Modeling Dependent Structure for Utterances in ASR Evaluation
Zhe Liu, Fuchun Peng

ASR for Low Resource and Multilingual Noisy Code-Mixed Speech
Tushar Verma, Atul Shree, Ashutosh Modi

Accurate and Reliable Confidence Estimation Based on Non-Autoregressive End-to-End Speech Recognition System
Xian Shi, Haoneng Luo, Zhifu Gao, Shiliang Zhang, Zhijie Yan

Combining Multilingual Resources and Models to Develop State-of-the-Art E2E ASR for Swedish
Lukas Mateju, Jan Nouza, Petr Červa, Jindrich Zdansky, Frantisek Kynych

Two Stage Contextual Word Filtering for Context Bias in Unified Streaming and Non-streaming Transducer
Zhanheng Yang, Sining Sun, Xiong Wang, Yike Zhang, Long Ma, Lei Xie

Towards continually learning new languages
Quan Pham, Jan Niehues, Alex Waibel

N-best T5: Robust ASR Error Correction using Multiple Input Hypotheses and Constrained Decoding Space
Rao Ma, Mark J. F. Gales, Kate M. Knill, Mengjie Qian

SememeASR: Boosting Performance of End-to-End Speech Recognition against Domain and Long-Tailed Data Shift with Sememe Semantic Knowledge
Jiaxu Zhu, Changhe Song, Zhiyong Wu, Helen Meng

miniStreamer: Enhancing Small Conformer with Chunked-Context Masking for Streaming ASR Applications on the Edge
Haris Gulzar, Monikka Roslianna Busto, Takeharu Eda, Katsutoshi Itoyama, Kazuhiro Nakadai

CoMFLP: Correlation Measure Based Fast Search on ASR Layer Pruning
Wei Liu, Zhiyuan Peng, Tan Lee

Exploration on HuBERT with Multiple Resolution
Jiatong Shi, Yun Tang, Hirofumi Inaguma, Hongyu Gong, Juan Pino, Shinji Watanabe

Quantization-aware and Tensor-compressed Training of Transformers for Natural Language Understanding
Zi Yang, Samridhi Choudhary, Siegfried Kunzmann, Zheng Zhang

Word-level Confidence Estimation for CTC Models
Burin Naowarat, Thananchai Kongthaworn, Ekapol Chuangsuwanich

Multilingual Contextual Adapters To Improve Custom Word Recognition In Low-resource Languages
Devang Kulshreshtha, Saket Dingliwal, Brady Houston, Sravan Bodapati

Unsupervised Active Learning: Optimizing Labeling Cost-Effectiveness for Automatic Speech Recognition
Zhisheng Zheng, Ziyang Ma, Yu Wang, Xie Chen

4D ASR: Joint modeling of CTC, Attention, Transducer, and Mask-Predict decoders
Yui Sudo, Shakeel Muhammad, Brian Yan, Jiatong Shi, Shinji Watanabe

Neural Model Reprogramming with Similarity Based Mapping for Low-Resource Spoken Command Recognition
Hao Yen, Pin-Jui Ku, Chao-Han Huck Yang, Hu Hu, Sabato Marco Siniscalchi, Pin-Yu Chen, Yu Tsao

Language-specific Boundary Learning for Improving Mandarin-English Code-switching Speech Recognition
Zhiyun Fan, Linhao Dong, Chen Shen, Zhenlin Liang, Jun Zhang, Lu Lu, Zejun Ma

Mixture-of-Expert Conformer for Streaming Multilingual ASR
Ke Hu, Bo Li, Tara Sainath, Yu Zhang, Françoise Beaufays

Lossless 4-bit Quantization of Architecture Compressed Conformer ASR Systems on the 300-hr Switchboard Corpus
Zhaoqing Li, Tianzi Wang, Jiajun Deng, Junhao Xu, Shoukang Hu, Xunying Liu

Compressed MoE ASR Model Based on Knowledge Distillation and Quantization
Yuping Yuan, Zhao You, Shulin Feng, Dan Su, Yanchun Liang, Xiaohu Shi, Dong Yu

Acoustic Model Adaptation for ASR

Factorised Speaker-environment Adaptive Training of Conformer Speech Recognition Systems
Jiajun Deng, Guinan Li, Xurong Xie, Zengrui Jin, Mingyu Cui, Tianzi Wang, Shujie Hu, Mengzhe Geng, Xunying Liu

Text Only Domain Adaptation with Phoneme Guided Data Splicing for End-to-End Speech Recognition
Wei Wang, Xun Gong, Hang Shao, Dongning Yang, Yanmin Qian

Cross-Lingual Cross-Age Adaptation for Low-Resource Elderly Speech Emotion Recognition
Samuel Cahyawijaya, Holy Lovenia, Willy Chung, Rita Frieske, Zihan Liu, Pascale Fung

Modular Domain Adaptation for Conformer-Based Streaming ASR
Qiujia Li, Bo Li, Dongseong Hwang, Tara Sainath, Pedro M. Mengibar

Don’t Stop Self-Supervision: Accent Adaptation of Speech Representations via Residual Adapters
Anshu Bhatia, Sanchit Sinha, Saket Dingliwal, Karthik Gopalakrishnan, Sravan Bodapati, Katrin Kirchhoff

SGEM: Test-Time Adaptation for Automatic Speech Recognition via Sequential-Level Generalized Entropy Minimization
Changhun Kim, Joonhyung Park, Hajin Shim, Eunho Yang

Speech Synthesis: Expressivity

A Generative Framework for Conversational Laughter: Its 'Language Model' and Laughter Sound Synthesis
Hiroki Mori, Shunya Kimura

Towards Spontaneous Style Modeling with Semi-supervised Pre-training for Conversational Text-to-Speech Synthesis
Weiqin Li, Shun Lei, Qiaochu Huang, Yixuan Zhou, Zhiyong Wu, Shiyin Kang, Helen Meng

Beyond Style: Synthesizing Speech with Pragmatic Functions
Harm Lameris, Joakim Gustafson, Éva Székely

eCat: An End-to-End Model for Multi-Speaker TTS & Many-to-Many Fine-Grained Prosody Transfer
Ammar Abbas, Sri Karlapati, Bastian Schnell, Penny Karanasou, Marcel Granero Moya, Amith Nagaraj, Ayman Boustati, Nicole Peinelt, Alexis Moinet, Thomas Drugman

Multi-modal Systems

BeAts: Bengali Speech Acts Recognition using Multimodal Attention Fusion
Ahana Deb, Sayan Nag, Ayan Mahapatra, Soumitri Chattopadhyay, Aritra Marik, Pijush Kanti Gayen, Shankha Sanyal, Archi Banerjee, Samir Karmakar

Improving the Gap in Visual Speech Recognition Between Normal and Silent Speech Based on Metric Learning
Sara Kashiwagi, Keitaro Tanaka, Qi Feng, Shigeo Morishima

Whistle-to-text: Automatic recognition of the Silbo Gomero whistled language
Agata Jakubiak

A Novel Interpretable and Generalizable Re-synchronization Model for Cued Speech based on a Multi-Cuer Corpus
Lufei Gao, Shan Huang, Li Liu

Visually grounded few-shot word acquisition with fewer shots
Leanne Nortje, Benjamin van Niekerk, Herman Kamper

JAMFN: Joint Attention Multi-Scale Fusion Network for Depression Detection
Li Zhou, Zhenyu Liu, Zixuan Shangguan, Xiaoyan Yuan, Yutong Li, Bin Hu

Question Answering from Speech

Prompt Guided Copy Mechanism for Conversational Question Answering
Yong Zhang, Zhitao Li, Jianzong Wang, Yiming Gao, Ning Cheng, Fengying Yu, Jing Xiao

Composing Spoken Hints for Follow-on Question Suggestion in Voice Assistants
Pedro Faustini, Besnik Fetahu, Giuseppe Castellucci, Anjie Fang, Oleg Rokhlenko, Shervin Malmasi

On Monotonic Aggregation for Open-domain QA
Sang-eun Han, Yeonseok Jeong, Seung-won Hwang, Kyungjae Lee

Question-Context Alignment and Answer-Context Dependencies for Effective Answer Sentence Selection
Minh Van Nguyen, Kishan KC, Toan Nguyen, Thien Huu Nguyen, Ankit Chadha, Thuy Vu

Multi-Scale Attention for Audio Question Answering
Guangyao Li, Yixin Xu, Di Hu

Enhancing Visual Question Answering via Deconstructing Questions and Explicating Answers
Feilong Chen, Minglun Han, Jing Shi, Shuang Xu, Bo Xu

Multi-talker Methods in Speech Processing

SEF-Net: Speaker Embedding Free Target Speaker Extraction Network
Bang Zeng, Suo Hongbin, Yulong Wan, Ming Li

Cascaded encoders for fine-tuning ASR models on overlapped speech
Richard Rose, Oscar Chang, Olivier Siohan

TokenSplit: Using Discrete Speech Representations for Direct, Refined, and Transcript-Conditioned Speech Separation and Recognition
Hakan Erdogan, Scott Wisdom, Xuankai Chang, Zalán Borsos, Marco Tagliasacchi, Neil Zeghidour, John R. Hershey

Unified Modeling of Multi-Talker Overlapped Speech Recognition and Diarization with a Sidecar Separator
Lingwei Meng, Jiawen Kang, Mingyu Cui, Haibin Wu, Xixin Wu, Helen Meng

Time-domain Transformer-based Audiovisual Speaker Separation
Vahid Ahmadi Kalkhorani, Anurag Kumar, Ke Tan, Buye Xu, DeLiang Wang

Multi-Stream Extension of Variational Bayesian HMM Clustering (MS-VBx) for Combined End-to-End and Vector Clustering-based Diarization
Marc Delcroix, Naohiro Tawara, Mireia Diez, Federico Landini, Anna Silnova, Atsunori Ogawa, Tomohiro Nakatani, Lukáš Burget, Shoko Araki

Unsupervised Adaptation with Quality-Aware Masking to Improve Target-Speaker Voice Activity Detection for Speaker Diarization
Shutong Niu, Jun Du, Maokui He, Chin-Hui Lee, Baoxiang Li, Jiakui Li

BA-SOT: Boundary-Aware Serialized Output Training for Multi-Talker ASR
Yuhao Liang, Fan Yu, Yangze Li, Pengcheng Guo, Shiliang Zhang, Qian Chen, Lei Xie

Improving Label Assignments Learning by Dynamic Sample Dropout Combined with Layer-wise Optimization in Speech Separation
Chenyang Gao, Yue Gu, Ivan Marsic

Joint compensation of multi-talker noise and reverberation for speech enhancement with cochlear implants using one or more microphones
Clément Gaultier, Tobias Goehring

Speaker Diarization for ASR Output with T-vectors: A Sequence Classification Approach
Midia Yousefi, Naoyuki Kanda, Dongmei Wang, Zhuo Chen, Xiaofei Wang, Takuya Yoshioka

GPU-accelerated Guided Source Separation for Meeting Transcription
Desh Raj, Daniel Povey, Sanjeev Khudanpur

Overlap Aware Continuous Speech Separation without Permutation Invariant Training
Linfeng Yu, Wangyou Zhang, Chenda Li, Yanmin Qian

Weakly-Supervised Speech Pre-training: A Case Study on Target Speech Recognition
Wangyou Zhang, Yanmin Qian

Directional Speech Recognition for Speaker Disambiguation and Cross-talk Suppression
Ju Lin, Niko Moritz, Ruiming Xie, Kaustubh Kalgaonkar, Christian Fuegen, Frank Seide

Mixture Encoder for Joint Speech Separation and Recognition
Simon Berger, Peter Vieting, Christoph Boeddeker, Ralf Schlüter, Reinhold Haeb-Umbach

Sociophonetics

Aberystwyth English Pre-aspiration in Apparent Time
Míša Michaela Hejná, Adèle Jatteau

Speech Entrainment in Chinese Story-Style Talk Shows: The Interaction Between Gender and Role
Yanting Sun, Hongwei Ding

Sociodemographic and Attitudinal Effects on Dialect Speakers’ Articulation of the Standard Language: Evidence from German-Speaking Switzerland
Carina Steiner, Dieter Studer-Joho, Corinne Lanthemann, Andrin Büchler, Adrian Leemann

Vowel Normalisation in Latent Space for Sociolinguistics
James Burridge

Speaker and Language Diarization

Attention-based Encoder-Decoder Network for End-to-End Neural Speaker Diarization with Target Speaker Attractor
Zhengyang Chen, Bing Han, Shuai Wang, Yanmin Qian

Robust Self Supervised Speech Embeddings for Child-Adult Classification in Interactions involving Children with Autism
Rimita Lahiri, Tiantian Feng, Rajat Hebbar, Catherine Lord, So Hyun Kim, Shrikanth Narayanan

The DISPLACE Challenge 2023 - DIarization of SPeaker and LAnguage in Conversational Environments
Shikha Baghel, Shreyas Ramoji, Sidharth, Ranjana H, Prachi Singh, Somil Jain, Pratik Roy Chowdhuri, Kaustubh Kulkarni, Swapnil Padhi, Deepu Vijayasenan, Sriram Ganapathy

Lexical Speaker Error Correction: Leveraging Language Models for Speaker Diarization Error Correction
Rohit Paturi, Sundararajan Srinivasan, Xiang Li

The SpeeD--ZevoTech submission at DISPLACE 2023
Gabriel Pirlogeanu, Dan Oneata, Alexandru-Lucian Georgescu, Horia Cucu

End-to-End Neural Speaker Diarization with Absolute Speaker Loss
Chao Wang, Jie Li, Xiang Fang, Jian Kang, Yongxiang Li

Speech Emotion Recognition 2

A Context-Constrained Sentence Modeling for Deception Detection in Real Interrogation
Ya-Tse Wu, Yuan-Ting Chang, Shao-Hao Lu, Jing-Yi Chuang, Chi-Chun Lee

MetricAug: A Distortion Metric-Lead Augmentation Strategy for Training Noise-Robust Speech Emotion Recognizer
Ya-Tse Wu, Chi-Chun Lee

The co-use of laughter and head gestures across speech styles
Bogdan Ludusan, Marin Schröer, Martina Rossi, Petra Wagner

EmotionNAS: Two-stream Neural Architecture Search for Speech Emotion Recognition
Haiyang Sun, Zheng Lian, Bin Liu, Ying Li, Jianhua Tao, Licai Sun, Cong Cai, Meng Wang, Yuan Cheng

Pre-Finetuning for Few-Shot Emotional Speech Recognition
Maximillian Chen, Zhou Yu

Integrating Emotion Recognition with Speech Recognition and Speaker Diarisation for Conversations
Wen Wu, Chao Zhang, Philip C. Woodland

Utility-Preserving Privacy-Enabled Speech Embeddings for Emotion Detection
Chandrashekhar Lavania, Sanjiv Das, Xin Huang, Kyu J. Han

Node-weighted Graph Convolutional Network for Depression Detection in Transcribed Clinical Interviews
Sergio Burdisso, Esaú Villatoro-Tello, Srikanth Madikeri, Petr Motlicek

Laughter in task-based settings: whom we talk to affects how, when, and how often we laugh
Catarina Branco, Isabel Trancoso, Paulo Infante, Khiet P. Truong

Exploring Downstream Transfer of Self-Supervised Features for Speech Emotion Recognition
Yuanbo Fang, Xiaofen Xing, Xiangmin Xu, Weibin Zhang

Leveraging Semantic Information for Efficient Self-Supervised Emotion Recognition with Audio-Textual Distilled Models
Danilo de Oliveira, Navin Raj Prabhu, Timo Gerkmann

Two-stage Finetuning of Wav2vec 2.0 for Speech Emotion Recognition with ASR and Gender Pretraining
Yuan Gao, Chenhui Chu, Tatsuya Kawahara

Investigating Acoustic Cues for Multilingual Abuse Detection
Yash Thakran, Vinayak Abrol

A novel frequency warping scale for speech emotion recognition
Premjeet Singh, Goutam Saha

Multi-Scale Temporal Transformer For Speech Emotion Recognition
Zhipeng Li, Xiaofen Xing, Yuanbo Fang, Weibin Zhang, Hengsheng Fan, Xiangmin Xu

Distant Speech Emotion Recognition in an Indoor Human-robot Interaction Scenario
Nicolás Grágeda, Eduardo Alvarado, Rodrigo Mahu, Carlos Busso, Néstor Becerra Yoma

A Study on Prosodic Entrainment in Relation to Therapist Empathy in Counseling Conversation
Dehua Tao, Tan Lee, Harold Chui, Sarah Luk

Show and Tell: Language learning and educational resources

A Unified Framework to Improve Learners' Skills of Perception and Production Based on Speech Shadowing and Overlapping
Nobuaki Minematsu, Noriko Nakanishi, Yingxiang Gao, Haitong Sun

Speak & Improve: L2 English Speaking Practice Tool
Diane Nicholls, Kate M. Knill, Mark J. F. Gales, Anton Ragni, Paul Ricketts

Measuring prosody in child speech using SoapBox Fluency API
Mauro Nicolao, Brenda McGuirk, Declan Moore, Niall Mullally, Lora Lynn O’Mahony, Emma O’Neill, Amelia C. Kelly

Teaching Non-native Sound Contrasts using Visual Biofeedback
Shawn Nissen

Large-Scale Automatic Audiobook Creation
Brendan Walsh, Mark Hamilton, Greg Newby, Xi Wang, Serena Ruan, Sheng Zhao, Lei He, Shaofei Zhang, Eric Dettinger, William T. Freeman, Markus Weimer

QVoice: Arabic Speech Pronunciation Learning Application
Yassine El Kheir, Fouad Khnaisser, Shammur Absar Chowdhury, Hamdy Mubarak, Shazia Afzal, Ahmed M. Ali

Asking Questions: an Innovative Way to Interact with Oral History Archives
Jan Švec, Martin Bulín, Adam Frémund, Filip Polák

DisfluencyFixer: A tool to enhance Language Learning through Speech To Speech Disfluency Correction
Vineet Bhat, Preethi Jyothi, Pushpak Bhattacharyya

Technology Pipeline for Large Scale Cross-Lingual Dubbing of Lecture Videos into Multiple Indian Languages
Anusha Prakash, Arun Kumar, Ashish Seth, Bhagyashree Mukherjee, Ishika Gupta, Jom Kuriakose, Jordan F, K V Vikram, Mano R Kumar M, Metilda Sagaya Mary, Mohammad Wajahat, Mohana N, Mudit Batra, Navina K, Nihal John George, Nithya Ravi, Pruthwik Mishra, Sudhanshu Srivastava, Vasista Sai Lodagala, Vandan Mujadia, Kada Sai Venkata Vineeth, Vrunda N. Sukhadia, Dipti Sharma, Hema Murthy, Pushpak Bhattacharyya, S Umesh, Rajeev Sangal

MyVoice: Arabic Speech Resource Collaboration Platform
Yousseif Elshahawy, Yassine El Kheir, Shammur Absar Chowdhury, Ahmed M. Ali

Personal Primer Prototype 1: Invitation to Make Your Own Embooked Speech-Based Educational Artifact
Daniel D. Hromada, Hyungjoong Kim

Analysis of Speech and Audio Signals 3

Time-frequency Domain Filter-and-sum Network for Multi-channel Speech Separation
Zhewen Deng, Yi Zhou, Hongqing Liu

Audio-Visual Fusion using Multiscale Temporal Convolutional Attention for Time-Domain Speech Separation
Debang Liu, Tianqi Zhang, Mads Græsbøll Christensen, Ying Wei, Zeliang An

An Efficient Speech Separation Network Based on Recurrent Fusion Dilated Convolution and Channel Attention
Junyu Wang

Binaural Sound Localization in Noisy Environments Using Frequency-Based Audio Vision Transformer (FAViT)
Waradon Phokhinanan, Nicolas Obin, Sylvain Argentieri

Contrastive Learning based Deep Latent Masking for Music Source Separation
Jihyun Kim, Hong-Goo Kang

Speaker Extraction with Detection of Presence and Absence of Target Speakers
Ke Zhang, Marvin Borsdorf, Zexu Pan, Haizhou Li, Yangjie Wei, Yi Wang

PIAVE: A Pose-Invariant Audio-Visual Speaker Extraction Network
Qinghua Liu, Meng Ge, Zhizheng Wu, Haizhou Li

Spatial LibriSpeech: An Augmented Dataset for Spatial Audio Learning
Miguel Sarabia, Elena Menyaylenko, Alessandro Toso, Skyler Seto, Zakaria Aldeneh, Shadi Pirhosseinloo, Luca Zappella, Barry-John Theobald, Nicholas Apostoloff, Jonathan Sheaffer

Image-driven Audio-visual Universal Source Separation
Chenxing Li, Ye Bai, Yang Wang, Feng Deng, Yuanyuan Zhao, Zhuo Zhang, Xiaorui Wang

Joint Blind Source Separation and Dereverberation for Automatic Speech Recognition using Delayed-Subsource MNMF with Localization Prior
Mieszko Fraś, Marcin Witkowski, Konrad Kowalczyk

SDNet: Stream-attention and Dual-feature Learning Network for Ad-hoc Array Speech Separation
Honglong Wang, Chengyun Deng, Yanjie Fu, Meng Ge, Longbiao Wang, Gaoyan Zhang, Jianwu Dang, Fei Wang

Deeply Supervised Curriculum Learning for Deep Neural Network-based Sound Source Localization
Min-Sang Baek, Joon-Young Yang, Joon-Hyuk Chang

Multi-channel separation of dynamic speech and sound events
Takuya Fujimura, Robin Scheibler

Rethinking the Visual Cues in Audio-Visual Speaker Extraction
Junjie Li, Meng Ge, Zexu Pan, Rui Cao, Longbiao Wang, Jianwu Dang, Shiliang Zhang

Using Semi-supervised Learning for Monaural Time-domain Speech Separation with a Self-supervised Learning-based SI-SNR Estimator
Shaoxiang Dang, Tetsuya Matsumoto, Yoshinori Takeuchi, Hiroaki Kudo

Investigation of Training Mute-Expressive End-to-End Speech Separation Networks for an Unknown Number of Speakers
Younggwan Kim, Hyungjun Lim, Kiho Yeom, Eunjoo Seo, Hoodong Lee, Stanley Jungkyu Choi, Honglak Lee

SR-SRP: Super-Resolution based SRP-PHAT for Sound Source Localization and Tracking
Jae-Heung Cho, Joon-Hyuk Chang

Dual-Memory Multi-Modal Learning for Continual Spoken Keyword Spotting with Confidence Selection and Diversity Enhancement
Zhao Yang, Dianwen Ng, Xizhe Li, Chong Zhang, Rui Jiang, Wei Xi, Yukun Ma, Chongjia Ni, Jizhong Zhao, Bin Ma, Eng Siong Chng

FN-SSL: Full-Band and Narrow-Band Fusion for Sound Source Localization
Yabo Wang, Bing Yang, Xiaofei Li

A Neural State-Space Modeling Approach to Efficient Speech Separation
Chen Chen, Chao-Han Huck Yang, Kai Li, Yuchen Hu, Pin-Jui Ku, Eng Siong Chng

Locate and Beamform: Two-dimensional Locating All-neural Beamformer for Multi-channel Speech Separation
Yanjie Fu, Meng Ge, Honglong Wang, Nan Li, Haoran Yin, Longbiao Wang, Gaoyan Zhang, Jianwu Dang, Chengyun Deng, Fei Wang

Monaural Speech Separation Method Based on Recurrent Attention with Parallel Branches
Xue Yang, Changchun Bao, Xu Zhang, Xianhong Chen

Ontology-aware Learning and Evaluation for Audio Tagging
Haohe Liu, Qiuqiang Kong, Xubo Liu, Xinhao Mei, Wenwu Wang, Mark D. Plumbley

Speech Coding and Enhancement 3

Multi-Dataset Co-Training with Sharpness-Aware Optimization for Audio Anti-spoofing
Hye-jin Shim, Jee-weon Jung, Tomi Kinnunen

Reducing the Prior Mismatch of Stochastic Differential Equations for Diffusion-based Speech Enhancement
Bunlong Lay, Simon Welker, Julius Richter, Timo Gerkmann

Complex-valued neural networks for voice anti-spoofing
Nicolas M. Müller, Philip Sperl, Konstantin Böttinger

DeepVQE: Real Time Deep Voice Quality Enhancement for Joint Acoustic Echo Cancellation, Noise Suppression and Dereverberation
Nicolae Catalin Ristea, Evgenii Indenbom, Ando Saabas, Tanel Pärnamaa, Jegor Guzhvin, Ross Cutler

Diffiner: A Versatile Diffusion-based Generative Refiner for Speech Enhancement
Ryosuke Sawata, Naoki Murata, Yuhta Takida, Toshimitsu Uesaka, Takashi Shibuya, Shusuke Takahashi, Yuki Mitsufuji

HD-DEMUCS: General Speech Restoration with Heterogeneous Decoders
Doyeon Kim, Soo-Whan Chung, Hyewon Han, Youna Ji, Hong-Goo Kang

MP-SENet: A Speech Enhancement Model with Parallel Denoising of Magnitude and Phase Spectra
Ye-Xin Lu, Yang Ai, Zhen-Hua Ling

TridentSE: Guiding Speech Enhancement with 32 Global Tokens
Dacheng Yin, Zhiyuan Zhao, Chuanxin Tang, Zhiwei Xiong, Chong Luo

Detection of Cross-Dataset Fake Audio Based on Prosodic and Pronunciation Features
Chenglong Wang, Jiangyan Yi, Jianhua Tao, Chu Yuan Zhang, Shuai Zhang, Xun Chen

Self-supervised learning with Diffusion-based multichannel speech enhancement for speaker verification under noisy conditions
Sandipana Dowerah, Ajinkya Kulkarni, Romain Serizel, Denis Jouvet

Two-Stage Voice Anonymization for Enhanced Privacy
Francesco Nespoli, Daniel Barreda, Jöerg Bitzer, Patrick A. Naylor

Personalized Dereverberation of Speech
Ruilin Xu, Gurunandan Krishnan, Changxi Zheng, Shree K. Nayar

Weighted Von Mises Distribution-based Loss Function for Real-time STFT Phase Reconstruction Using DNN
Nguyen Binh Thien, Yukoh Wakabayashi, Yuting Geng, Kenta Iwai, Takanobu Nishiura

Deep Multi-Frame Filtering for Hearing Aids
Hendrik Schröter, Tobias Rosenkranz, Alberto N. Escalante-B., Andreas Maier

Aligning Speech Enhancement for Improving Downstream Classification Performance
Yan Xiong, Visar Berisha, Chaitali Chakrabarti

DNN-based Parameter Estimation for MVDR Beamforming and Post-filtering
Minseung Kim, Sein Cheong, Jong Won Shin

FRA-RIR: Fast Random Approximation of the Image-source Method
Yi Luo, Jianwei Yu

Rethinking Complex-Valued Deep Neural Networks for Monaural Speech Enhancement
Haibin Wu, Ke Tan, Buye Xu, Anurag Kumar, Daniel Wong

Harmonic enhancement using learnable comb filter for light-weight full-band speech enhancement model
Xiaohuai Le, Tong Lei, Li Chen, Yiqing Guo, Chao He, Cheng Chen, Xianjun Xia, Hua Gao, Yijian Xiao, Piao Ding, Shenyi Song, Jing Lu

Spoken Language Translation, Information Retrieval, Summarization, Resources, and Evaluation 3

How Does Pretraining Improve Discourse-Aware Translation?
Zhihong Huang, Longyue Wang, Siyou Liu, Derek F. Wong

PATCorrect: Non-autoregressive Phoneme-augmented Transformer for ASR Error Correction
Ziji Zhang, Zhehui Wang, Rajesh Kamma, Sharanya Eswaran, Narayanan Sadagopan

Model-assisted Lexical Tone Evaluation of three-year-old Chinese-speaking Children by also Considering Segment Production
Shu-Chuan Tseng, Yi-Fen Liu, Xiang-Li Lu

Sentence Embedder Guided Utterance Encoder (SEGUE) for Spoken Language Understanding
Yi Xuan Tan, Navonil Majumder, Soujanya Poria

Joint Time and Frequency Transformer for Chinese Opera Classification
Qiang Li, Beibei Hu

AdaMS: Deep Metric Learning with Adaptive Margin and Adaptive Scale for Acoustic Word Discrimination
Myunghun Jung, Hoirin Kim

Investigating Reproducibility at Interspeech Conferences: A Longitudinal and Comparative Perspective
Mohammad Arvan, A. Seza Doğruöz, Natalie Parde

An Efficient Approach for the Automated Segmentation and Transcription of the People's Speech Sorpus
Astik Biswas, Abdelmoumene Boumadane, Stephane Peillon, Gildas Bleas

Diverse Feature Mapping and Fusion via Multitask Learning for Multilingual Speech Emotion Recognition
Shi-wook Lee

Take the Hint: Improving Arabic Diacritization with Partially-Diacritized Text
Parnia Bahar, Mattia Di Gangi, Nick Rossenbach, Mohammad Zeineldeen

Low-Resource Cross-Lingual Adaptive Training for Nigerian Pidgin
Pin-Jie Lin, Muhammed Saeed, Ernie Chang, Merel Scholman

Efficient Adaptation of Spoken Language Understanding based on End-to-End Automatic Speech Recognition
Eesung Kim, Aditya Jajodia, Cindy Tseng, Divya Neelagiri, Taeyeon Ki, Vijendra Raj Apsingekar

PhonMatchNet: Phoneme-Guided Zero-Shot Keyword Spotting for User-Defined Keywords
Yong-Hyeok Lee, Namhyun Cho

Mix before Align: Towards Zero-shot Cross-lingual Sentiment Analysis via Soft-Mix and Multi-View Learning
Zhihong Zhu, Xuxin Cheng, Dongsheng Chen, Zhiqi Huang, Hongxiang Li, Yuexian Zou

AlignAtt: Using Attention-based Audio-Translation Alignments as a Guide for Simultaneous Speech Translation
Sara Papi, Marco Turchi, Matteo Negri

Incremental Blockwise Beam Search for Simultaneous Speech Translation with Controllable Quality-Latency Tradeoff
Peter Polák, Brian Yan, Shinji Watanabe, Alex Waibel, Ondřej Bojar

Zambezi Voice: A Multilingual Speech Corpus for Zambian Languages
Claytone Sikasote, Kalinda Siaminwe, Stanly Mwape, Bangiwe Zulu, Mofya Phiri, Martin Phiri, David Zulu, Mayumbo Nyirenda, Antonios Anastasopoulos

Anti-Spoofing for Speaker Verification

Towards Single Integrated Spoofing-aware Speaker Verification Embeddings
Sung Hwan Mun, Hye-jin Shim, Hemlata Tak, Xin Wang, Xuechen Liu, Md Sahidullah, Myeonghun Jeong, Min Hyun Han, Massimiliano Todisco, Kong Aik Lee, Junichi Yamagishi, Nicholas Evans, Tomi Kinnunen, Nam Soo Kim, Jee-weon Jung

Pseudo-Siamese Network based Timbre-reserved Black-box Adversarial Attack in Speaker Identification
Qing Wang, Jixun Yao, Ziqian Wang, Pengcheng Guo, Lei Xie

Betray Oneself: A Novel Audio DeepFake Detection Model via Mono-to-Stereo Conversion
Rui Liu, Jinhua Zhang, Guanglai Gao, Haizhou Li

Robust Audio Anti-spoofing Countermeasure with Joint Training of Front-end and Back-end Models
Xingming Wang, Bang Zeng, Suo Hongbin, Yulong Wan, Ming Li

Improved DeepFake Detection Using Whisper Features
Piotr Kawa, Marcin Plata, Michał Czuba, Piotr Szymański, Piotr Syga

DoubleDeceiver: Deceiving the Speaker Verification System Protected by Spoofing Countermeasures
Mengao Zhang, Ke Xu, Hao Li, Lei Wang, Chengfang Fang, Jie Shi

Speech Coding: Intelligibility

On Training a Neural Residual Acoustic Echo Suppressor for Improved ASR
Sankaran Panchapagesan, Turaj Zakizadeh Shabestary, Arun Narayanan

Extending DNN-based Multiplicative Masking to Deep Subband Filtering for Improved Dereverberation
Jean-Marie Lemercier, Julian Tobergte, Timo Gerkmann

UnSE: Unsupervised Speech Enhancement Using Optimal Transport
Wenbin Jiang, Fei Wen, Yifan Zhang, Kai Yu

MC-SpEx: Towards Effective Speaker Extraction with Multi-Scale Interfusion and Conditional Speaker Modulation
Jun Chen, Wei Rao, Zilin Wang, Jiuxin Lin, Yukai Ju, Shulin He, Yannan Wang, Zhiyong Wu

Causal Signal-Based DCCRN with Overlapped-Frame Prediction for Online Speech Enhancement
Julitta Bartolewska, Stanisław Kacprzak, Konrad Kowalczyk

Gesper: A Restoration-Enhancement Framework for General Speech Reconstruction
Wenzhe Liu, Yupeng Shi, Jun Chen, Wei Rao, Shulin He, Andong Li, Yannan Wang, Zhiyong Wu

Resources for Spoken Language Processing

Multimodal Personality Traits Assessment (MuPTA) Corpus: The Impact of Spontaneous and Read Speech
Elena Ryumina, Dmitry Ryumin, Maxim Markitantov, Heysem Kaya, Alexey Karpov

MOCKS 1.0: Multilingual Open Custom Keyword Spotting Testset
Mikołaj Pudo, Mateusz Wosik, Adam Cieślak, Justyna Krzywdziak, Bozena Lukasiak, Artur Janicki

MD3: The Multi-Dialect Dataset of Dialogues
Jacob Eisenstein, Vinodkumar Prabhakaran, Clara Rivera, Dorottya Demszky, Devyani Sharma

MuAViC: A Multilingual Audio-Visual Corpus for Robust Speech Recognition and Robust Speech-to-Text Translation
Mohamed Anwar, Bowen Shi, Vedanuj Goswami, Wei-Ning Hsu, Juan Pino, Changhan Wang

Thai Dialect Corpus and Transfer-based Curriculum Learning Investigation for Dialect Automatic Speech Recognition
Artit Suwanbandit, Burin Naowarat, Orathai Sangpetch, Ekapol Chuangsuwanich

HK-LegiCoST: Leveraging Non-Verbatim Transcripts for Speech Translation
Cihan Xiao, Henry Li Xinyuan, Jinyi Yang, Dongji Gao, Matthew Wiesner, Kevin Duh, Sanjeev Khudanpur

New Computational Strategies for ASR Training and Inference

A Metric-Driven Approach to Conformer Layer Pruning for Efficient ASR Inference
Dhanush Bekal, Karthik Gopalakrishnan, Karel Mundnich, Srikanth Ronanki, Sravan Bodapati, Katrin Kirchhoff

Distillation Strategies for Discriminative Speech Recognition Rescoring
Prashanth Gurunath Shivakumar, Jari Kolehmainen, Yile Gu, Ankur Gandhe, Ariya Rastrow, Ivan Bulyko

Another Point of View on Visual Speech Recognition
Baptiste Pouthier, Laurent Pilati, Giacomo Valenti, Charles Bouveyron, Frederic Precioso

RASR2: The RWTH ASR Toolkit for Generic Sequence-to-sequence Speech Recognition
Wei Zhou, Eugen Beck, Simon Berger, Ralf Schlüter, Hermann Ney

Streaming Speech-to-Confusion Network Speech Recognition
Denis Filimonov, Prabhat Pandey, Ariya Rastrow, Ankur Gandhe, Andreas Stolcke

Accurate and Structured Pruning for Efficient Automatic Speech Recognition
Huiqiang Jiang, Li Lyna Zhang, Yuang Li, Yu Wu, Shijie Cao, Ting Cao, Yuqing Yang, Jinyu Li, Mao Yang, Lili Qiu

MERLIon CCS Challenge: Multilingual Everyday Recordings - Language Identification On Code-Switched Child-Directed Speech

MERLIon CCS Challenge: A English-Mandarin code-switching child-directed speech corpus for language identification and diarization
Victoria Y. H. Chua, Hexin Liu, Leibny Paola Garcia, Fei Ting Woon, Jinyi Wong, Xiangyu Zhang, Sanjeev Khudanpur, Andy W. H. Khong, Justin Dauwels, Suzy J. Styles

Spoken Language Identification System for English-Mandarin Code-Switching Child-Directed Speech
Shashi Kant Gupta, Sushant Hiray, Prashant Kukde

Improving wav2vec2-based Spoken Language Identification by Learning Phonological Features
Mostafa Shahin, Zheng Nan, Vidhyasaharan Sethu, Beena Ahmed

Language Identification Networks for Multilingual Everyday Recordings
Kiran Praveen, Balaji Radhakrishnan, Kamini Sabu, Abhishek Pandey, Mahaboob Ali Basha Shaik

Investigating model performance in language identification: beyond simple error statistics
Suzy J. Styles, Victoria Y. H. Chua, Fei Ting Woon, Hexin Liu, Leibny Paola Garcia, Sanjeev Khudanpur, Andy W. H. Khong, Justin Dauwels

Health-Related Speech Analysis

Classification of Vocal Intensity Category from Speech using the Wav2vec2 and Whisper Embeddings
Manila Kodali, Sudarsana Reddy Kadiri, Paavo Alku

The effect of clinical intervention on the speech of individuals with PTSD: features and recognition performances
Alexander Kathan, Andreas Triantafyllopoulos, Shahin Amiriparian, Sabrina Milkus, Alexander Gebhard, Jonas Hohmann, Pauline Muderlak, Jürgen Schottdorf, Björn W. Schuller, Richard Musil

Analysis and automatic prediction of exertion from speech: Contrasting objective and subjective measures collected while running
Andreas Triantafyllopoulos, Alexander Gebhard, Alexander Kathan, Maurice Gerczuk, Shahin Amiriparian, Björn W. Schuller

The Androids Corpus: A New Publicly Available Benchmark for Speech Based Depression Detection
Fuxiang Tao, Anna Esposito, Alessandro Vinciarelli

Comparing Hand-Crafted Features to Spectrograms for Autism Severity Estimation
Marina Eni, Ilan Dinstein, Yaniv Zigel

Acoustic characteristics of depression in older adults' speech: the role of covariates
Carmen Mijnders, Esther Janse, Paul Naarding, Khiet P. Truong

Automatic Audio Classification and Audio Captioning

Dual Transformer Decoder based Features Fusion Network for Automated Audio Captioning
Jianyuan Sun, Xubo Liu, Xinhao Mei, Volkan Kılıç, Mark D. Plumbley, Wenwu Wang

Adapting a ConvNeXt Model to Audio Classification on AudioSet
Thomas Pellegrini, Ismail Khalfaoui-Hassani, Etienne Labbé, Timothée Masquelier

Few-shot Class-incremental Audio Classification Using Stochastic Classifier
Yanxiong Li, Wenchang Cao, Jialong Li, Wei Xie, Qianhua He

Enhance Temporal Relations in Audio Captioning with Sound Event Detection
Zeyu Xie, Xuenan Xu, Mengyue Wu, Kai Yu

Speech Perception, Production, and Acquisition 2

First Language Effects on Second Language Perception: Evidence from English Low-vowel Nasal Sequences Perceived by L1 Mandarin Chinese Listeners
Sijia Zhang

Motor Control Similarity Between Speakers Saying “A Souk” Using Inverse Atlas Tongue Modeling
Ursa Maity, Fangxu Xing, Jerry Prince, Maureen Stone, El Fakhri Georges, Jonghye Woo, Sidney Fels

Assessing Phrase Break of ESL Speech with Pre-trained Language Models and Large Language Models
Zhiyi Wang, Shaoguang Mao, Wenshan Wu, Yan Xia, Yan Deng, Jonathan Tien

A Relationship Between Vocal Fold Vibration and Droplet Production
Tsukasa Yoshinaga, Takayuki Arai, Akiyoshi Iida

Audio, Visual and Audiovisual intelligibility of vowels produced in noise
Maeva Garnier

Optimal control of speech with context-dependent articulatory targets
Benjamin Elie, Juraj Šimko, Alice Turk

Computational modeling of auditory brainstem responses derived from modified speech
Tzu-Han Zoe Cheng, Paul Calamia

Leveraging Label Information for Multimodal Emotion Recognition
Peiying Wang, Sunlu Zeng, Junqing Chen, Lu Fan, Meng Chen, Youzheng Wu, Xiaodong He

Improving End-to-End Modeling For Mandarin-English Code-Switching Using Lightweight Switch-Routing Mixture-of-Experts
Fengyun Tan, Chaofeng Feng, Tao Wei, Shuai Gong, Jinqiang Leng, Wei Chu, Jun Ma, Shaojun Wang, Jing Xiao

Frequency Patterns of Individual Speaker Characteristics at Higher and Lower Spectral Ranges
Zhao Zhang, Ju Zhang, Ziyu Zhu, Yujie Chi, Kiyoshi Honda, Jianguo Wei

Adaptation to predictive prosodic cues in non-native standard dialect
Sabine Gosselke Berthelsen

Head movements in two- and four-person interactive conversational tasks in noisy and moderately reverberant conditions
Alan Archer-Boyd, Rainer Martin

Second language identification of Vietnamese tones by native Mandarin learners
Juqiang Chen, Ailing Qin, Hui Chang, Hua Chen

Nasal vowel production and grammatical processing in French-speaking children with cochlear implants and normal-hearing peers.
Sophie Fagniart, Véronique Delvaux, Brigitte Charlier, Bernard Harmegnies, Anne Huberlant, Myriam Piccaluga, Kathy Huet

Emotion Classification with EEG Responses Evoked by Emotional Prosody of Speech
Zechen Zhang, Xihong Wu, Jing Chen

L2-Mandarin regional accent variability during Mandarin tone-word training facilitates English listeners’ subsequent tone categorizations
Yanping Li, Michael D. Tyler, Denis Burnham, Catherine T. Best

HumanDiffusion: diffusion model using perceptual gradients
Yota Ueda, Shinnosuke Takamichi, Yuki Saito, Norihiro Takamune, Hiroshi Saruwatari

Queer Events, Relationships, and Sports: Does Topic Influence Speakers’ Acoustic Expression of Sexual Orientation?
Sven Kachel, Manuel Pöhlmann, Christine Nussbaum

Speech Synthesis

Epoch-Based Spectrum Estimation for Speech
Jón Guðnason, Guolin Fang, Mike Brookes

OverFlow: Putting flows on top of neural transducers for better TTS
Shivam Mehta, Ambika Kirkland, Harm Lameris, Jonas Beskow, Éva Székely, Gustav Eje Henter

ADAPTERMIX: Exploring the Efficacy of Mixture of Adapters for Low-Resource TTS Adaptation
Ambuj Mehrish, Abhinav Ramesh Kashyap, Li Yingting, Navonil Majumder, Soujanya Poria

Prior-free Guided TTS: An Improved and Efficient Diffusion-based Text-Guided Speech Synthesis
Won-Gook Choi, So-Jeong Kim, TaeHo Kim, Joon-Hyuk Chang

UnDiff: Unsupervised Voice Restoration with Unconditional Diffusion Model
Anastasiia Iashchenko, Pavel Andreev, Ivan Shchekotov, Nicholas Babaev, Dmitry Vetrov

Pruning Self-Attention for Zero-Shot Multi-Speaker Text-to-Speech
Hyungchan Yoon, Changhwan Kim, Eunwoo Song, Hyun-Wook Yoon, Hong-Goo Kang

Interpretable Style Transfer for Text-to-Speech with ControlVAE and Diffusion Bridge
Wenhao Guan, Tao Li, Yishuang Li, Hukai Huang, Qingyang Hong, Lin Li

Towards Robust FastSpeech 2 by Modelling Residual Multimodality
Fabian Kögel, Bac Nguyen, Fabien Cardinaux

Real time spectrogram inversion on mobile phone
Oleg Rybakov, Marco Tagliasacchi, Yunpeng Li, Liyang Jiang, Xia Zhang, Fadi Biadsy

Automatic Tuning of Loss Trade-offs without Hyper-parameter Search in End-to-End Zero-Shot Speech Synthesis
Seongyeon Park, Bohyung Kim, Tae-Hyun Oh

A Low-Resource Pipeline for Text-to-Speech from Found Data With Application to Scottish Gaelic
Dan Wells, Korin Richmond, William Lamb

Self-Supervised Solution to the Control Problem of Articulatory Synthesis
Paul K. Krug, Peter Birkholz, Branislav Gerazov, Daniel R. van Niekerk, Anqi Xu, Yi Xu

Hierarchical Timbre-Cadence Speaker Encoder for Zero-shot Speech Synthesis
Joun Yeop Lee, Jae-Sung Bae, Seongkyu Mun, Jihwan Lee, Ji-Hyun Lee, Hoon-Young Cho, Chanwoo Kim

ZET-Speech: Zero-shot adaptive Emotion-controllable Text-to-Speech Synthesis with Diffusion and Style-based Models
Minki Kang, Wooseok Han, Sung Ju Hwang, Eunho Yang

Improving WaveRNN with Heuristic Dynamic Blending for Fast and High-Quality GPU Vocoding
Muyang Du, Chuan Liu, Jiaxing Qi, Junjie Lai

Intelligible Lip-to-Speech Synthesis with Speech Units
Jeongsoo Choi, Minsu Kim, Yong Man Ro

Parameter-Efficient Learning for Text-to-Speech Accent Adaptation
Li-Jen Yang, Chao-Han Huck Yang, Jen-Tzung Chien

Controlling formant frequencies with neural text-to-speech for the manipulation of perceived speaker age
Ziya Khan, Lovisa Wihlborg, Cassia Valentini-Botinhao, Oliver Watts

FastFit: Towards Real-Time Iterative Neural Vocoder by Replacing U-Net Encoder With Multiple STFTs
Won Jang, Dan Lim, Heayoung Park

iSTFTNet2: Faster and More Lightweight iSTFT-Based Neural Vocoder Using 1D-2D CNN
Takuhiro Kaneko, Hirokazu Kameoka, Kou Tanaka, Shogo Seki

VITS2: Improving Quality and Efficiency of Single-Stage Text-to-Speech with Adversarial Learning and Architecture Design
Jungil Kong, Jihoon Park, Beomjeong Kim, Jeongmin Kim, Dohee Kong, Sangjin Kim

Controlling Multi-Class Human Vocalization Generation via a Simple Segment-based Labeling Scheme
Hieu-Thi Luong, Junichi Yamagishi

Speech Recognition: Signal Processing, Acoustic Modeling, Robustness, Adaptation 4

Vistaar: Diverse Benchmarks and Training Sets for Indian Language ASR
Kaushal Bhogale, Sai Sundaresan, Abhigyan Raman, Tahir Javed, Mitesh M. Khapra, Pratyush Kumar

Domain Adaptive Self-supervised Training of Automatic Speech Recognition
Cong-Thanh Do, Rama Doddipatla, Mohan Li, Thomas Hain

There is more than one kind of robustness: Fooling Whisper with adversarial examples
Raphael Olivier, Bhiksha Raj

MT-SLVR: Multi-Task Self-Supervised Learning for Transformation In(Variant) Representations
Calum Heggan, Tim Hospedales, Sam Budgett, Mehrdad Yaghoobi

Reducing Barriers to Self-Supervised Learning: HuBERT Pre-training with Academic Compute
William Chen, Xuankai Chang, Yifan Peng, Zhaoheng Ni, Soumi Maiti, Shinji Watanabe

Blank-regularized CTC for Frame Skipping in Neural Transducer
Yifan Yang, Xiaoyu Yang, Liyong Guo, Zengwei Yao, Wei Kang, Fangjun Kuang, Long Lin, Xie Chen, Daniel Povey

The Tag-Team Approach: Leveraging CLS and Language Tagging for Enhancing Multilingual ASR
Kaousheik Jayakumar, Vrunda N. Sukhadia, A Arunkumar, S Umesh

Improving RNN-Transducers with Acoustic LookAhead
Vinit S. Unni, Ashish Mittal, Preethi Jyothi, Sunita Sarawagi

Everyone has an accent
Nina Markl, Catherine Lai

Some Voices are Too Common: Building Fair Speech Recognition Systems Using the CommonVoice Dataset
Lucas Maison, Yannick Estève

Information Magnitude Based Dynamic Sub-sampling for Speech-to-text
Yuhao Zhang, Chenghao Gao, Kaiqi Kou, Chen Xu, Tong Xiao, Jingbo Zhu

Keynote 3

What’s in a Rise? The Relevance of Intonation for Attention Orienting
Martine Grice

Speech Synthesis: Controllability and Adaptation

HierVST: Hierarchical Adaptive Zero-shot Voice Style Transfer
Sang-Hoon Lee, Ha-Yeong Choi, Hyung-Seok Oh, Seong-Whan Lee

VISinger2: High-Fidelity End-to-End Singing Voice Synthesis Enhanced by Digital Signal Processing Synthesizer
Yongmao Zhang, Heyang Xue, Hanzhao Li, Lei Xie, Tingwei Guo, Ruixiong Zhang, Caixia Gong

EdenTTS: A Simple and Efficient Parallel Text-to-speech Architecture with Collaborative Duration-alignment Learning
Youneng Ma, Junyi He, Meimei Wu, Guangyue Hu, Haojun Fei

Generalizable Zero-Shot Speaker Adaptive Speech Synthesis with Disentangled Representations
Wenbin Wang, Yang Song, Sanjay Jha

Speech inpainting: Context-based speech synthesis guided by video
Juan Felipe Montesinos, Daniel Michelsanti, Gloria Haro, Zheng-Hua Tan, Jesper Jensen

STEN-TTS: Improving Zero-shot Cross-Lingual Transfer for Multi-Lingual TTS with Style-Enhanced Normalization Diffusion Framework
Chung Tran, Chi Mai Luong, Sakriani Sakti

Search Methods and Decoding Algorithms for ASR

Average Token Delay: A Latency Metric for Simultaneous Translation
Yasumasa Kano, Katsuhito Sudoh, Satoshi Nakamura

Automatic Speech Recognition Transformer with Global Contextual Information Decoder
Yukun Qian, Xuyi Zhuang, Mingjiang Wang

Time-synchronous one-pass Beam Search for Parallel Online and Offline Transducers with Dynamic Block Training
Yui Sudo, Shakeel Muhammad, Yifan Peng, Shinji Watanabe

Prefix Search Decoding for RNN Transducers
Kiran Praveen, Advait Vinay Dhopeshwarkar, Abhishek Pandey, Balaji Radhakrishnan

WhisperX: Time-Accurate Speech Transcription of Long-Form Audio
Max Bain, Jaesung Huh, Tengda Han, Andrew Zisserman

Implementing Contextual Biasing in GPU Decoder for Online ASR
Iuliia Nigmatulina, Srikanth Madikeri, Esaú Villatoro-Tello, Petr Motlicek, Juan Zuluaga-Gomez, Karthik Pandia, Aravind Ganapathiraju

Speech Signal Analysis

MF-PAM: Accurate Pitch Estimation through Periodicity Analysis and Multi-level Feature Fusion
Woo-Jin Chung, Doyeon Kim, Soo-Whan Chung, Hong-Goo Kang

Enhancing Speech Articulation Analysis Using A Geometric Transformation of the X-ray Microbeam Dataset
Ahmed Adel Attia, Mark Tiede, Carol Espy-Wilson

Matching Acoustic and Perceptual Measures of Phonation Assessment in Disordered Speech - A Case Study
Melanie Jouaiti, Pippa Kirby, Ravi Vaidyanathan

Improved Contextualized Speech Representations for Tonal Analysis
Jiahong Yuan, Xingyu Cai, Kenneth Church

A Study on the Importance of Formant Transitions for Stop-Consonant Classification in VCV Sequence
Siddarth Chandrasekar, Arvind Ramesh, Tilak Purohit, Prasanta Kumar Ghosh

FusedF0: Improving DNN-based F0 Estimation by Fusion of Summary-Correlograms and Raw Waveform Representations of Speech Signals
Eray Eren, Lee Ngee Tan, Abeer Alwan

Speech Emotion Recognition 3

Improving Joint Speech and Emotion Recognition Using Global Style Tokens
Jehyun Kyung, Ju-Seok Seong, Jeong-Hwan Choi, Ye-Rin Jeoung, Joon-Hyuk Chang

Speech Emotion Recognition by Estimating Emotional Label Sequences with Phoneme Class Attribute
Ryotaro Nagase, Takahiro Fukumori, Yoichi Yamashita

Unsupervised Transfer Components Learning for Cross-Domain Speech Emotion Recognition
Shenjie Jiang, Peng Song, Shaokai Li, Keke Zhao, Wenming Zheng

Dual Memory Fusion for Multimodal Speech Emotion Recognition
Darshana Prisayad, Tharindu Fernando, Sridha Sridharan, Simon Denman, Clinton Fookes

Hybrid Dataset for Speech Emotion Recognition in Russian Language
Vladimir Kondratenko, Nikolay Karpov, Artem Sokolov, Nikita Savushkin, Oleg Kutuzov, Fyodor Minkin

Speech Emotion Recognition using Decomposed Speech via Multi-task Learning
Jia-Hao Hsu, Chung-Hsien Wu, Yu-Hung Wei

Connecting Speech-science and Speech-technology for Children's Speech

Prospective Validation of Motor-Based Intervention with Automated Mispronunciation Detection of Rhotics in Residual Speech Sound Disorders
Nina R Benway, Jonathan L Preston

Classifying Rhoticity of /ɹ/ in Speech Sound Disorder using Age-and-Sex Normalized Formants
Nina R Benway, Jonathan L Preston, Asif Salekin, Yi Xiao, Harshit Sharma, Tara McAllister

Acoustic-to-Articulatory Speech Inversion Features for Mispronunciation Detection of /ɹ/ in Child Speech Sound Disorders
Nina R Benway, Yashish M Siriwardena, Jonathan L Preston, Elaine Hitchcock, Tara McAllister, Carol Espy-Wilson

Using Commercial ASR Solutions to Assess Reading Skills in Children: A Case Report
Timothy Piton, Enno Hermann, Angela Pasqualotto, Marjolaine Cohen, Mathew Magimai.-Doss, Daphné Bavelier

Exploiting Diversity of Automatic Transcripts from Distinct Speech Recognition Techniques for Children’s Speech
Christopher Gebauer, Lars Rumberg, Hanna Ehlert, Ulrike Lüdtke, Joern Ostermann

Uncertainty Estimation for Connectionist Temporal Classification Based Automatic Speech Recognition
Lars Rumberg, Christopher Gebauer, Hanna Ehlert, Maren Wallbaum, Ulrike Lüdtke, Joern Ostermann

BabySLM: language-acquisition-friendly benchmark of self-supervised spoken language models
Marvin Lavechin, Yaya Sy, Hadrien Titeux, María Andrea Cruz Blandón, Okko Räsänen, Hervé Bredin, Emmanuel Dupoux, Alejandrina Cristia

Data augmentation for children ASR and child-adult speaker classification using voice conversion methods
Shuyang Zhao, Mittul Singh, Abraham Woubie, Reima Karhila

Developmental Articulatory and Acoustic Features for Six to Ten Year Old Children
Vishwas M. Shetty, Steven M. Lulich, Abeer Alwan

Automatically Predicting Perceived Conversation Quality in a Pediatric Sample Enriched for Autism
Yahan Yang, Sunghye Cho, Maxine Covello, Azia Knox, Osbert Bastani, James Weimer, Edgar Dobriban, Robert Schultz, Insup Lee, Julia Parish-Morris

An Equitable Framework for Automatically Assessing Children's Oral Narrative Language Abilities
Alexander Johnson, Hariram Veeramani, Natarajan Balaji Shankar, Abeer Alwan

An Analysis of Goodness of Pronunciation for Child Speech
Xinwei Cao, Zijian Fan, Torbjørn Svendsen, Giampiero Salvi

Measuring Language Development From Child-centered Recordings
Yaya Sy, William N. Havard, Marvin Lavechin, Emmanuel Dupoux, Alejandrina Cristia

Speaking Clearly, Understanding Better: Predicting the L2 Narrative Comprehension of Chinese Bilingual Kindergarten Children Based on Speech Intelligibility Using a Machine Learning Approach
Hiuching Hung, Paula A. Pérez-Toro, Tomás Arias-Vergara, Andreas Maier, Elmar Nöth

Speech Breathing Behavior During Pauses in Children
Delphine Charuau, Béatrice Vaxelaire, Rudolph Sock

Understanding Spoken Language Development of Children with ASD Using Pre-trained Speech Embeddings
Anfeng Xu, Rajat Hebbar, Rimita Lahiri, Tiantian Feng, Lindsay Butler, Lue Shen, Helen Tager-Flusberg, Shrikanth Narayanan

Measuring Phonological Precision in Children with Cleft Lip and Palate
Tomás Arias-Vergara, Elizabeth Londoño-Mora, Paula A. Pérez-Toro, Maria Schuster, Elmar Nöth, Juan Rafael Orozco-Arroyave, Andreas Maier

A Study on Using Duration and Formant Features in Automatic Detection of Speech Sound Disorder in Children
Si-Ioi Ng, Cymie Wing-Yee Ng, Tan Lee

Influence of Utterance and Speaker Characteristics on the Classification of Children with Cleft Lip and Palate
Ilja Baumann, Dominik Wagner, Franziska Braun, Sebastian P. Bayerl, Elmar Nöth, Korbinian Riedhammer, Tobias Bocklet

Dialog Management

Parameter-Efficient Low-Resource Dialogue State Tracking by Prompt Tuning
Mingyu Derek Ma, Jiun-Yu Kao, Shuyang Gao, Arpit Gupta, Di Jin, Tagyoung Chung, Nanyun Peng

An Autoregressive Conversational Dynamics Model for Dialogue Systems
Matthew McNeill, Rivka Levitan

Style-transfer based Speech and Audio-visual Scene understanding for Robot Action Sequence Acquisition from Videos
Chiori Hori, Puyuan Peng, David Harwath, Xinyu Liu, Kei Ota, Siddarth Jain, Radu Corcodel, Devesh Jha, Diego Romeres, Jonathan Le Roux

Speech Aware Dialog System Technology Challenge (DSTC11)
Hagen Soltau, Izhak Shafran, Mingqiu Wang, Abhinav Rastogi, Jeffrey Zhao, Ye Jia, Wei Han, Yuan Cao, Aramys Miranda

Knowledge-Retrieval Task-Oriented Dialog Systems with Semi-Supervision
Yucheng Cai, Hong Liu, Zhijian Ou, Yi Huang, Junlan Feng

Tracking Must Go On : Dialogue State Tracking with Verified Self-Training
Jihyun Lee, Chaebin Lee, Yunsu Kim, Gary Geunbae Lee

Speaker Recognition 2

Ordered and Binary Speaker Embedding
Jiaying Wang, Xianglong Wang, Namin Wang, Lantian Li, Dong Wang

Self-FiLM: Conditioning GANs with self-supervised representations for bandwidth extension based speaker recognition
Saurabh Kataria, Jesús Villalba, Laureano Moro-Velazquez, Thomas Thebaud, Najim Dehak

Curriculum Learning for Self-supervised Speaker Verification
Hee-Soo Heo, Jee-weon Jung, Jingu Kang, Young-ki Kwon, Bong-Jin Lee, You Jin Kim, Joon Son Chung

Introducing Self-Supervised Phonetic Information for Text-Independent Speaker Verification
Ziyang Zhang, Wu Guo, Bin Gu

A Teacher-Student Approach for Extracting Informative Speaker Embeddings From Speech Mixtures
Tobias Cord-Landwehr, Christoph Boeddeker, Cătălin Zorilă, Rama Doddipatla, Reinhold Haeb-Umbach

Experimenting with Additive Margins for Contrastive Self-Supervised Speaker Verification
Theo Lepage, Reda Dehak

Phonetics, Phonology, and Prosody 2

Nonbinary American English speakers encode gender in vowel acoustics
Maxwell Hope, Charlotte Ward, Jason Lilley

Coarticulation of Sibe Vowels and Dorsal Fricatives in Spontaneous Speech: An Acoustic Study
Jared Sharp, Matthew Faytak, Hasutai Fei Xiong Liu

Using speech synthesis to explain automatic speaker recognition: a new application of synthetic speech
Georgina Brown, Christin Kirchhübel, Ramiz Cuthbert

Same F0, Different Tones: A Multidimensional Investigation of Zhangzhou Tones
Yishan Huang

Discovering Phonetic Feature Event Patterns in Transformer Embeddings
Patrick Cormac English, John D. Kelleher, Julie Carson-Berndsen

A System for Generating Voice Source Signals that Implements the Transformed LF-model Parameter Control
Zihan Wang, Christer Gobl

Speaker-independent Speech Inversion for Estimation of Nasalance
Yashish M Siriwardena, Carol Espy-Wilson, Suzanne Boyce, Mark Tiede, Liran Oren

Effects of Tonal Coarticulation and Prosodic Positions on Tonal Contours of Low Rising Tones: In the Case of Xiamen Dialect
Yiying Hu, Hui Feng, Qinghua Zhao, Aijun Li

Durational and Non-durational Correlates of Lexical and Derived Geminates in Arabic
Amel Issa

Mapping Phonemes to Acoustic Symbols and Codes Using Synchrony in Speech Modulation Vectors Estimated by the Travellingwave Filter Bank
Ashwin Rao

Rhythmic Characteristics of L2 German Speech by Advanced Chinese Learners
Lindun Ge, Min Xu, Hongwei Ding

(Dis)agreement and Preference Structure are Reflected in Matching Along Distinct Acoustic-prosodic Features
Anneliese Kelterer, Margaret Zellers, Barbara Schuppler

Vowel reduction by Greek-speaking children: The effect of stress and word length
Polychronia Christodoulidou, Katerina Nicolaidis, Dimitrios Stamovlasis

Pitch distributions in a very large corpus of spontaneous Finnish speech
Mietta Lennes, Minnaleena Toivola

Speech Enhancement Patterns in Human-Robot Interaction: A Cross-Linguistic Perspective
Jacek Kudera, Katharina Zahner-Ritter, Jakob Engel, Nathalie Elsässer, Philipp Hutmacher, Carolin Worstbrock

Speech Synthesis: Expressivity

Controllable Generation of Artificial Speaker Embeddings through Discovery of Principal Directions
Florian Lux, Pascal Tilli, Sarina Meyer, Ngoc Thang Vu

Dual Audio Encoders Based Mandarin Prosodic Boundary Prediction by Using Multi-Granularity Prosodic Representations
Ruishan Li, Yingming Gao, Yanlu Xie, Dengfeng Ke, Jinsong Zhang

NoreSpeech: Knowledge Distillation based Conditional Diffusion Model for Noise-robust Expressive TTS
Dongchao Yang, Songxiang Liu, Helin Wang, Jianwei Yu, Chao Weng, Yuexian Zou

MaskedSpeech: Context-aware Speech Synthesis with Masking Strategy
Ya-Jie Zhang, Wei Song, Yanghao Yue, Zhengchen Zhang, Youzheng Wu, Xiaodong He

Narrator or Character: Voice Modulation in an Expressive Multi-speaker TTS
Tankala Pavan Kalyan, Preeti Rao, Preethi Jyothi, Pushpak Bhattacharyya

CASEIN: Cascading Explicit and Implicit Control for Fine-grained Emotion Intensity Regulation
Yuhao Cui, Xiongwei Wang, Zhongzhou Zhao, Wei Zhou, Haiqing Chen

Semi-supervised Learning for Continuous Emotional Intensity Controllable Speech Synthesis with Disentangled Representations
Yoori Oh, Juheon Lee, Yoseob Han, Kyogu Lee

Expresso: A Benchmark and Analysis of Discrete Expressive Speech Resynthesis
Tu Anh Nguyen, Wei-Ning Hsu, Antony D'Avirro, Bowen Shi, Itai Gat, Maryam Fazel-Zarani, Tal Remez, Jade Copet, Gabriel Synnaeve, Michael Hassid, Felix Kreuk, Yossi Adi, Emmanuel Dupoux

ComedicSpeech: Text To Speech For Stand-up Comedies in Low-Resource Scenarios
Yuyue Wang, Huan Xiao, Yihan Wu, Ruihua Song

Neural Speech Synthesis with Enriched Phrase Boundaries
Marie Kunešová, Jindřich Matoušek

Cross-lingual Prosody Transfer for Expressive Machine Dubbing
Jakub Swiatkowski, Duo Wang, Mikolaj Babianski, Patrick Lumban Tobing, Ravichander Vipperla, Vincent Pollet

Synthesis after a couple PINTs: Investigating the Role of Pause-Internal Phonetic Particles in Speech Synthesis and Perception
Mikey Elmers, Johannah O'Mahony, Éva Székely

Accentor: An Explicit Lexical Stress Model for TTS Systems
Diana Geneva, Georgi Shopov, Kostadin Garov, Maria Todorova, Stefan Gerdjikov, Stoyan Mihov

A Neural TTS System with Parallel Prosody Transfer from Unseen Speakers
Slava Shechtman, Raul Fernandez

Diverse and Expressive Speech Prosody Prediction with Denoising Diffusion Probabilistic Model
Xiang Li, Songxiang Liu, Max W. Y. Lam, Zhiyong Wu, Chao Weng, Helen Meng

Prosody Modeling with 3D Visual Information for Expressive Video Dubbing
Zhihan Yang, Shansong Liu, Xu Li, Haozhe Wu, Zhiyong Wu, Ying Shan, Jia Jia

LightClone: Speaker-guided Parallel Subnet Selection for Few-shot Voice Cloning
Jie Wu, Jian Luan, Yujun Wang

EE-TTS: Emphatic Expressive TTS with Linguistic Information
Yi Zhong, Chen Zhang, Xule Liu, Chenxi Sun, Weishan Deng, Haifeng Hu, Zhongqian Sun

Stochastic Pitch Prediction Improves the Diversity and Naturalness of Speech in Glow-TTS
Sewade Ogun, Vincent Colotte, Emmanuel Vincent

ContextSpeech: Expressive and Efficient Text-to-Speech for Paragraph Reading
Yujia Xiao, Shaofei Zhang, Xi Wang, Xu Tan, Lei He, Sheng Zhao, Frank K. Soong, Tan Lee

PromptStyle: Controllable Style Transfer for Text-to-Speech with Natural Language Descriptions
Guanghou Liu, Yongmao Zhang, Yi Lei, Yunlin Chen, Rui Wang, Lei Xie, Zhifei Li

Creating Personalized Synthetic Voices from Post-Glossectomy Speech with Guided Diffusion Models
Yusheng Tian, Guangyan Zhang, Tan Lee

Speech Recognition: Signal Processing, Acoustic Modeling, Robustness, Adaptation 5

Towards Multi-task Learning of Speech and Speaker Recognition
Nik Vaessen, David A. van Leeuwen

Regarding Topology and Variant Frame Rates for Differentiable WFST-based End-to-End ASR
Zeyu Zhao, Peter Bell

2-bit Conformer quantization for automatic speech recognition
Oleg Rybakov, Phoenix Meadowlark, Shaojin Ding, David Qiu, Jian Li, David Rim, Yanzhang He

Time-Domain Speech Enhancement for Robust Automatic Speech Recognition
Yufeng Yang, Ashutosh Pandey, DeLiang Wang

Multi-channel multi-speaker transformer for speech recognition
Guo Yifan, Tian Yao, Suo Hongbin, Wan Yulong

Fake the Real: Backdoor Attack on Deep Speech Classification via Voice Conversion
Zhe Ye, Terui Mao, Li Dong, Diqun Yan

Dialect Speech Recognition Modeling using Corpus of Japanese Dialects and Self-Supervised Learning-based Model XLSR
Shogo Miwa, Atsuhiko Kai

Contextualized End-to-End Speech Recognition with Contextual Phrase Prediction Network
Kaixun Huang, Ao Zhang, Zhanheng Yang, Pengcheng Guo, Bingshen Mu, Tianyi Xu, Lei Xie

Competitive and Resource Efficient Factored Hybrid HMM Systems are Simpler Than You Think
Tina Raissi, Christoph Lüscher, Moritz Gunz, Ralf Schlüter, Hermann Ney

MMSpeech: Multi-modal Multi-task Encoder-Decoder Pre-training for speech recognition
Xiaohuan Zhou, Jiaming Wang, Zeyu Cui, Shiliang Zhang, Zhijie Yan, Jingren Zhou, Chang Zhou

Biased Self-supervised Learning for ASR
Florian L. Kreyssig, Yangyang Shi, Jinxi Guo, Leda Sari, Abdel-rahman Mohamed, Philip C. Woodland

A Unified Recognition and Correction Model under Noisy and Accent Speech Conditions
Zhao Yang, Dianwen Ng, Chong Zhang, Rui Jiang, Wei Xi, Yukun Ma, Chongjia Ni, Jizhong Zhao, Bin Ma, Eng Siong Chng

wav2vec 2.0 ASR for Cantonese-Speaking Older Adults in a Clinical Setting
Ranzo Huang, Brian Mak

BAT: Boundary aware transducer for memory-efficient and low-latency ASR
Keyu An, Xian Shi, Shiliang Zhang

Bayes Risk Transducer: Transducer with Controllable Alignment Prediction
Jinchuan Tian, Jianwei Yu, Hangting Chen, Brian Yan, Chao Weng, Dong Yu, Shinji Watanabe

Multi-View Frequency-Attention Alternative to CNN Frontends for Automatic Speech Recognition
Belen Alastruey, Lukas Drude, Jahn Heymann, Simon Wiesler

Speech, Voice, and Hearing Disorders 2

Investigating the dynamics of hand and lips in French Cued Speech using attention mechanisms and CTC-based decoding
Sanjana Sankar, Denis Beautemps, Frédéric Elisei, Olivier Perrotin, Thomas Hueber

Hearing Loss Affects Emotion Perception in Older Adults: Evidence from a Prosody-Semantics Stroop Task
Yingyang Wang, Min Xu, Jing Shao, Lan Wang, Nan Yan

Cochlear-implant Listeners Listening to Cochlear-implant Simulated Speech
Fanhui Kong, Nengheng Zheng, Xianren Wang, Hao He, Jan W. H. Schnupp, Qinglin Meng

Validation of a Task-Independent Cepstral Peak Prominence Measure with Voice Activity Detection
Olivia M. Murton, Abigail E. Haenssler, Marc F. Maffei, Kathryn P. Connaghan, Jordan Green

Score-balanced Loss for Multi-aspect Pronunciation Assessment
Heejin Do, Yunsu Kim, Gary Geunbae Lee

Federated Learning for Secure Development of AI Models for Parkinson’s Disease Detection Using Speech from Different Languages
Soroosh Tayebi Arasteh, Cristian David Ríos-Urrego, Elmar Nöth, Andreas Maier, Seung Hee Yang, Jan Rusz, Juan Rafael Orozco-Arroyave

F0inTFS: A lightweight periodicity enhancement strategy for cochlear implants
Huali Zhou, Fanhui Kong, Nengheng Zheng, Qinglin Meng

Differentiating acoustic and physiological features in speech for hypoxia detection
Benjamin O'Brien, Adrien Gresse, Jean-Baptise Billaud, Guilhem Belda, Jean-François Bonastre

Mandarin Electrolaryngeal Speech Voice Conversion using Cross-domain Features
Hsin-Hao Chen, Yung-Lun Chien, Ming-Chi Yen, Shu-Wei Tsai, Tai-shih Chi, Hsin-Min Wang, Yu Tsao

Audio-Visual Mandarin Electrolaryngeal Speech Voice Conversion
Yung-Lun Chien, Hsin-Hao Chen, Ming-Chi Yen, Shu-Wei Tsai, Hsin-Min Wang, Yu Tsao, Tai-shih Chi

Which aspects of motor speech disorder are captured by Mel Frequency Cepstral Coefficients? Evidence from the change in STN-DBS conditions in Parkinson’s disease
Vojtěch Illner, Petr Krýže, Jan Švihlík, Mário Sousa, Paul Krack, Elina Tripoliti, Robert Jech, Jan Rusz

Detecting Manifest Huntington's Disease Using Vocal Data
Vinod Subramanian, Namhee Kwon, Raymond Brueckner, Nate Blaylock, Henry O'Connell, Luis Sierra, Clementina Ullman, Karen Hildebrand, Simon Laganiere

Exploring multi-task learning and data augmentation in dementia detection with self-supervised pretrained models
Minchuan Chen, Chenfeng Miao, Jun Ma, Shaojun Wang, Jing Xiao

Speech Activity Detection and Modeling

GL-SSD: Global and Local Speech Style Disentanglement by vector quantization for robust sentence boundary detection in speech stream
Kuncai Zhang, Wei Zhou, Pengcheng Zhu, Haiqing Chen

Semantic VAD: Low-Latency Voice Activity Detection for Speech Interaction
Mohan Shi, Yuchun Shu, Lingyun Zuo, Qian Chen, Shiliang Zhang, Jie Zhang, Li-Rong Dai

Dynamic Encoder RNN for Online Voice Activity Detection in Adverse Noise Conditions
Prithvi R.R. Gudepu, Jayesh M. Koroth, Kamini Sabu, Mahaboob Ali Basha Shaik

Point to the Hidden: Exposing Speech Audio Splicing via Signal Pointer Nets
Denise Moussa, Germans Hirsch, Sebastian Wankerl, Christian Riess

Real-Time Causal Spectro-Temporal Voice Activity Detection Based on Convolutional Encoding and Residual Decoding
Jingyuan Wang, Jie Zhang, Li-Rong Dai

SVVAD: Personal Voice Activity Detection for Speaker Verification
Zuheng Kang, Jianzong Wang, Junqing Peng, Jing Xiao

Multilingual Models for ASR

Learning Cross-lingual Mappings for Data Augmentation to Improve Low-Resource Speech Recognition
Muhammad Umar Farooq, Thomas Hain

AfriNames: Most ASR Models "Butcher" African Names
Tobi Olatunji, Tejumade Afonja, Bonaventure F. P. Dossou, Atnafu Lambebo Tonja, Chris Chinenye Emezue, Amina Mardiyyah Rufai, Sahib Singh

Towards Dialect-inclusive Recognition in a Low-resource Language: Are Balanced Corpora the Answer?
Liam Lonergan, Mengjie Qian, Neasa Ní Chiaráin, Christer Gobl, Ailbhe Ní Chasaide

Svarah: Evaluating English ASR Systems on Indian Accents
Tahir Javed, Sakshi Joshi, Vignesh Nagarajan, Sai Sundaresan, Janki Nawale, Abhigyan Raman, Kaushal Bhogale, Pratyush Kumar, Mitesh M. Khapra

N-Shot Benchmarking of Whisper on Diverse Arabic Speech Recognition
Bashar Talafha, Abdul Waheed, Muhammad Abdul-Mageed

The MALACH Corpus: Results with End-to-End Architectures and Pretraining
Michael Picheny, Qin Yang, Daiheng Zhang, Lining Zhang

Speech Enhancement and Bandwidth Expansion

Unsupervised speech enhancement with deep dynamical generative speech and noise models
Xiaoyu Lin, Simon Leglaive, Laurent Girin, Xavier Alameda-Pineda

Noise-Robust Bandwidth Expansion for 8K Speech Recordings
Yin-Tse Lin, Bo-Hao Su, Chi-Han Lin, Shih-Chan Kuo, Jyh-Shing Roger Jang, Chi-Chun Lee

mdctGAN: Taming transformer-based GAN for speech super-resolution with Modified DCT spectra
Chenhao Shuai, Chaohua Shi, Lu Gan, Hongqing Liu

Zoneformer: On-device Neural Beamformer For In-car Multi-zone Speech Separation, Enhancement and Echo Cancellation
Yong Xu, Vinay Kothapally, Meng Yu, Shixiong Zhang, Dong Yu

Low-complexity Broadband Beampattern Synthesis using Array Response Control
Jiayi Xu, Jian Li, Weixin Meng, Xiaodong Li, Chengshi Zheng

A GAN Speech Inpainting Model for Audio Editing Software
Haixin Zhao

Articulation

Deep Speech Synthesis from MRI-Based Articulatory Representations
Peter Wu, Tingle Li, Yijing Lu, Yubin Zhang, Jiachen Lian, Alan W Black, Louis Goldstein, Shinji Watanabe, Gopala K. Anumanchipalli

Learning to Compute the Articulatory Representations of Speech with the MIRRORNET
Yashish M Siriwardena, Carol Espy-Wilson, Shihab Shamma

Generating high-resolution 3D real-time MRI of the vocal tract
Martin Strauch, Antoine Serrurier

Exploring a classification approach using quantised articulatory movements for acoustic to articulatory inversion
Jesuraj Bandekar, Sathvik Udupa, Prasanta Kumar Ghosh

Neural Processing of Speech and Language: Encoding and Decoding the Diverse Auditory Brain

MEG Encoding using Word Context Semantics in Listening Stories
Subba Reddy Oota, Nathan Trouvain, Frederic Alexandre, Xavier Hinaut

Investigating the cortical tracking of speech and music with sung speech
Giorgia Cantisani, Amirhossein Chalehchaleh, Giovanni Di Liberto, Shihab Shamma

Coherence Estimation Tracks Auditory Attention in Listeners with Hearing Impairment
Oskar Keding, Emina Alickovic, Martin A. Skoglund, Maria Sandsten

Speech Taskonomy: Which Speech Tasks are the most Predictive of fMRI Brain Activity?
Subba Reddy Oota, Veeral Agarwal, Mounika Marreddy, Manish Gupta, Raju Bapi

Exploring Auditory Attention Decoding using Speaker Features
Zelin Qiu, Jianjun Gu, Dingding Yao, Junfeng Li

Enhancing the EEG Speech Match Mismatch Tasks With Word Boundaries
Akshara Soman, Vidhi Sinha, Sriram Ganapathy

Similar Hierarchical Representation of Speech and Other Complex Sounds In the Brain and Deep Residual Networks: An MEG Study
Tzu-Han Zoe Cheng, Kuan-Lin Chen, Juliane Schubert, Ya-Ping Chen, Tim Brown, John Iversen

Effects of spectral degradation on the cortical tracking of the speech envelope
Alexis Deighton MacIntyre, Tobias Goehring

Effects of spectral and temporal modulation degradation on intelligibility and cortical tracking of speech signals
Ignacio Calderon De Palma, Laura S. Lopez, Alejandro Lopez Valdes

Perception of Paralinguistics

Transfer Learning for Personality Perception via Speech Emotion Recognition
Yuanchao Li, Peter Bell, Catherine Lai

A stimulus-organism-response model of willingness to buy from advertising speech using voice quality
Mizuki Nagano, Yusuke Ijima, Sadao Hiroya

Voice Passing : a Non-Binary Voice Gender Prediction System for evaluating Transgender voice transition
David Doukhan, Simon Devauchelle, Lucile Girard-Monneron, Mía Chávez Ruz, V. Chaddouk, Isabelle Wagner, Albert Rilliard

Influence of Personal Traits on Impressions of One's Own Voice
Hikaru Yanagida, Yusuke Ijima, Naohiro Tawara

Pardon my disfluency: The impact of disfluency effects on the perception of speaker competence and confidence
Ambika Kirkland, Joakim Gustafson, Éva Székely

Cross-linguistic Emotion Perception in Human and TTS Voices
Iona Gessinger, Michelle Cohn, Benjamin R. Cowan, Georgia Zellou, Bernd Möbius

Technologies for Child Speech Processing

Joint Learning Feature and Model Adaptation for Unsupervised Acoustic Modelling of Child Speech
Richeng Duan

Automatic Assessment of Oral Reading Accuracy for Reading Diagnostics
Bo Molenaar, Cristian Tejedor-Garcia, Catia Cucchiarini, Helmer Strik

An ASR-enabled Reading Tutor: Investigating Feedback to Optimize Interaction for Learning to Read
Yu Bai, Ferdy Hubers, Catia Cucchiarini, Roeland van Hout, Helmer Strik

Adaptation of Whisper models to child speech recognition
Rishabh Jain, Andrei Barcovschi, Mariam Yiwere, Peter Corcoran, Horia Cucu

Show and Tell: Media and commercial applications

Let's Give a Voice to Conversational Agents in Virtual Reality
Michele Yin, Gabriel Roccabruna, Abhinav Azad, Giuseppe Riccardi

FOOCTTS: Generating Arabic Speech with Acoustic Environment for Football Commentator
Massa Baali, Ahmed M. Ali

Video Summarization Leveraging Multimodal Information for Presentations
Hanchao Liu, Dapeng Chen, Rongjun Li, Wenyuan Xue, Wei Peng

What questions are my customers asking?: Towards Actionable Insights from Customer Questions in Contact Center Calls
Varun Nathan, Devashish Deshpande, Ayush Kumar, Cijo George, Jithendra Vepa

COnVoy: A Contact Center Operated Pipeline for Voice of Customer Discovery
Rishabh Tripathi, Digvijay Anil Ingle, Ayush Kumar, Cijo George, Jithendra Vepa

NeMo Forced Aligner and its application to word alignment for subtitle generation
Elena Rastorgueva, Vitaly Lavrukhin, Boris Ginsburg

CauSE: Causal Search Engine for Understanding Contact-Center Conversations
Anup Pattnaik, Tanay Narshana, Aashraya Sachdeva, Cijo George, Jithendra Vepa

Tailored Real-Time Call Summarization System for Contact Centers
Aashraya Sachdeva, Sai Nishanth Padala, Anup Pattnaik, Varun Nathan, Cijo George, Ayush Kumar, Jithendra Vepa

Federated Learning Toolkit with Voice-based User Verification Demo
Prathamesh Mandke, Rachel Oberst, Matthias Reisser, Avĳit Chakraborty, Christos Louizos, Joseph Soriaga, Daniel Madrigal, Andre Manoel, Nalin Singal, Jeff Omhover, Robert Sim

Learning When to Speak: Latency and Quality Trade-offs for Simultaneous Speech-to-Speech Translation with Offline Models
Liam Dugan, Anshul Wadhawan, Kyle Spence, Chris Callison-Burch, Morgan McGuire, Victor Zordan

Fast Enrollable Streaming Keyword Spotting System: Training and Inference using a Web Browser
Namhyun Cho, Sunmin Kim, Yoseb Kang, Heeman Kim

Cross-lingual/Cross-channel Intent Detection in Contact-Center Conversations
Suraj Agrawal, Aashraya Sachdeva, Soumya Jain, Cijo George, Jithendra Vepa

Speaker and Language Identification 3

One-Step Knowledge Distillation and Fine-Tuning in Using Large Pre-Trained Self-Supervised Learning Models for Speaker Verification
Jungwoo Heo, Chan-yeong Lim, Ju-ho Kim, Hyun-seo Shin, Ha-Jin Yu

Defense Against Adversarial Attacks on Audio DeepFake Detection
Piotr Kawa, Marcin Plata, Piotr Syga

A conformer-based classifier for variable-length utterance processing in anti-spoofing
Eros Rosello, Alejandro Gomez-Alanis, Angel M. Gomez, Antonio Peinado

Conformer-based Language Embedding with Self-Knowledge Distillation for Spoken Language Identification
Feng Wang, Lingyan Huang, Tao Li, Qingyang Hong, Lin Li

CommonAccent: Exploring Large Acoustic Pretrained Models for Accent Classification Based on Common Voice
Juan Zuluaga-Gomez, Sara Ahmed, Danielius Visockas, Cem Subakan

From adaptive score normalization to adaptive data normalization for speaker verification systems
Sandro Cumani, Salvatore Sarni

CAM++: A Fast and Efficient Network for Speaker Verification Using Context-Aware Masking
Hui Wang, Siqi Zheng, Yafeng Chen, Luyao Cheng, Qian Chen

North Sámi Dialect Identification with Self-supervised Speech Models
Sofoklis Kakouros, Katri Hiovain-Asikainen

Encoder-decoder Multimodal Speaker Change Detection
Jee-weon Jung, Soonshin Seo, Hee-Soo Heo, Geonmin Kim, You Jin Kim, Young-ki Kwon, Minjae Lee, Bong-Jin Lee

Disentangled Representation Learning for Multilingual Speaker Recognition
Kihyun Nam, Youkyum Kim, Jaesung Huh, Hee-Soo Heo, Jee-weon Jung, Joon Son Chung

A Compact End-to-End Model with Local and Global Context for Spoken Language Identification
Fei Jia, Nithin Rao Koluguri, Jagadeesh Balam, Boris Ginsburg

On the Robustness of Arabic Speech Dialect Identification
Peter Sullivan, AbdelRahim Elmadany, Muhammad Abdul-Mageed

Adaptive Neural Network Quantization For Lightweight Speaker Verification
Haoyu Wang, Bei Liu, Yifei Wu, Yanmin Qian

Adversarial Diffusion Probability Model For Cross-domain Speaker Verification Integrating Contrastive Loss
Xinmei Su, Xiang Xie, Fengrun Zhang, Chenguang Hu

Spoofing Attacker Also Benefits from Self-Supervised Pretrained Model
Aoi Ito, Shota Horiguchi

Label Aware Speech Representation Learning For Language Identification
Shikhar Vashishth, Shikhar Bharadwaj, Sriram Ganapathy, Ankur Bapna, Min Ma, Wei Han, Vera Axelrod, Partha Talukdar

Exploring the Impact of Back-End Network on Wav2vec 2.0 for Dialect Identification
Qibao Luo, Ruohua Zhou

Improving Speaker Verification with Self-Pretrained Transformer Models
Junyi Peng, Oldřich Plchot, Themos Stafylakis, Ladislav Mosner, Lukáš Burget, Jan "Honza" Černocký

Handling the Alignment for Wake Word Detection: A Comparison Between Alignment-Based, Alignment-Free and Hybrid Approaches
Vinicius Ribeiro, Yiteng Huang, Yuan Shangguan, Zhaojun Yang, Li Wan, Ming Sun

Analysis of Speech and Audio Signals 4

What do self-supervised speech representations encode? An analysis of languages, varieties, speaking styles and speakers
Julian Linke, Mate Kadar, Gergely Dosinszky, Peter Mihajlik, Gernot Kubin, Barbara Schuppler

A Compressed Synthetic Speech Detection Method with Compression Feature Embedding
Jinghong Zhang, Xiaowei Yi, Xianfeng Zhao

Outlier-aware Inlier Modeling and Multi-scale Scoring for Anomalous Sound Detection via Multitask Learning
Yucong Zhang, Suo Hongbin, Yulong Wan, Ming Li

MOSLight: A Lightweight Data-Efficient System for Non-Intrusive Speech Quality Assessment
Zitong Li, Wei Li

A Multi-Scale Attentive Transformer for Multi-Instrument Symbolic Music Generation
Xipin Wei, Junhui Chen, Zirui Zheng, Li Guo, Lantian Li, Dong Wang

MTANet: Multi-band Time-frequency Attention Network for Singing Melody Extraction from Polyphonic Music
Yuan Gao, Ying Hu, Liusong Wang, Hao Huang, Liang He

Xiaoicesing 2: A High-Fidelity Singing Voice Synthesizer Based on Generative Adversarial Network
Wang Chunhui, Chang Zeng, Xing He

Do Vocal Breath Sounds Encode Gender Cues for Automatic Gender Classification?
Mohammad Shaique Solanki, Ashutosh Bharadwaj, Jeevan Kylash, Prasanta Kumar Ghosh

Automatic Exploration of Optimal Data Processing Operations for Sound Data Augmentation Using Improved Differentiable Automatic Data Augmentation
Toki Sugiura, Hiromitsu Nishizaki

A Snoring Sound Dataset for Body Position Recognition: Collection, Annotation, and Analysis
Li Xiao, Xiuping Yang, Xinhong Li, Weiping Tu, Xiong Chen, Weiyan Yi, Jie Lin, Yuhong Yang, Yanzhen Ren

RMVPE: A Robust Model for Vocal Pitch Estimation in Polyphonic Music
Haojie Wei, Xueke Cao, Tangpeng Dan, Yueguo Chen

Spatialization Quality Metric for Binaural Speech
Pranay Manocha, Israel Dejene Gebru, Anurag Kumar, Dejan Markovic, Alexander Richard

AsthmaSCELNet: A Lightweight Supervised Contrastive Embedding Learning Framework for Asthma Classification Using Lung Sounds
Arka Roy, Udit Satija

Patch-Mix Contrastive Learning with Audio Spectrogram Transformer on Respiratory Sound Classification
Sangmin Bae, June-Woo Kim, Won-Yang Cho, Hyerim Baek, Soyoun Son, Byungjo Lee, Changwan Ha, Kyongpil Tae, Sungnyun Kim, Se-Young Yun

Remote Assessment for ALS using Multimodal Dialog Agents: Data Quality, Feasibility and Task Compliance
Vanessa Richter, Michael Neumann, Jordan Green, Brian Richburg, Oliver Roesler, Hardik Kothare, Vikram Ramanarayanan

Adaptation of Text-Conditioned Diffusion Models for Audio-to-Image Generation
Guy Yariv, Itai Gat, Lior Wolf, Yossi Adi, Idan Schwartz

Obstructive sleep apnea screening with breathing sounds and respiratory effort: a multimodal deep learning approach
Hector E. Romero, Ning Ma, Guy J. Brown, Sam Johnson

Investigation of Music Emotion Recognition Based on Segmented Semi-Supervised Learning
Yifu Sun, Xulong Zhang, Jianzong Wang, Ning Cheng, Kaiyu Hu, Jing Xiao

Speech Synthesis: Multilinguality; Evaluation

The Effects of Input Type and Pronunciation Dictionary Usage in Transfer Learning for Low-Resource Text-to-Speech
Phat Do, Matt Coler, Jelske Dĳkstra, Esther Klabbers

Resource-Efficient Fine-Tuning Strategies for Automatic MOS Prediction in Text-to-Speech for Low-Resource Languages
Phat Do, Matt Coler, Jelske Dĳkstra, Esther Klabbers

Robust Feature Decoupling in Voice Conversion by Using Locality-Based Instance Normalization
Yewei Gu, Xianfeng Zhao, Xiaowei Yi

Zero-Shot Accent Conversion using Pseudo Siamese Disentanglement Network
Dongya Jia, Qiao Tian, Kainan Peng, Jiaxin Li, Yuanzhe Chen, Mingbo Ma, Yuping Wang, Yuxuan Wang

Automatic Evaluation of Turn-taking Cues in Conversational Speech Synthesis
Erik Ekstedt, Siyang Wang, Éva Székely, Joakim Gustafson, Gabriel Skantze

GenerTTS: Pronunciation Disentanglement for Timbre and Style Generalization in Cross-Lingual Text-to-Speech
Yahuan Cong, Haoyu Zhang, Haopeng Lin, Shichao Liu, Chunfeng Wang, Yi Ren, Xiang Yin, Zejun Ma

Analysis of Mean Opinion Scores in Subjective Evaluation of Synthetic Speech Based on Tail Probabilities
Yusuke Yasuda, Tomoki Toda

LibriTTS-R: A Restored Multi-Speaker Text-to-Speech Corpus
Yuma Koizumi, Heiga Zen, Shigeki Karita, Yifan Ding, Kohei Yatabe, Nobuyuki Morioka, Michiel Bacchiani, Yu Zhang, Wei Han, Ankur Bapna

UniFLG: Unified Facial Landmark Generator from Text or Speech
Kentaro Mitsui, Yukiya Hono, Kei Sawada

XPhoneBERT: A Pre-trained Multilingual Model for Phoneme Representations for Text-to-Speech
Linh The Nguyen, Thinh Pham, Dat Quoc Nguyen

ClArTTS: An Open-Source Classical Arabic Text-to-Speech Corpus
Ajinkya Kulkarni, Atharva Kulkarni, Sara Abedalmon'em Mohammad Shatnawi, Hanan Aldarmaki

Diffusion-based accent modelling in speech synthesis
Kamil Deja, Georgi Tinchev, Marta Czarnowska, Marius Cotescu, Jasha Droppo

Multilingual Text-to-Speech Synthesis for Turkic Languages Using Transliteration
Rustem Yeshpanov, Saida Mussakhojayeva, Yerbolat Khassanov

CVTE-Poly: A New Benchmark for Chinese Polyphone Disambiguation
Siheng Zhang, Xingjun Tan, Yanqiang Lei, Xianxiang Wang, Zhizhong Zhang, Yuan Xie

Improving Bilingual TTS Using Language And Phonology Embedding With Embedding Strength Modulator
Fengyu Yang, Jian Luan, Meng Meng, Yujun Wang

High-Quality Automatic Voice Over with Accurate Alignment: Supervision through Self-Supervised Discrete Speech Units
Junchen Lu, Berrak Sisman, Mingyang Zhang, Haizhou Li

PronScribe: Highly Accurate Multimodal Phonemic Transcription From Speech and Text
Yang Yu, Matthew Perez, Ankur Bapna, Fadi Haik, Siamak Tazari, Yu Zhang

Expressive Machine Dubbing Through Phrase-level Cross-lingual Prosody Transfer
Jakub Swiatkowski, Duo Wang, Mikolaj Babianski, Giuseppe Coccia, Patrick Lumban Tobing, Ravichander Vipperla, Viacheslav Klimkov, Vincent Pollet

Why We Should Report the Details in Subjective Evaluation of TTS More Rigorously
Cheng-Han Chiang, Wei-Ping Huang, Hung-yi Lee

Speaker-independent neural formant synthesis
Pablo Pérez Zarazaga, Zofia Malisz, Gustav Eje Henter, Lauri Juvela

CALLS: Japanese Empathetic Dialogue Speech Corpus of Complaint Handling and Attentive Listening in Customer Center
Yuki Saito, Eiji Iimori, Shinnosuke Takamichi, Kentaro Tachibana, Hiroshi Saruwatari

SASPEECH: A Hebrew Single Speaker Dataset for Text To Speech and Voice Conversion
Orian Sharoni, Roee Shenberg, Erica Cooper

INTERSPEECH 2023

Dublin, Ireland 20-24 August 2023

Chairs: Naomi Harte, Julie Carson-Berndsen, Gareth Jones

Keynote 1 ISCA Medallist

Speech Synthesis: Prosody and Emotion

Statistical Machine Translation

Self-Supervised Learning in ASR

Prosody

Speech Production

Dysarthric Speech Assessment

Speech Coding: Transmission and Enhancement

Speech Recognition: Signal Processing, Acoustic Modeling, Robustness, Adaptation 1

Analysis of Speech and Audio Signals 1

Speech Recognition: Architecture, Search, and Linguistic Components 1

Speech Recognition: Technologies and Systems for New Applications 1

Lexical and Language Modeling for ASR

Language Identification and Diarization

Speech Quality Assessment

Feature Modeling for ASR

Interfacing Speech Technology and Phonetics

Speech Synthesis: Multilinguality

Speech Emotion Recognition 1

Show and Tell: Health applications and emotion recognition

Spoken Dialog Systems and Conversational Analysis 1

Speech Coding and Enhancement 1

Speech Recognition: Signal Processing, Acoustic Modeling, Robustness, Adaptation 2

Speech Recognition: Technologies and Systems for New Applications 2

Keynote 2

Paralinguistics 1

Speech Enhancement and Denoising

Speech Synthesis: Evaluation

End-to-end Spoken Dialog Systems

Biosignal-enabled Spoken Communication

Neural-based Speech and Acoustic Analysis

DiGo - Dialog for Good: Speech and Language Technology for Social Good

Speech Recognition: Signal Processing, Acoustic Modeling, Robustness, Adaptation 3

Speech Recognition: Architecture, Search, and Linguistic Components 2

Spoken Language Translation, Information Retrieval, Summarization, Resources, and Evaluation 1

Speech, Voice, and Hearing Disorders 1

Speech Recognition: Technologies and Systems for New Applications 3

Spoken Term Detection and Voice Search

Models for Streaming ASR

Source Separation

Speech and Language in Health: From Remote Monitoring to Medical Conversations 1

Speech Perception

Phonetics and Phonology: Languages and Varieties

Paralinguistics 2

Speaker and Language Identification 1

Show and Tell: Speech tools, speech enhancement, speech synthesis

Speech Synthesis and Voice Conversion

Spoken Language Translation, Information Retrieval, Summarization, Resources, and Evaluation 2

Novel Transformer Models for ASR

Speaker Recognition 1

Cross-lingual and Multilingual ASR

Voice Conversion

Speech and Language in Health: From Remote Monitoring to Medical Conversations 2

Pathological Speech Analysis 1

Multimodal Speech Emotion Recognition

Speech Coding and Enhancement 2

Phonetics, Phonology, and Prosody 1

Spoken Dialog Systems and Conversational Analysis 2

Analysis of Speech and Audio Signals 2

Speech Coding: Privacy

Analysis of Neural Speech Representations

End-to-end ASR

Spoken Language Understanding, Summarization, and Information Retrieval

Invariant and Robust Pre-trained Acoustic Models

Pathological Speech Analysis 2

Speech Synthesis: Representation Learning

Speech Perception, Production, and Acquisition 1

Speaker and Language Identification 2

Speech Recognition: Architecture, Search, and Linguistic Components 3

Acoustic Model Adaptation for ASR

Speech Synthesis: Expressivity

Multi-modal Systems

Question Answering from Speech

Multi-talker Methods in Speech Processing

Sociophonetics

Speaker and Language Diarization

Speech Emotion Recognition 2

Dublin, Ireland
20-24 August 2023