Librosa
Biblioteca Python de código aberto para processamento de áudio
API Python que permite aos desenvolvedores carregar e reproduzir áudio do disco, calcular várias representações de espectrograma e muito mais.
Librosa é uma biblioteca de análise de áudio e música Python muito útil que ajuda os desenvolvedores de software a criar aplicativos para trabalhar com formatos de arquivo de áudio e música usando Python. A biblioteca é muito fácil de usar e pode lidar com tarefas básicas e avançadas relacionadas ao processamento de áudio e música. A biblioteca é de código aberto e está disponível gratuitamente sob a licença ISC.
A biblioteca oferece muita flexibilidade para usuários experientes e, ao mesmo tempo, também incrível para usuários iniciantes que estão mais interessados em processar arquivos de áudio. A biblioteca inclui suporte para vários recursos importantes relacionados ao processamento e extração de arquivos de áudio, como carregamento de áudio do disco, computação de várias representações de espectrograma, separação de fontes harmônico-percussivas, decomposição de espectrograma genérico, cargas e decodificações de áudio, processamento de áudio no domínio do tempo, modelagem sequencial, integrando separação harmônico-percussiva, batida-síncrona e muito mais.
Introdução à Librosa
A maneira mais fácil de instalar o Librosa é usando o Python Package Index (PyPI). Por favor, use o seguinte comando para instalação completa.
Instale o Librosa usando o PyPI
python -m pip install librosa
Carregando e visualizando arquivos de áudio via Python
A biblioteca Python Librosa permite que programadores de software carreguem e visualizem arquivos de áudio dentro de seu próprio aplicativo Python. Antes de tudo, você precisa carregar o arquivo de áudio e reproduzi-lo usando um comando Python no Jupyter Notebook. Em seguida, você pode visualizar facilmente o sinal amostrado e plotá-lo. Você pode usar a visualização da forma de onda da amplitude versus a representação de tempo do sinal ou também pode usar a visualização do espectrograma ou o eixo Log-frequência.
Criar e salvar sinal de áudio via Python
Os sinais analógicos e digitais são tipos diferentes de sinais que podem transportar informações. Um sinal de áudio digital é um array NumPy com uma frequência e taxa de amostragem especificadas. Por outro lado, o formato de onda analógica do sinal de áudio representa uma função. A biblioteca Python de código aberto Librosa oferece aos desenvolvedores de software o poder de criar um sinal de áudio e salvá-lo no local de sua escolha usando código Python.
Extrair recurso de áudio usando Python
A biblioteca Python de código aberto Librosa oferece aos desenvolvedores de software a capacidade de carregar e extrair recursos de áudio dentro de seus próprios aplicativos usando comandos Python. Existem várias maneiras de extrair recursos de dados de áudio, como taxa de cruzamento zero, frequência de roll-off espectral, coeficientes cepstral de frequência Mel (MFCC), frequências de croma e muito mais.