[음성]음성 처리 분야에서의 Deep Learning

250x250

관리 메뉴

😎 공부하는 징징알파카는 처음이지?

[음성]음성 처리 분야에서의 Deep Learning 본문

👩‍💻 인공지능 (ML & DL)/ML & DL

[음성]음성 처리 분야에서의 Deep Learning

징징알파카 2022. 1. 24. 23:47

728x90

220124 작성

<본 블로그는 Kaggle 을 참고해서 저만의 풀이를 작성하였습니다>

https://engineering.linecorp.com/ko/blog/voice-waveform-arbitrary-signal-to-noise-ratio-python/

딥 러닝 음성 인식에 필요한 훈련 데이터를 직접 만들어보자 - LINE ENGINEERING

안녕하세요, LINE에서 광고 플랫폼 개발을 맡고 있는 1년차 신입사원 Kunihiko Sato입니다. 이번 블로그에서는 Python을 사용해서 임의의 Signal-to-Noise ratio(SN비)를 가진 음성 파형을 만드는 방법을 소개

engineering.linecorp.com

1. 음원 분리

: 여러 개의 음원이 섞여 있는 입력 파형을 개별 음원의 파형으로 분리하는 것

: 음성 강조 or 잡음 제거

: 음성과 잡음이 섞여 있는 입력 파형을 음성 파형과 잡음 파형으로 각각 분리해내는 것

ex) 잡음제거, 특정 인물 음성 추출, 악기별 음원 분리

2. 딥러닝에 필요한 훈련 데이터 제작

- 훈련 데이터

: 음성과 잡음이 섞여 있는 파형이 필요

: 이 데이터를 통해 신경 회로망은 잡음이 섞여 있는 음성 파형에서 음성만 추출하도록 훈련

3. Signal-to-Noise ratio ( SN비, 신호 대비 잡음 비 )

: 신호의 크기가 잡음의 크기보다 얼마나 큰지 나타내는 비율

: SN비의 단위는 dB(데시벨)

: Signal -> 음성, Noise 그 외 소리 -> 화이트 노이즈, 환경음

: SN 비 높을수록 음성 > 잡음

: 0 db 는 음성과 잡음 크기 동일

: - db 는 음성 < 잡음

: 임의의 Signal-to-Noise ratoi 를 가진 음성 파형을 만든다

=> 원하는 dB 비율로 음성과 잡음이 섞여 있는 음성 파형을 만든다

- 계산 방법

Asignal : 음성의 크기 or 세기

Anoise : 잡음의 크기 or 세기 ( 세기 : 진폭값의 평균 제곱근_Root Mean Square, RMS )

1) 음성의 진폭값이 마이너스 수치로 나올 수도 있으니 진폭값 제곱

2) 제곱한 값을 더한 뒤 그 값의 평균 구함

3) 평균한 값의 제곱근을 계산하면 소리의 세기 구함

: 파형에 무음 구간, 특정 구간만 비정상적으로 진폭값 큼 -> 소리의 세기로 사용 X

4. Python 으로 임의 Signal-to-Noise ratio 의 음성 파형 제작

: 음성에 임의 크기의 잡음 중첩

1) 음성 파일 포맷 확인

: .wav 파일 사용

2) wav 파일 로딩

import argparse     # 프로그램을 실행시에 커맨드 라인에 인수를 받아 처리를 간단히
import array
import math
import numpy as np
import random
import wave

def get_args() :
    # 인자값을 받을 수 있는 인스턴스 생성
    parser = argparse.ArgumentParser()
    # parser.add_argument로 받아들일 인수를 추가
    parser.add_argument('--clean_file', type = str, required = True)    # 음성만 있는 파일 절대 경로
    parser.add_argument('--noise_file', type = str, required = True)    # 잡음만 있는 파일 절대 경로
    parser.add_argument('--output_mixed_file', type = str, default = '', required = True)   # 처리 완료된 음성만 있는 파일 절대 경로
    parser.add_argument('--output_clean_file', type = str, default = '')    # 처리 완료된 잡음만 있는 파일 절대 경로
    parser.add_argument('--output_noise_file', type = str, default = '')    # 임의 SN비의 음성 파일 절대 경로
    parser.add_argument('--snr', type = float, default = '', required = True)   # 합성하려는 SN 비의 크기
    # 인수를 분석, 저장
    args = parser.parse_args()
    return args

# 각각의 진폭을 더한 진폭값이 wav 파일의 양자화 bit수, 16bit(32767)
def cal_adjusted_rms(clean_rms, snr) :
    a = float(snr) / 20
    noise_rms = clean_rms / (10**a)
    return noise_rms

# 음성 파형의 진폭값 취득하기
def cal_amp(wf) :
    # wf.readframes(n) : 최대 n개의 오디오 프레임 읽어서 bytes 객체 반환
    # wf.getnframes() : 오디오 프레임 수 반환
    # => wav 파일의 모든 진폭값을 취득
    buffer = wf.readframes(wf.getnframes())     
    # The dtype depends on the value of pulse-code modulation
    # The int16 is set for 16-bit PCM
    amptitude = (np.frombuffer(buffer, dtype = "int16")).astype(np.float64)
    return amptitude

# 진폭값의 평균 제곱근(Root Mean Square, RMS) 구하기
# 잡음 데이터 파형을 음성 데이터 파형 길이로 자르기
# 잡음 파일에서 잘라낸 파형, 음성 파형의 RMS를 각각 계산 -> 임의 SN비가 나오도록 중첩
def cal_rms(amp) :
    # np.square : 어레이의 요소 단위로 제곱을 반환
    # SN 비 : 진폭값 제곱 -> 평균 -> 제곱근
    return np.sqrt(np.mean(np.square(amp), axis = -1))

def save_waveform(output_path, params, amp) :
    output_file = wave.Wave_write(output_path)
    output_file.setparams(params) #nchannels, sampwidth, framerate, nframes, comptype, compname
    output_file.writeframes(array.array('h', amp.astype(np.int16)).tobytes())
    output_file.close()

if __name__ == '__main__' :
    args = get_args()

    clean_file = args.clean_file
    noise_file = args.noise_file

    clean_wav = wave.open(clean_file, 'r')
    noise_wav = wave.open(noise_file, 'r')

    clean_amp = cal_amp(clean_wav)
    noise_amp = cal_amp(noise_wav)

    clean_rms = cal_rms(clean_amp)

    # 잡음을 자를 위치를 랜덤으로 정해서 음성의 길이만큼 잘라냄
    start = random.randint(0, len(noise_amp) - len(clean_amp))
    divided_noise_amp = noise_amp[start: start + len(clean_amp)]
    noise_rms = cal_rms(divided_noise_amp)

    snr = args.snr
    adjusted_noise_rms = cal_adjusted_rms(clean_rms, snr)

    adjusted_noise_rms = divided_noise_amp * (adjusted_noise_rms / noise_rms)
    mixed_amp = (clean_amp + adjusted_noise_rms)


    # Avoid clipping noise
    max_int16 = np.iinfo(np.int16).max
    min_int16 = np.iinfo(np.int16).min


    # 서로 더한 값이 16bit의 최대값을 넘으면, 최대 32767 안에 들어오도록 정규화
    if mixed_amp.max(axis = 0) > max_int16 or mixed_amp.min(axis = 0) < min_int16 :
        if mixed_amp.max(axis = 0) >= abs(mixed_amp.min(axis = 0)) :
            reduction_rate = max_int16 / mixed_amp.max(axis = 0)
        else :
            reduction_rate = min_int16 / mixed_amp.min(axis = 0)
        
        mixed_amp = mixed_amp * (reduction_rate)
        clean_amp = clean_amp * (reduction_rate)

    # save_waveform(args.output_mixed_file, clean_wav.getparams(), mixed_amp)

    # 파형을 wav 파일로 저장
    noise_wave = wave.Wave_write(args.output_noise_file)
    noise_wave.setparams(clean_wav.getparams())     # setparams : wav파일의 포맷을 지정하는 메서드
    noise_wave.writeframes(array.array('h', mixed_amp.astype(np.int16)).toString())
    noise_wave.close()          # writeframes : 진폭값을 지정. String에 캐스팅

    clean_wave = wave.Wave_write(args.output_clean_file)
    clean_wave.setparams(clean_wav.getparams())
    clean_wave.writeframes(array.array('h', clean_amp.astype(np.int16)).toString())
    clean_wave.close()

    noise_wave = wave.Wave_write(args.output_noise_file)
    noise_wave.setparams(clean_wav.getparams())
    noise_wave.writeframes(array.array('h', adjusted_noise_rms.astype(np.int16)).toString())
    noise_wave.close()

+) Signal-to-Noise ratio 계산식을 이용해 임의 크기로 파형 합성

- 음성에 대해 임의의 SN 비가 나오도록 잡음의 RMS 구하기

- 잡음의 RMS

: RMS(Anoise) 와 원본 잡음의 RMS 비율을 계산하여, 그 비율만큼 원본 잡음의 진폭값 조정

: 조정한 잡음의 진폭과 음성 단독의 진폭 더함

참고하면 더 좋은 정보와 방법을 알 수 있을 것!

create_mixed_audio_file.py 은 16 bit 용! path 더해서 실행했는뎅,, 왜 안될까 왕 궁금하다

https://github.com/Sato-Kunihiko/audio-SNR

GitHub - Sato-Kunihiko/audio-SNR: Mixing an audio file with a noise file at any Signal-to-Noise Ratio (SNR)

Mixing an audio file with a noise file at any Signal-to-Noise Ratio (SNR) - GitHub - Sato-Kunihiko/audio-SNR: Mixing an audio file with a noise file at any Signal-to-Noise Ratio (SNR)

github.com

전체 코드

import argparse     # 프로그램을 실행시에 커맨드 라인에 인수를 받아 처리를 간단히
import array
import math
import numpy as np
import random
import wave


def get_args() :
    # 인자값을 받을 수 있는 인스턴스 생성
    parser = argparse.ArgumentParser()
    # parser.add_argument로 받아들일 인수를 추가
    parser.add_argument('--clean_file', type = str, required = True)    # 음성만 있는 파일 절대 경로
    parser.add_argument('--noise_file', type = str, required = True)    # 잡음만 있는 파일 절대 경로
    parser.add_argument('--output_mixed_file', type = str, default = '', required = True)   # 처리 완료된 음성만 있는 파일 절대 경로
    parser.add_argument('--output_clean_file', type = str, default = '')    # 처리 완료된 잡음만 있는 파일 절대 경로
    parser.add_argument('--output_noise_file', type = str, default = '')    # 임의 SN비의 음성 파일 절대 경로
    parser.add_argument('--snr', type = float, default = '', required = True)   # 합성하려는 SN 비의 크기
    # 인수를 분석, 저장
    args = parser.parse_args()
    return args

# 각각의 진폭을 더한 진폭값이 wav 파일의 양자화 bit수, 16bit(32767)
def cal_adjusted_rms(clean_rms, snr) :
    a = float(snr) / 20
    noise_rms = clean_rms / (10**a)
    return noise_rms


# 음성 파형의 진폭값 취득하기
def cal_amp(wf) :
    # wf.readframes(n) : 최대 n개의 오디오 프레임 읽어서 bytes 객체 반환
    # wf.getnframes() : 오디오 프레임 수 반환
    # => wav 파일의 모든 진폭값을 취득
    buffer = wf.readframes(wf.getnframes())     
    # The dtype depends on the value of pulse-code modulation
    # The int16 is set for 16-bit PCM
    amptitude = (np.frombuffer(buffer, dtype = "int16")).astype(np.float64)
    return amptitude


# 진폭값의 평균 제곱근(Root Mean Square, RMS) 구하기
# 잡음 데이터 파형을 음성 데이터 파형 길이로 자르기
# 잡음 파일에서 잘라낸 파형, 음성 파형의 RMS를 각각 계산 -> 임의 SN비가 나오도록 중첩
def cal_rms(amp) :
    # np.square : 어레이의 요소 단위로 제곱을 반환
    # SN 비 : 진폭값 제곱 -> 평균 -> 제곱근
    return np.sqrt(np.mean(np.square(amp), axis = -1))


def save_waveform(output_path, params, amp) :
    output_file = wave.Wave_write(output_path)
    output_file.setparams(params) #nchannels, sampwidth, framerate, nframes, comptype, compname
    output_file.writeframes(array.array('h', amp.astype(np.int16)).tobytes())
    output_file.close()


if __name__ == '__main__' :
    args = get_args()

    clean_file = args.clean_file
    noise_file = args.noise_file

    clean_wav = wave.open(clean_file, 'r')
    noise_wav = wave.open(noise_file, 'r')

    clean_amp = cal_amp(clean_wav)
    noise_amp = cal_amp(noise_wav)

    clean_rms = cal_rms(clean_amp)

    # 잡음을 자를 위치를 랜덤으로 정해서 음성의 길이만큼 잘라냄
    start = random.randint(0, len(noise_amp) - len(clean_amp))
    divided_noise_amp = noise_amp[start: start + len(clean_amp)]
    noise_rms = cal_rms(divided_noise_amp)

    snr = args.snr
    adjusted_noise_rms = cal_adjusted_rms(clean_rms, snr)

    adjusted_noise_rms = divided_noise_amp * (adjusted_noise_rms / noise_rms)
    mixed_amp = (clean_amp + adjusted_noise_rms)


    # Avoid clipping noise
    max_int16 = np.iinfo(np.int16).max
    min_int16 = np.iinfo(np.int16).min


    # 서로 더한 값이 16bit의 최대값을 넘으면, 최대 32767 안에 들어오도록 정규화
    if mixed_amp.max(axis = 0) > max_int16 or mixed_amp.min(axis = 0) < min_int16 :
        if mixed_amp.max(axis = 0) >= abs(mixed_amp.min(axis = 0)) :
            reduction_rate = max_int16 / mixed_amp.max(axis = 0)
        else :
            reduction_rate = min_int16 / mixed_amp.min(axis = 0)
        
        mixed_amp = mixed_amp * (reduction_rate)
        clean_amp = clean_amp * (reduction_rate)


    # save_waveform(args.output_mixed_file, clean_wav.getparams(), mixed_amp)

    # 파형을 wav 파일로 저장
    noise_wave = wave.Wave_write(args.output_noise_file)
    noise_wave.setparams(clean_wav.getparams())     # setparams : wav파일의 포맷을 지정하는 메서드
    noise_wave.writeframes(array.array('h', mixed_amp.astype(np.int16)).toString())
    noise_wave.close()          # writeframes : 진폭값을 지정. String에 캐스팅

    clean_wave = wave.Wave_write(args.output_clean_file)
    clean_wave.setparams(clean_wav.getparams())
    clean_wave.writeframes(array.array('h', clean_amp.astype(np.int16)).toString())
    clean_wave.close()

    noise_wave = wave.Wave_write(args.output_noise_file)
    noise_wave.setparams(clean_wav.getparams())
    noise_wave.writeframes(array.array('h', adjusted_noise_rms.astype(np.int16)).toString())
    noise_wave.close()

728x90

저작자표시

'👩‍💻 인공지능 (ML & DL) > ML & DL' 카테고리의 다른 글

[DEEPNOID 원포인트레슨]_4_Classifcation 2. MobileNet & EfficientNet (0)	2022.01.26
[DEEPNOID 원포인트레슨]_3_Classifcation 1. ResNet/DenseNet (0)	2022.01.25
[DEEPNOID 원포인트레슨]_2_딥러닝(CNN)의 이해 (0)	2022.01.24
[DEEPNOID 원포인트레슨]_1_머신러닝의 이해 (0)	2022.01.24
[v0.1]머신러닝_Machine Learning 무엇일까? [핸즈온 머신러닝2판] (0)	2021.11.03

'👩‍💻 인공지능 (ML & DL)/ML & DL' Related Articles

Comments

😎 공부하는 징징알파카는 처음이지?

[음성]음성 처리 분야에서의 Deep Learning 본문

[음성]음성 처리 분야에서의 Deep Learning

'👩‍💻 인공지능 (ML & DL) > ML & DL' 카테고리의 다른 글

티스토리툴바