Whisper 모델의 m4a 파일 지원 문제 해결 방법
Whisper 모델이 m4a 파일을 지원하지만 제대로 동작하지 않는 문제에 대한 해결 방법으로 세 가지 옵션을 검토했습니다:
1. 음성 파일을 mp3로 직접 저장
2. n8n에서 m4a를 mp3로 전환
3. 변환 API 사용
선택한 해결 방법: n8n에서 m4a를 mp3로 전환
1번 방법: 일부 휴대폰에서 사용 불가능
3번 방법: API 사용으로 인한 비용 발생
따라서 2번 방법을 선택하여 구현했습니다.
flow를 불러온 이후 설정은 다시 해주시거나 백업하셔서 재 설치 후 다시 넣어주시면 됩니다.
구현 방식
1. 볼륨의 shared 폴더에 m4a 파일 저장
2. ffmpeg 함수를 사용하여 mp3로 전환
3. 전환된 mp3 파일을 n8n에서 불러오기
[주의]
n8n에서 직접 대용량 파일 처리 시 부하 발생으로 인해 디스크에 저장하는 방식 선택
n8n에서의 ffmpeg 사용
커뮤니티 설명에 따르면, n8n 전용 ffmpeg 노드 생성은 보안상 불가능합니다. 대안으로 Docker에 ffmpeg 라이브러리를 직접 설치하여 n8n에서 사용하는 방법을 제시했습니다.
제한 사항
로컬에 설치된 self-hosted 환경에서만 사용 가능
클라우드 배포 환경에서는 사용 불가
관련 자료
[Docker yml 수정 파일](https://github.com/Kimseongbeen/Study...)
[Flow chart 및 JSON 파일](https://github.com/Kimseongbeen/Study...)
[참고 커뮤니티 글](https://community.n8n.io/t/is-there-a...)
이렇게 정리해 보았습니다. 주요 내용을 섹션별로 나누고, 중요한 포인트는 리스트나 인용문으로 강조했습니다. 링크도 별도로 정리하여 쉽게 참조할 수 있도록 했습니다.
00:00 이유
01:29 동작
03:50 설정
09:42 flow