音声記録の処理

音声記録の処理

http://www.kusastro.kyoto-u.ac.jp/~iwamuro/Wave/index.html

● 概要

録画・録音データから AI 文字起こしをする際に合唱部分は無駄なので、wav ファイルの音量から合唱部分を判断して削除、録音ファイルサイズを小さくするというもの。必要なものは以下の通り。

wav.exe
wav ファイルから音量の大きい部分を自動カットするソフト(Windiws の minGW の C コンパイラでコンパイルしてあります)。ソース必要な方はこちら (ソース作成では「WaveファイルをC言語のデータに変換」を利用させて頂きました)。

● 使い方

適当な作業フォルダを作って wav.exe を置きます。

コマンドプロンプトのショートカット作成(初回のみ)
wav.exe のあるフォルダで右クリック → 新規作成 → ショートカット
「項目の場所を入力」は C:\Windows\System32\cmd.exe → Enter
できた "cmd.exe" を右クリック → プロパティ
「作業フォルダ―」は wav.exe が置いてあるパスを入れておく(C:\Users\XXXX\Wave など)

録画の場合は Aviutl などで音声を「wav 出力」で書き出しておく

cmd.exe ショートカットをダブルクリック
開いたら、
wav 入力.wav 出力.wav 倍率削除幅
「倍率」は wav ファイルに掛け算する音声増幅率で、最大録音音量に達している間と
前後「削除幅」秒間の音声データを削除します。
「削除幅」を省略した場合は 0.5秒が設定されます。
「倍率」と「削除幅」の両方を省略した場合は、１倍、0.5秒が設定されますので、
多分、削除されずに入力と同じファイルが出力されます。
wav tmp1.wav tmp2.wav 32
Read: tmp1.wav ... OK
Sampling rate 48000
bit_per_sample 16
channel number 1
sample number 256000000
Reduced: 5333 sec => 3435 sec
Write: tmp2.wav ... OK
上記例ではモノラル wav(channel number "1" はモノラル)を32倍に増幅し、最大録音音量部分と
前後 0.5秒間を削除した結果、約2000秒が削除されています。

出力.wav で文字起こし
削減後のファイルの秒数から、どの程度の合唱部分が削除されたかを判断し、
十分だと判断できたら出力.wav を用いて文字起こしをします。
Vrew なら２時間/月まで無料です(音声データをできるだけ短くする理由がこれ)。
インストール後、Vrew を起動、「新規で作成」=> 「PC からビデオ・オーディオを読み込む」
=> wav ファイル選択 ... => エクスポート => Text で書き出しという流れになります。
文字起こし後は Google Gemini で
これから記述する文字記録はヨハネ受難曲の合唱練習の録音をテキスト化したものです。
この文章の内容に関して重要と思われる部分を中心に200字程度でまとめてみて下さい。
過去の記録の情報は用いないで、これから記述する文字記録を受け取った後に回答して下さい。
の指示の後、文字データを張り付けてまとめてもらい、その後
箇条書きでもお願いします。
と入れて箇条書きにもしてもらいます。
ChatGPT でも可能ですが、余分な解釈にまで踏み込んでくるのでお勧めではありません。

iwamuro@kusastro.kyoto-u.ac.jp