無料で無限に使える文字起こしアプリの開発

会議の議事録作成やインタビューの原稿起こし。「誰か代わりにやって…」と、思わず天を仰いでしまった経験はありませんか? 音声を何度も再生しては止め、キーボードを叩き続ける地道な作業は、時間も手間もかかって本当に大変ですよね。

※Geminiで文字起こしアプリを生成するプロンプトをご覧になりたい方は、目次から「無料の文字起こしアプリを作るには」に飛んで下さい。

ジャンプできる目次

文字起こしアプリ

そんな面倒な文字起こしを劇的に効率化してくれるのが、nottaPLAUD NOTEなどの「文字起こしアプリ」です。マイクに向かって話したり、録音したデータをアップロードするだけで、AIが音声を認識し、驚くほど正確にテキスト化してくれます。

アプリ種類は実に様々ですが、多くの場合はファイルサイズに制限があったり、文字起こしできる長さに月単位で制限がある場合が多いです。nottaの場合は課金しないと、1回につき3分、月に120分までの制限がかかっていますので、課金しないと使い物になりません。

文字起こしアプリに課金しても…

nottaの場合は、プレミアム会員になって月額1185円(年額14220円)支払うと、1回につき5時間まで文字起こし可能、1ヶ月の文字起こし時間は1800分となります。一日平均1時間は文字起こしできるので、ようやく使えるレベルになりました。

でも、長丁場の打ち合わせやセミナーがある時は、月1800分は意外とすぐに使い切ってしまう場合があります。時間を使い切った場合は、来月まで待つか、料金が2倍以上するビジネスプランに切り替えなければなりません。うーん、困った。

GeminiのCanvasで文字起こしアプリの開発

というわけで、自分用に文字起こしのアプリを開発してみようと思いました。

GeminiにはCanvasという機能が追加されて、ドキュメントやコードの作成・編集・共有をリアルタイムで行えるようになりました。まるでデジタルホワイトボードを共有しているように、AIと対話しながらアイデアを形にし、共同で作業を進めることができます。

今回はこのGeminiのCanvasを使って文字起こしアプリを開発しました。折角なので、アプリを開発中の経過を公開したいと思います、

Ver1.0

「開発」なんて大層なことを言ってみましたが、実際には下記の命令を出したくらいで、あとはいい感じにGeminiのCanvasが解釈して仕様を決めてコーディングしてくれました。

これで出てきたのがこんな感じのアプリです。10MBまでのMP3ファイルであれば、いい感じで文字起こしできることを確認しました。

Ver2.0

ファイルサイズ10MBだと、数分の音声ファイルしか文字起こしできません。

そこで、10MB以上のファイルがアップロードされた場合は、適宜10MB以下のファイルに分割して、それぞれに対して文字起こしを行い、最後に全部の文字起こしを繋げて表示することを試みました。

こうして出来上がったのがこちら。10MB以上のファイルもいい感じで文字起こしできるようになりました。

Ver3〜

その後は、話者を識別させようとしてうまくいかなくて諦めたり。文字起こししたテキストをダウンロードできる仕様を追加したり、MP3以外のフォーマットにも対応できるようにしたり。いくつかのエラーを修正したりと、地道な作業を1時間ほど行って完成したのがこちら。

山月記経営研究所 文字起こしアプリ(動きません)

無料の文字起こしアプリを作るには

残念ながら、上記のアプリは自分のアカウントでログインしたGeminiの中でしか動かすことが出来ません(たぶん)。Webサイトにアップロードして使ってもらうときには、GoogleのAPIに使われた分だけのお金を払う必要があります(たぶん)。

参考までに、このアプリを作ったときのプロンプトを置いておきますので、各自のGeminiのCanvasで試してみて下さい。

会話の文字起こしができるアプリの開発を行って下さい。

10MB以上のファイルがアップロードされた時に、自動的に10MB以下の小さなファイルに分割し、それぞれを順番にAIに送信して文字起こしを行い、最後に結果を結合するようにして下さい。

MP3, WAV, M4A, AIFF, OGG, WMA, MP4, MOV, AVI形式で保存されたデータを読み込めるようにしてください。

文字起こし結果をコピーするボタンとダウンロードするボタンを追加して下さい。ダウンロードするときのファイル名は、アップロードされたファイル名を継承して下さい。例えば「AAAAA.mp3」というファイルがアップロードされた時は「AAAAA.txt」というファイルでダウンロードできます。

アップロードされた音声ファイルがどのようにして文字起こしされているのか、説明文を記載して下さい。音声ファイルが生成AIの学習に使用されるかどうかも記載して下さい。

文字起こし結果に半角スペースが沢山入ってしまっていますので、半角スペースが入らないようにして下さい。

発言した時間は文字起こし結果に入れなくてOKです。

私はGeminiのプロに課金して、Google Cloud Platformにも支払い方法を登録していたので、開発できたのかもしれません。同様のプロンプトで開発できなかった方は、Googleへの課金を検討してみるのも良いかもしれませんね。

文字起こしアプリを開発した感想

思いつきから開発して検証するまでは、約2時間程度でした。文字起こしの精度はどのくらいなのか、これからの検証が必要ですが、無料で無限に文字起こしできる環境を手に入れることが出来たので満足です。

nottaのように、高精度で話者を識別したり。特定の文字起こしの場所を選んで元の音源を聞くことが出来たり、動画の字幕用のファイルフォーマットでダウンロード出来たりは出来ません。でも、とりあえずの要約用の文字起こしを、ファイルサイズや長さに関係なく得られるようになったのは良かったです。

感想やご質問がある方は、この下のコメントかお問い合わせからご連絡下さい。

シェアお願いします!
  • URLをコピーしました!

この記事を書いた人

千葉と東京を中心に中小企業の支援を行っている中小企業診断士です。千葉県中小企業診断士協会理事、生成AI研究会幹事。
2019年診断士取得、毎日着物生活は6年目に突入しました。穏やかな語り口と着物の見た目から、経営者の悩みを聞いたり、従業員の本音ヒアリングを得意としています。
セミナー、執筆、経営相談など、お気軽にお問い合わせください!

コメント

コメントする

ジャンプできる目次