AI活用 約20分で読める

AI文字起こし・議事録作成の最強ワークフロー【2026年版】Groq Whisper・Gemini・NotebookLMを使いこなす

AIツールの教科書編集部
Groq - 高速AI推論プラットフォーム

議事録作成に毎回30分以上かけていませんか?

1時間の会議が終わった後、録音を聞き返しながら議事録を手で打ち込む——この作業を毎回行っているビジネスパーソンは少なくありません。週5回の会議があると、それだけで月に10時間以上を議事録作成に費やすことになります。

2026年現在、この課題に対して「無料ツールの組み合わせだけで解決できる」環境が整ってきました。特にGroqが提供するWhisperの高速文字起こしと、GeminiのAI分析機能、そしてGoogleのNotebookLMを組み合わせることで、録音→文字起こし→整形→ナレッジ化の流れを無料でほぼ自動化できます。

本記事では、エンジニアでなくても実践できる具体的なワークフローを、ステップごとに解説します。


2026年のAI文字起こし——何がどう変わったか

2年前まで、高精度な音声認識には専用の有料SaaSが必要でした。しかし2026年現在、状況は大きく変わっています。

変化の3つのポイント:

  1. OpenAI Whisperのオープンソース化と普及:OpenAIが公開した音声認識モデル「Whisper」は99言語以上に対応し、MITライセンスで商用利用可能です。日本語の認識精度は業界最高水準です。

  2. Groqによる超高速推論の無料提供:Groqが独自開発したLPU(Language Processing Unit)上でWhisperを動かすことで、1秒間に228秒分の音声を処理できる超高速な文字起こしが可能になった。しかも無料枠で1日8時間分まで利用できる(参照:Groq公式レート制限ドキュメント、2026年3月28日確認)。

  3. GeminiのマルチモーダルAI進化:GoogleのGeminiは音声ファイルを直接読み込み、文字起こし・要約・話者の発言整理まで一括処理できるようになった(参照:Google Gemini API公式ドキュメント、最終更新2026年3月25日)。

これらのツールを組み合わせれば、従来有料SaaSに頼っていた議事録作成が、ほぼ無料で実現できます。


全体ワークフローの概要

今回紹介するワークフローは、大きく4ステップで構成されます。

STEP 1: 録音
 └ スマホのボイスメモ / Zoomの録画 / IC レコーダー

STEP 2: 文字起こし(ここが最重要)
 ├ 方法A: Groq Whisper(速度重視・無料・シンプル)
 └ 方法B: Google AI Studio × Gemini(話者識別が必要な場合)

STEP 3: 整形・要約
 └ Claude / ChatGPT / Gemini にテキストを貼り付けてプロンプト整形

STEP 4: ナレッジベース化
 └ NotebookLM に議事録を蓄積→ 横断検索・サマリー・音声化

この流れをひとつずつ解説していきます。


STEP 1: 録音——精度を左右する下準備

後工程のAI精度は録音品質に直結します。以下のポイントを押さえるだけで、文字起こし精度が大幅に向上します。

録音方法の選択

シーンおすすめ録音方法
対面会議(小規模)スマホのボイスメモアプリ(テーブル中央に置く)
Zoom / Google Meet録画機能またはZoomの「クラウド録画」→ MP4保存
1対1の商談・インタビュースマホ → ヘッドセットで相手の声も収録
大規模な会議室外付けマイク(Jabra Speak などの全指向性マイク)を推奨

音質を上げる3つのコツ

  1. 静かな場所で録音する:エアコンや空調の雑音はAIが雑音と判断して認識精度を落とすことがあります
  2. マイクを発言者に近づける:スマホは会議テーブルの中央に置き、できれば1人1マイクが理想です
  3. MP3またはWAV形式で保存する:Groq Whisperが対応しているフォーマットです。ZoomのMP4録画もそのまま使用できます

STEP 2: 文字起こし——Groq Whisperか Geminiかを選ぶ

文字起こしの方法は用途によって使い分けるのが最適です。

方法A: Groq Whisperで高速・シンプルに文字起こし

向いているケース: 話者識別は不要でとにかく速く正確にテキスト化したい場合

Groq Whisperのスペック(2026年3月28日現在・公式情報):

項目詳細
無料枠1日28,800秒(= 8時間分)まで
処理速度リアルタイムの 228倍(1秒で228秒分の音声を処理)
有料料金$0.04/時間音声(Whisper Large V3 Turbo)
対応言語99言語以上(日本語対応)
最大ファイルサイズ25MB

(出典:Groq公式料金ページレート制限ドキュメント、2026年3月28日確認)

ノーコードで使う手順(GroqCloud Playground):

  1. console.groq.com にアクセスし、Googleアカウントで無料ログイン
  2. 左メニューから「Playground」→「Audio」を選択
  3. 「Attach file」から録音ファイル(MP3/WAV/MP4)をアップロード
  4. モデルを「whisper-large-v3-turbo」に設定
  5. 「Submit」をクリック → 数秒でテキストが生成される
  6. テキストをコピーして次のステップへ

1時間の会議録音でも、処理にかかるのは約15〜20秒というのが体感値です。

注意点: GroqCloudは無料でAPIキーを発行でき、Playgroundから直接試せます。ただしAPIキーは外部に漏らさないよう注意してください。


方法B: Google AI Studio × Geminiで話者識別付き文字起こし

向いているケース: 「誰が何を言ったか」が重要な会議(複数人の商談・インタビューなど)

GeminiはOpenAIのWhisperとは異なり、「音声認識モデル」ではなく「マルチモーダルLLM(大規模言語モデル)」です。音声ファイルを直接入力として受け取り、内容を理解した上でテキストを出力するため、単純なテキスト化だけでなく話者の発言を区別した整形された出力が可能です。

Geminiの音声対応スペック(Google公式ドキュメント、2026年3月25日時点):

項目詳細
対応形式WAV / MP3 / AIFF / AAC / OGG / FLAC
最大音声長1プロンプトあたり9.5時間まで
タイムスタンプMM:SS形式で指定・出力可能
感情検出話者の感情(Happy/Sad/Angry/Neutral)を識別可能
話者識別プロンプトで指示することで発言者ごとに整理可能

(出典:Google Gemini API 音声の理解 公式ドキュメント、2026年3月25日最終更新)

ノーコードで使う手順(Google AI Studio):

  1. aistudio.google.com にアクセスしGoogleアカウントでログイン(無料)
  2. 「New Prompt」→「Chat Prompt」を選択
  3. 添付ファイルアイコンから録音ファイルをアップロード
  4. 以下のプロンプトをそのまま入力する
この音声ファイルを文字起こしして、以下の形式で出力してください。

- 話者が複数いる場合は「話者A:」「話者B:」などで識別する
- タイムスタンプを [MM:SS] 形式で各発言の前に付ける
- 聞き取りにくい箇所は「(不明瞭)」と記載する
- 文字起こし後、250字程度で会議の要旨をまとめる
  1. 送信すると、話者識別付きのトランスクリプトが生成される

Geminiが特に得意なこと:

  • 2人の conversation(1対1の商談・インタビュー)の話者を明確に区別します
  • 音声だけでなく、発言のニュアンスや感情を含む要約を出力します
  • YouTubeのURL をそのまま入力してもトランスクリプトが生成できます

注意点: Gemini APIのリアルタイム文字起こし(会議中のライブ処理)は、標準のAPI経由ではなく「Live API」を使う必要があります。録音後ファイルから処理する分には通常の手順で問題ありません。


方法AとBの比較まとめ

比較軸Groq WhisperGemini (AI Studio)
処理の速さ★★★★★(228倍速)★★★☆☆(数十秒〜数分)
話者識別△(プロンプト整形が別途必要)◎(1回のプロンプトで対応)
出力の読みやすさテキストの塊として出力整形・要約も同時に出力可能
無料枠1日8時間分Google AI Studio無料枠内
操作の手軽さ★★★★☆(ファイルをアップして提出)★★★★★(プロンプト1つでOK)
おすすめ用途多量の録音を一括処理1対1商談・インタビュー記録

STEP 3: 整形・要約——AIへの指示で議事録を仕上げる

Whisperで得たテキストは、そのままでは読みにくい「書き言葉の連続」です。ここではChatGPT / Claude / Geminiのいずれかを使って議事録の形に整形します。

使えるプロンプトテンプレート

以下のプロンプトをそのままコピーして、文字起こしテキストの前に貼り付けるだけです。

基本の議事録整形プロンプト:

以下の会議の文字起こしを、ビジネスで使える議事録の形式に整えてください。

【出力フォーマット】
# 会議概要
- 日時:[文字起こし内容から推測して記載]
- 参加者:[発言者から推測]
- 議題:[内容から要約]

# 決定事項
- (箇条書き)

# 議論の要点
- (議題ごとに整理)

# アクションアイテム
| 担当 | タスク | 期限 |
|------|--------|------|

# 次回の予定・未解決事項

---

【文字起こし】
(ここに文字起こしテキストを貼り付け)

インタビュー・1対1面談向けプロンプト:

以下はインタビューまたは1対1面談の文字起こしです。
インタビュイー(話者B)の発言に注目して、主要な回答・インサイト・印象的な言葉をまとめてください。
引用として使えそうな発言は「」で強調してください。

【文字起こし】
(ここに文字起こしテキストを貼り付け)

AIの選び方

どのAIを使っても大きな差はないですが、用途によって強みが異なります。

  • ChatGPT(GPT-5.4):表形式の出力やアクションアイテム整理が得意
  • Claude(Opus 4.6):長文の文字起こしでも文脈を維持しやすく、自然な日本語に整形しやすい
  • Gemini:前のステップでGeminiを使った場合、そのまま同じ会話で整形を続けられるのが便利

STEP 4: NotebookLMでナレッジベース化——蓄積した議事録を「使える資産」にする

ここが他の記事にはない、このワークフロー最大の「差別化ポイント」です。

多くの人は議事録を作成して「Googleドキュメントに保存→終わり」にしてしまいます。しかし蓄積した議事録が増えるほど、過去の決定事項や経緯を探し出すのが困難になります。

NotebookLMを使えば、議事録テキストをアップロードするだけで「聞ける・検索できる・横断分析できる」ナレッジベースになる。

具体的な活用手順

  1. notebooklm.google.com にアクセス(Googleアカウントで無料利用可)
  2. 「新しいノートブック」を作成(プロジェクト単位・案件単位がおすすめ)
  3. ソースを追加:整形済み議事録テキストを「テキストをコピー」して貼り付けるか、Googleドキュメントを直接選択
  4. 複数回分の議事録を同じノートブックに蓄積していく

NotebookLMで議事録に何ができるか

機能活用例
Q&A検索「先月の会議でデザイン方針についてどんな決定があった?」と質問 → 該当箇所を引用して回答
横断サマリー「この3ヶ月の会議全体での主要な決定事項を表形式でまとめて」
音声ポッドキャスト化複数の議事録を素材に「Audio Overview(音声解説)」を生成。移動中に聞いて復習できる
FAQ自動生成「よくある質問と回答をプロジェクトの経緯から生成して」
矛盾点の発見「過去の方針と最新の決定事項に矛盾はあるか?」と問い合わせ可能

料金

プラン価格ソース数上限Audio Overview
無料無料50ソース/ノートブック1日3回まで
NotebookLM Pro月2,900円300ソース/ノートブック回数制限大幅緩和

(参照:Google NotebookLM公式サイト、2026年3月時点)


用途別おすすめワークフロー

会議の種類によって最適な組み合わせが異なります。

パターン1: 1対1面談・商談(30〜60分)

録音(スマホのボイスメモ)
 ↓
Gemini(AI Studio)で話者識別付き文字起こし
 ↓
Claude/ChatGPT で「インタビュー形式の議事録」に整形
 ↓
NotebookLM に「◯◯顧客会議ノート」として蓄積

ポイント: 商談先ごとにNotebookLMのノートブックを1つ作ると、「前回この顧客に何を提案したか」が即座に検索できます。


パターン2: チーム定例会議(5〜10人、毎週)

Zoom録画(クラウド録画でMP4保存)
 ↓
Groq Whisper(GroqCloud Playground)で高速文字起こし
 ↓
ChatGPT で議事録テンプレートに整形
 ↓
Googleドキュメントに保存 → NotebookLM「週次定例ノートブック」に追加

ポイント: Groq Whisperは1時間の会議でも15秒程度で処理が終わります。毎週の定例会議の蓄積を NotebookLM で管理することで、「このプロジェクトでいつ何が決まったか」を新メンバーでもすぐに確認できます。


パターン3: 取材・インタビュー記事制作(ライター・広報担当向け)

ICレコーダー or スマホで録音(WAV形式で保存)
 ↓
Groq Whisper で全文文字起こし → タイムスタンプ付きで出力
 ↓
Gemini(AI Studio)で「引用できる印象的な発言を抽出して」
 ↓
Claude で記事の構成案を作成
 ↓
NotebookLM に「◯◯インタビューアーカイブ」として蓄積

既存の専用ツール(Notta / Fireflies)との使い分け

「専用ツールじゃダメなの?」という疑問に対して整理しておきます。

比較軸本記事のワークフローNotta(専用ツール)Fireflies.ai(専用ツール)
コストほぼ無料無料(月120分)/ Pro 月1,800円〜無料(800分/シート)/ Pro 月1,400円〜
セットアップ複数ツールを組み合わせるワンストップで完結ワンストップで完結
Zoom自動参加✕(録音後に手動処理)
日本語精度◎(Whisper + Gemini)
話者識別◯(Geminiで対応)
CRM連携◎(Salesforce / HubSpot)
ナレッジ蓄積◎(NotebookLM)△(基本は記録のみ)

(参照:ailablog.com 議事録ツール比較記事、2026年3月時点)

専用ツールが向いているケース:

  • 毎日複数の会議があり、Zoom/Teamsへの自動参加・自動処理が必要
  • 営業チームでSalesforceへの自動連携が必須
  • 技術的な設定なしにすぐ使いたい

本記事のワークフローが向いているケース:

  • コストを抑えたい(個人・スタートアップ・副業)
  • 月数回程度の会議録音をテキスト化したい
  • 議事録を「ナレッジベース」として長期的に活用したい
  • 録音形式・ツールを自分でコントロールしたい

よくある質問(FAQ)

Q. Groq WhisperはZoomの録画(MP4)をそのまま使えますか?

A. はい、使えます。GroqCloud Playgroundはf MP4形式に対応しているため、Zoomのローカル録画ファイルをそのままアップロードして文字起こしできます。ただし1ファイルの上限は25MBです。25MBを超える場合はffmpegなどで音声部分だけをMP3に変換するか、会議をいくつかに分割してアップロードしてください。

Q. 機密性の高い会議でも使って大丈夫ですか?

A. Groqは「Your Data」ページ(console.groq.com/docs/your-data)でデータの取り扱いポリシーを公開しており、APIに送信されたデータはモデルの学習には使用しないと明記しています。ただし、各社のプライバシーポリシーを事前に確認した上で、機密性の高い情報を含む音声データの取り扱いは自社のセキュリティポリシーと照らし合わせてご判断ください。

Q. 文字起こしの精度が低い場合、どうすれば改善できますか?

A. 精度が低い主な原因は「録音品質」と「日本語固有名詞・専門用語」です。録音品質については、マイクをできるだけ発言者に近づける、静かな環境で録音するという対応が効果的です。専門用語についてはGeminiに「この会議では〇〇や〇〇という用語が頻出します」と事前に伝えると精度が上がります。

Q. 会議参加者に録音の許可を取る必要はありますか?

A. 日本の法律では、会議の録音自体に明文化された禁止規定はありませんが、参加者のプライバシー尊重の観点から、録音する旨を事前に伝えることを強くおすすめします。「本日の会議はAIで文字起こしを行います」と一言伝えるのがビジネスマナーとして適切です。

Q. NotebookLMに音声ファイルをそのまま入れられますか?

A. はい、直接MP3などの音声ファイルをソースとして追加できます(参照:当サイト「Google NotebookLM完全攻略2026年版」)。ただし、文字起こしテキストとして整形してから入れた方が検索精度・Q&Aの回答品質が高くなるため、STEP 2・3を経たテキストをソースとして追加することをおすすめします。


今日から始めるための3ステップ

あれこれ考えるより、まず動いて試すのがAIツール活用の最大のコツです。

今日の会議でいきなり試せるミニマムな始め方:

  1. スマホのボイスメモで会議を録音する(30分〜1時間)
  2. console.groq.com にGoogleアカウントで無料登録 → Playgroundの「Audio」タブで録音ファイルをアップロード
  3. 出力されたテキストを ChatGPTまたはClaudeに貼り付け、「以下の文字起こしを議事録形式に整えて」と入力

これだけで、今日から議事録作成の手間を大幅に削減できます。NotebookLMへのナレッジ蓄積は、議事録が数本たまってから始めるのがちょうどよいでしょう。


まとめ

ステップツールコスト作業時間の目安
STEP 1: 録音スマホのボイスメモ / Zoom無料会議中のみ
STEP 2a: 文字起こし(速度重視)Groq Whisper(GroqCloud)無料(1日8時間まで)1時間録音→約20秒
STEP 2b: 文字起こし(話者識別重視)Gemini(AI Studio)無料(AI Studio枠)1時間録音→数分
STEP 3: 議事録整形ChatGPT / Claude / Gemini無料プラン範囲内1〜3分
STEP 4: ナレッジ化NotebookLM無料(50ソースまで)数分

合計コスト:月0円(使用量が無料枠を超えた場合はGroq Whipsperが$0.04/時間音声)

議事録作成に月10時間以上かけていたとすれば、このワークフローで9割以上の時間を節約できます。ぜひ試してみてください。


本記事に記載の料金・機能・無料枠は2026年3月28日時点の情報です。各サービスの最新情報は公式サイトをご確認ください。

この記事をシェア