Openai/69137a48-17f4-8006-8777-d87a321743fc

Revision as of 05:24, 13 November 2025 by Lukegao (talk | contribs) (导入ChatGPT Share对话 69137a48...)
(diff) ← Older revision | Latest revision (diff) | Newer revision → (diff)


This conversation was exported from ChatGPT[1]

gpt-5-thinking edit

User: Omnilingual ASR: Open-Source Multilingual Speech Recognition for 1600+ LanguagesNovember 10, 2025 edit

Omnilingual ASR: Open-Source Multilingual Speech Recognition for 1600+ LanguagesNovember 10, 2025 https://ai.meta.com/research/publications/omnilingual-asr-open-source-multilingual-speech-recognition-for-1600-languages/

Assistant: edit

Omnilingual ASR は、1600+言語に対応し、未学習の言語でも数例の音声-テキスト対でゼロショット転写できる、拡張性重視の大規模多言語ASRの公開プロジェクトです。300M〜7Bのファミリーで提供(軽量端末〜高精度まで)。学習データは公開コーパスに加え、コミュニティ主導の収録と委託収集(Omnilingual ASR Corpus)を含み、初対応が500+言語。Whisper/USM/MMSなど既存SOTAと比べ、低資源条件で大幅改善を報告。コード・モデル・データはオープンソースとして公開。579905087_1167348861447760_7696… edit

- 拡張性の設計 既存ASRが固定言語集合に縛られがちな課題に対し、数ショットの「文脈例(in-context)」をプロンプトに与えるだけで、新規言語にゼロショット適応(追加学習不要)。579905087_1167348861447760_7696… edit

  • モデル構成 - SSLエンコーダ:wav2vec 2.0 を最大7Bまでスケール(0.3B/1B/3B/7B)。4.3M時間・1600+言語の無ラベル音声で事前学習。 - ASRの2系統:①CTC(ベーシック用途)、②LLM-ASR(エンコーダ+12層/約1.2BのTransformerデコーダ)で高精度。 - 言語コード条件付け(言語+スクリプトID)で誤同定や多脚本言語の曖昧性を低減。579905087_1167348861447760_7696…
  • ゼロショットASR 同一言語のN個の音声-テキスト例をプロンプトに前置し、未学習言語にも一般化。SONARによる埋め込みkNNで、文脈例の自動選択を行うと精度が向上。579905087_1167348861447760_7696…
  • データ規模と作り方 - 有ラベル(AllASR):公開・パートナー・委託の統合。代表統計の一例として、表では合計約120,710時間/1,690言語(学習分)を提示。 - 委託コーパス:Omnilingual ASR Corpus(約3,350時間/348言語)。10人×各1時間を目標に、自然発話を多様トピックで収録、タグ付き転記と厳密QA。 - 無ラベル:約3.84M時間/1,239言語+言語未特定46万時間でSSL学習。 いずれも長尾言語カバレッジを最優先。579905087_1167348861447760_7696…
  • 評価と比較 Whisper v3、Google USM、Meta MMS との比較で、低資源バケットや未学習言語で優位。雑音耐性やドメイン外一般化も大規模混合学習で向上。S2TT(音声→テキスト翻訳)も、簡易なLIDトークン追加のみで強力な結果を報告。579905087_1167348861447760_7696…
  • 倫理と社会的配慮 地域コミュニティとの協働・報酬・主権性を重視し、オープンソース化でローカル適応の障壁を下げる設計思想。長尾言語の不在は中立ではなく格差拡大という立場から、実装と運用指針を詳細化。579905087_1167348861447760_7696…

- コード:https://github.com/facebookresearch/omnilingual-asr edit

Omnilingual ASR team(FAIR at Meta)ほか。Core contributors:Gil Keren, Artyom Kozhevnikov, Yen Meng, Christophe Ropers, Matthew Setzler, Skyler Wang(McGill 社会学††)、Ife Adebara(Alberta 大††)、… / Technical leadership:Yu-An Chung, Jean Maillard, Rashel Moritz, Alexandre Mourachko, Mary Williamson, Shireen Yates ほか。 edit

連絡先:Yu-An Chung([email protected])、Jean Maillard([email protected]) 所属表記:FAIR at Meta、††は一部共著者の大学所属(McGill、Alberta、Brown)。579905087_1167348861447760_7696…

※本文・図表・統計・比較・公開物の記述は、上記公開版(Date: Nov 10, 2025)に基づく要約です。579905087_1167348861447760_7696…

User: 詳細に解説してください。 edit

詳細に解説してください。

Assistant: Omnilingual ASR(Meta, 2025-11-10)徹底解説 edit

Omnilingual ASR(Meta, 2025-11-10)徹底解説 edit

何を目指した研究か edit

Omnilingual ASR は、1,600+言語に対応するオープンソースの自動音声認識(ASR)スイートです。従来の「主要言語中心」のASRから一歩進めて、これまでASRが事実上未対応だった多数の言語まで射程に入れたのが最大のポイント。さらに「少数のペアデータ(音声‐文字起こし)だけで新言語を追加」できる設計を打ち出し、広範なコミュニティ参加で言語カバレッジを伸ばせるようにしています。GitHub[2]

実運用の目安として、7B LLM-ASR が1,600+言語のうち78%で CER<10%を達成する、とリポジトリは述べています。
GitHub

モデル群の全体像(3ファミリー) edit

Omnilingual ASR は用途・リソースに合わせて選べる3系統のモデルを公開しています。各系統はサイズ違い(300M / 1B / 3B / 7B)も用意。GitHub[3]

  1. SSLエンコーダ(Wav2Vec 2.0 系) - 役割:多言語の自己教師あり事前学習で、頑健な音声表現を抽出。 - 例:omniASR_W2V_7B(約6.49Bパラメータ, FP32 25 GiB)。GitHub[4]
  2. CTCベースASR - 役割:軽量・高速寄りのデコーダ。 - 例:omniASR_CTC_7B(FP32 25 GiB、推論目安VRAM~15 GiB、RTF≈0.006=約16×リアルタイム)。GitHub[5]
  3. LLMベースASR(Wav2Vec2 + LLM) - 役割:言語条件付けやコンテキスト例(in-context)を与えて柔軟に書記体系・表記規約に適応。 - 例:omniASR_LLM_7B(約7.80B)、およびゼロショット特化の omniASR_LLM_7B_ZS(約7.81B)。推論目安VRAMは~17–20 GiB、RTFは約1×(ZSは~0.5×)。GitHub[6]
いずれの系列もApache-2.0でコード/モデル配布。研究・商用で扱いやすいライセンス形態です。
GitHub

入出力と言語指定の扱い edit

  • 音声長の制約:現状の参照実装は40秒未満の音声のみ対応(今後拡張予定と明記)。GitHub[7]
  • 言語指定:{lang}_{script} 形式(例:英語ラテン字 eng_Latn、中国語(簡体)cmn_Hans)。推論時にこの言語タグで条件付けできます。GitHub[8]

性能ハイライトと立ち位置 edit

  • 1,600+言語の78%で CER<10%(7B LLM-ASR)。ロングテール言語を多数含みます。GitHub[9]
  • 公式ブログ/外部報道では、少数例の in-context 学習で未学習言語へ一般化できる点が強調されています(メディアによっては「5,400+言語に一般化可能」との報道もあり。これは報道ベースの数値)。AI Meta[10]
参考までに、Metaの先行公開物である MMS(Massively Multilingual Speech)は1000+言語級でした。Omnilingual はそれをさらに拡張した位置づけです。
Hugging Face

「新言語を少例で追加する」設計 edit

GitHub リード文は、「専門知識や大規模データなしに、少数ペアで新言語を足せる」ことを明確に謳っています。これは LLM-ASR 系の言語条件付け+コンテキスト例の設計に根ざしています。GitHub[11]

  • 具体的には、推論パイプラインで言語タグを与えたり、(LLM-ASR では)数例の既知変換をテキストのコンテキストとして渡すことで、表記ゆれ・正書法・固有名詞などにモデルを寄せる運用が可能、という思想です(詳細は推論ガイド/コードにて)。GitHub[12]

データセット:Omnilingual ASR Corpus edit

  • 対象:348 のアンダーサーブド言語の自発話とその転写で構成。Hugging Face で公開。CC-BY-4.0。Hugging Face[13]
  • データカードは、言語コード(ISO 639-3)+書記体系(ISO 15924)+ Glottolog を揃えたスキーマを採用。笑い・言い直し・雑音などのタグ体系も明示し、自然会話の不流暢性を忠実に含む設計です。Hugging Face[14]
  • 実サイズの指標として、公開ページは約492 GBを示しています(全体像の目安)。Hugging Face[15]
モデル実演の Hugging Face Space(デモ) も用意されています。
GIGAZINE

使い分けガイド(実務目線) edit

  • できるだけ軽く速く回したい:CTC 系(300M/1B)。RTF が速く、VRAM 消費も比較的少ない。GitHub[16]
  • 表記規約・専門語彙に寄せたい/新言語を小規模追加したい:LLM-ASR 系(3B/7B)。言語条件付け + コンテキスト例で柔軟に追従。GitHub[17]
  • 未学習言語のゼロショットに挑む:omniASR_LLM_7B_ZS。ただし VRAM と速度は重め。GitHub[18]

推論の最小例(概念) edit

公式 README の最小例は以下のように Pipeline を呼び出します(Python)。詳細はリポジトリ参照。GitHub[19]

from omnilingual_asr.models.inference.pipeline import ASRInferencePipeline

pipeline = ASRInferencePipeline(model_card="omniASR_LLM_7B")
audio_files = ["/path/to/eng.flac", "/path/to/jpn.wav"]
lang = ["eng_Latn", "jpn_Jpan"]  # 言語タグで条件付け
texts = pipeline.transcribe(audio_files, lang=lang, batch_size=2)
注意:現状の参照実装は40秒未満の音声が前提です。長尺は分割などの前処理が必要になります。
GitHub

ライセンスと配布 edit

  • コード/モデル:Apache-2.0。GitHub[20]
  • コーパス:CC-BY-4.0。Hugging Face[21]

限界・留意点 edit

  • 言語間ばらつき:総計では 78% が CER<10% ですが、低資源言語ほど誤り率が上がりやすい傾向は報道でも指摘されています(数値の内訳はメディア依存)。導入前の自言語検証は実務的に必須です。チョソンビズ[22]
  • 計算資源:LLM-ASR 7B 系は VRAM ~17–20 GiB 程度が目安。軽量化が必要なら CTC 系を選択。GitHub[23]
  • 長音声:参照実装は 40s 制約。長尺会議録音などは分割・バッチ化のワークフロー設計が要ります。GitHub[24]

研究的意義のまとめ edit

  1. 極端に多言語なカバレッジ(1,600+)をオープンに提供し、言語資源の長い尻尾を初めて本気で掬い上げた。GitHub[25]
  2. 少例追加とコンテキスト適応を前提とする LLM-ASR 設計で、「ASRを作る」コスト構造を作り替えた。GitHub[26]
  3. データ側では348言語の自発話コーパスを CC-BY-4.0 で公開し、正書法・記号付与の実務仕様まで整備。後続研究・現場実装の再現性を高めている。Hugging Face[27]

主要リソース: GitHub(モデル・コード・使用法・数値)GitHub[28]/ コーパス(Hugging Face, CC-BY-4.0)Hugging Face[29]/ Meta 公式ブログ(概要・位置づけ)AI Meta[30]/ 報道・解説(GIGAZINE、VentureBeat など)GIGAZINE[31]

References edit

  1. "Omnilingual ASR: Open-Source Multilingual Speech Recognition for 1600+ Languages". ChatGPT. Retrieved 2025-11-13.
  2. "GitHub". github.com. Retrieved 2025-11-13.
  3. "GitHub". github.com. Retrieved 2025-11-13.
  4. "GitHub". github.com. Retrieved 2025-11-13.
  5. "GitHub". github.com. Retrieved 2025-11-13.
  6. "GitHub". github.com. Retrieved 2025-11-13.
  7. "GitHub". github.com. Retrieved 2025-11-13.
  8. "GitHub". github.com. Retrieved 2025-11-13.
  9. "GitHub". github.com. Retrieved 2025-11-13.
  10. "AI Meta". AI Meta. Retrieved 2025-11-13.
  11. "GitHub". github.com. Retrieved 2025-11-13.
  12. "GitHub". github.com. Retrieved 2025-11-13.
  13. "Hugging Face". Hugging Face. Retrieved 2025-11-13.
  14. "Hugging Face". Hugging Face. Retrieved 2025-11-13.
  15. "Hugging Face". Hugging Face. Retrieved 2025-11-13.
  16. "GitHub". github.com. Retrieved 2025-11-13.
  17. "GitHub". github.com. Retrieved 2025-11-13.
  18. "GitHub". github.com. Retrieved 2025-11-13.
  19. "GitHub". github.com. Retrieved 2025-11-13.
  20. "GitHub". github.com. Retrieved 2025-11-13.
  21. "Hugging Face". Hugging Face. Retrieved 2025-11-13.
  22. "チョソンビズ". biz.chosun.com. 2025-11-11. Retrieved 2025-11-13.
  23. "GitHub". github.com. Retrieved 2025-11-13.
  24. "GitHub". github.com. Retrieved 2025-11-13.
  25. "GitHub". github.com. Retrieved 2025-11-13.
  26. "GitHub". github.com. Retrieved 2025-11-13.
  27. "Hugging Face". Hugging Face. Retrieved 2025-11-13.
  28. "GitHub". github.com. Retrieved 2025-11-13.
  29. "Hugging Face". Hugging Face. Retrieved 2025-11-13.
  30. "AI Meta". AI Meta. Retrieved 2025-11-13.
  31. "GIGAZINE". gigazine.net. Retrieved 2025-11-13.