OpenAIの新モデル「o1シリーズ」が仕事でどう活用できる?

小田

2024年9月13日(金)朝2時に、OpenAI社のXで新しいモデルを公開しました。

細かい話は下記に述べますが、「実際の仕事の現場で使うには、今回の新しいモデルでどう良くなるのか?」しか、正直僕は興味がないため、その点を動画で解説しました。

下記は、細かい公式サイトに掲載されていた情報をまとめておきましたので、興味のある方はご覧ください。

はじめに

OpenAIは、新しい推論モデルシリーズ「OpenAI o1」を発表しました。

このシリーズは、複雑な課題に対してより多くの時間を費やして考え、回答する能力を持つAIモデルです。特に科学、コーディング、数学の分野で従来のモデルよりも高度な問題解決能力を発揮します。

o1シリーズの最初のモデルである「o1-preview」は、ChatGPTとAPIで利用可能になりました。

このモデルは、問題に対してより深く考え、異なる戦略を試し、自身の誤りを認識する能力を学習しています。

テストでは、物理学、化学、生物学の難しいベンチマークタスクで博士課程の学生と同等の性能を示しました。

特に数学とコーディングで優れた能力を発揮し、国際数学オリンピック(IMO)の予選問題の83%を正解し、Codeforcesのコンテストでは89パーセンタイルに達しました。

安全性について

安全性に関しては、新しい訓練アプローチを採用し、モデルの推論能力を活用してより効果的に安全性とアライメントのガイドラインを遵守するよう設計されています。

「ジェイルブレイク」と呼ばれる安全規則回避の試みに対する耐性も大幅に向上しました。

OpenAIは、米国および英国のAI安全研究所との協力協定を結び、これらの機関に研究版モデルの早期アクセスを提供しています。

これは、将来のモデルの公開前後における研究、評価、テストのプロセスを確立するための重要な第一歩となっています。

o1シリーズは、特に科学、コーディング、数学などの複雑な問題に取り組む研究者や開発者にとって有用です。例えば、医療研究者による細胞配列データの注釈付け、物理学者による量子光学に必要な複雑な数式の生成、あらゆる分野の開発者によるマルチステップワークフローの構築と実行などに活用できます。

OpenAIは「o1-mini」も発表

さらに、OpenAIは「o1-mini」も発表しました。

これは、o1シリーズの小型版で、特にコーディングに効果的な高速で安価な推論モデルです。

o1-previewよりも80%安価で、幅広い世界知識は必要としないが推論能力が必要なアプリケーションに適しています。

ChatGPT PlusおよびTeamユーザーは、o1モデルに即日アクセスできます。

API開発者も、一定の条件を満たせば両モデルでプロトタイピングを開始できます。

ChatGPT EnterpriseおよびEduユーザーは翌週からアクセス可能になります。

さらに、将来的にはChatGPT無料ユーザーにもo1-miniへのアクセスを提供する予定です。

OpenAIは、これらの推論モデルを継続的に改善し、ウェブブラウジング、ファイルや画像のアップロード、その他の機能を追加して、より多くのユーザーにとって有用なものにしていく計画です。

同時に、既存のGPTシリーズのモデル開発も継続する予定です。

この新しいo1シリーズは、AIの推論能力と問題解決能力を大幅に向上させ、複雑な科学的、技術的課題に取り組む研究者や開発者にとって強力なツールとなることが期待されています。

OpenAIの新モデルシリーズ「OpenAI o1」の具体的な性能と特徴

小田

下記の情報の引用先はOpenAI社のサイトになります。

①数学能力
2024年のアメリカ数学招待試験(AIME)で、GPT-4oが平均12%(1.8/15問)の正解率だったのに対し、o1は単一サンプルで74%(11.1/15問)、64サンプルのコンセンサスで83%(12.5/15問)を達成しました。

②コーディングスキル
Codeforcesのシミュレーションコンテストで、o1はEloレーティング1807を獲得し、人間の競技者の93%を上回る性能を示しました。これはGPT-4o(Eloレーティング808、11パーセンタイル)を大きく上回ります。

➂科学的問題解決
GPQA diamond(化学、物理学、生物学の専門知識を問う難しいベンチマーク)において、o1は人間の専門家を上回る性能を示しました。

④安全性評価
有害なプロンプトに対する安全な応答率が、標準的なケースでGPT-4oの99.0%から99.5%に向上。特に困難なケース(ジェイルブレイクや境界事例)では、71.4%から93.4%に大幅に改善しました。

⑤マルチモーダル能力
視覚認識能力を有効にした場合、o1はMMUベンチマークで78.2%のスコアを達成し、人間の専門家と競争力のある初めてのモデルとなりました。

⑥モデルバリエーション
o1-miniは、o1-previewよりも80%安価で、推論能力が必要だが幅広い世界知識は必要としないアプリケーションに適しています。

⑦人間の評価:オープンエンドな課題において、o1-previewはデータ分析、コーディング、数学などの分野でGPT-4oよりも大幅に好まれましたが、一部の自然言語タスクでは好まれませんでした。

⑧国際情報オリンピアード(IOI):2024年のIOIにおいて、o1をベースに調整したモデルが49パーセンタイルにランクインしました。提出回数の制限を緩和すると、ゴールドメダルのしきい値を超える362.14点を達成しました。

これらの結果は、o1が特に推論を要する分野で大きな進歩を遂げたことを示しています

OpenAIは、この新しい推論能力が科学、コーディング、数学、および関連分野におけるAIの多くの新しい用途を開拓すると期待しています。

同時に、安全性と倫理的な使用に重点を置き、モデルの継続的な改善と新機能の追加を計画しているようです。

小田

小難しいことを書きましたが、かんたんに言えば、「賢くなった」ということで笑

ただ、自分の場合は「ビジネスにどう生かすか?」一択でしか考えていないため、また色々と分かり次第、新しい情報は出す予定です。

AI研修を人材開発支援助成金(リスキリング助成金)を利用しませんか?

期間が決まっている助成金ですが、非常にお得な情報になります。

この存在を知らない人は非常にもったいないため、まだ知らない人はこちらをご覧ください。

特に「中小企業の経営者」さんには必見の助成金ですよ!

まとめ

本記事を書いたのが9月13日(金)の夜ですので、まだまだ分からないことがありますが、色んな情報が分かり次第、追加していく予定です。

これからも生成AI情報×ビジネスを知りたい人は、このサイトは「お気に入り」か「ブクマ」しておいてくださいね^^

  • URLをコピーしました!