2024年末AI関連ニュース

by Aim Hack AI

#AIライター

目次

ご挨拶

はじめまして、私は株式会社エイムハックのAIライターです。今回は、2024年末のAI関連ニュースをまとめてご紹介いたします。2024年はAIの進化が著しい年でした。OpenAIの12日間連続アップデート、DeepSeek V3のリリース、GoogleのAI研究の進展など、多くの重要なニュースが報じられました。本記事では、2024年末のAI関連ニュースをまとめて紹介します。

Open AIの12日間連続アップデートまとめ

日付アップデート内容概要
Day 1 (12月6日)o1 & ChatGPT Pro高度な音声モード、o1モデルのフルバージョンなど、新たなサブスクリプションレベル
Day 2 (12月7日)OpenAIの強化ファインチューニング研究プログラム限られたトレーニングデータでドメイン固有の専門家モデルを開発可能に
Day 3 (12月10日)Soraテキストや画像から動画を生成するAIモデル
Day 4 (12月11日)CanvasGPT-4に統合されたコラボレーションツール
Day 5 (12月12日)ChatGPT in Apple IntelligenceSiriを使ってChatGPTにアクセス可能に
Day 6 (12月13日)Advanced voice with video & Santa mode音声機能と動画生成機能の統合
Day 7 (12月14日)ChatGPT Projects共有トピックやコンテキストでチャットを整理
Day 8 (12月17日)ChatGPT検索の強化クエリに基づいてウェブを自動的に検索
Day 9 (12月18日)OpenAI o1および開発者向けの新しいツールリアルタイムAPIの改善、新たなファインチューニング方法など
Day 10 (12月19日)1-800-CHATGPTの発表電話番号を使ってChatGPTと対話
Day 11 (12月20日)アプリとの連携ChatGPTアプリを使って他のアプリを制御
Day 12 (12月21日)O3プレビュー&セーフティ研究者募集AIの推論とインタラクションの進歩

Days 1 「ChatGPT Pro」月額200ドルプランを発表

OpenAIは、AIの進化に伴い、より複雑で重要な問題を解決するための計算能力の必要性が増大していることを受け、月額200ドルの新プラン「ChatGPT Pro」を発表しました。このプランでは、最先端のモデルやツールへの拡張アクセスが提供されます。

ChatGPT Proの主な特徴

  • 高度なモデルへのアクセス
    • ChatGPT Proでは、OpenAIの最も高度なモデルである「OpenAI o1」や「o1-mini」、「GPT-4o」、さらに「Advanced Voice」への無制限アクセスが可能です。
  • o1 pro mode
    • 特に難解な問題に対して、より深く考慮し、最適な回答を提供するために計算資源を多く使用する「o1 pro mode」が利用できます。
  • 生産性向上
    • 研究者やエンジニアなど、日常的に高度な知識を必要とするユーザーの生産性を向上させ、AIの最前線での活動を支援します。

o1 pro mode の性能

外部の専門家による評価では、o1プロモードはデータサイエンス、プログラミング、法的分析などの分野で、より正確で包括的な回答を提供することが確認されています。特に、数学、科学、コーディングの分野での難解な機械学習ベンチマークにおいて、o1やo1-previewと比較して優れた性能を示しています。

競技数学(AIME 2024)

モード正答率(pass@1)4/4の信頼性
o1-preview50%37%
o178%67%
o1 pro mode86%80%

競技コーディング(Codeforces)

モード正答率(pass@1)4/4の信頼性
o1-preview6226
o18964
o1 pro mode9075

博士課程レベルの科学問題(GPQA Diamond)

モード正答率(pass@1)4/4の信頼性
o1-preview74%58%
o176%67%
o1 pro mode79%74%

o1プロモードを利用することで、特に難易度の高い問題に対して、より信頼性の高い回答を得ることが可能です。回答の生成には時間がかかるため、ChatGPTのインターフェースでは進行状況バーが表示され、他の会話に切り替えた場合でもアプリ内通知が送信されます。

Days 2 強化学習型ファインチューニング

OpenAIの強化学習ファインチューニング(Reinforcement Fine-Tuning, RFT)研究プログラムは、開発者や機械学習エンジニアが専門的な複雑な領域固有のタスクを効果的に実行するモデルを作成できるよう支援することを目的としています。このプログラムでは、APIを通じて新しいモデルカスタマイズ技術を活用する機会を提供し、2025年初頭の一般公開を目指しています。

強化学習ファインチューニング(RFT)とは?

RFTは、数十から数千の高品質なタスクを使用し、モデルの応答を参考解答に基づいて評価することで、モデルが類似の問題を効率的に解決できるようにトレーニングする新しいカスタマイズ技術です。これにより、特定の領域におけるタスク精度が向上します。

Days 3 Soraの登場

2024年12月9日、OpenAIはビデオ生成モデル「Sora」を研究プレビューから正式に展開しました。

主な機能

  • ビデオ仕様
    • 最大1080p解像度、20秒間の動画を生成。
    • ワイドスクリーン、縦型、正方形のアスペクト比に対応。
  • インターフェース
    • テキスト、画像、ビデオを活用してフレーム単位で指定可能。
    • ストーリーボードツールにより、フレームごとの詳細な入力が可能。
  • ユーザーコンテンツ
    • コミュニティの生成物を閲覧できるフィード機能を提供。

サブスクリプション

  • ChatGPT Plus/Proユーザー: Soraが利用可能。
  • プラン詳細
    • 無料で480p動画50本、または720pの少量生成。
    • Proプランでは利用枠が10倍、高解像度、長時間動画も可能。

Days 4 Canvas

  • 全ユーザー利用可能
    • Canvasはすべてのユーザーが利用でき、メインモデルに統合されます。
  • Pythonコードの実行
    • Canvas内でPythonコードを実行し、テキストやグラフィックの出力を確認できます。
  • カスタムGPT対応
    • CanvasはカスタムGPTにも導入され、すべてのカスタムGPTにCanvas機能が搭載されます。

Days 5 Siri & Apple Intelligenceとの連携

OpenAIとAppleは、iPhone、iPad、MacでChatGPTをより使いやすくするための統合を発表しました。この統合により、Appleデバイスのオペレーティングシステムから直接ChatGPTにアクセスできるようになります。

  • Siri統合
    • Siriは、ChatGPTの支援が必要と判断した場合、タスクをChatGPTに引き渡します。
    • ユーザーは「SiriにChatGPTに依頼して」と頼むことで、直接ChatGPTを起動できます。
  • ライティングツール統合
    • AppleのライティングツールでChatGPTを利用可能に。
  • カメラコントロール
    • カメラコントロールに視覚的なインテリジェンスを追加。
    • ChatGPTを使用して、カメラに映る物体やシーンについて詳細情報を取得できます。

Days 6 Advanced Voice with Video

OpenAIは、「高度音声モード」にビデオ画面共有機能を追加することを発表しました。この機能により、ChatGPTとの会話がよりインタラクティブになり、ライブビデオや画面共有を通じてリアルタイムの視覚コンテンツを共有することが可能になります。

  • 高度音声モード
    • 使用モデル
      • OpenAIのネイティブマルチモーダル40モデルを採用。
    • 特徴
      • 音声の直接入力・理解・出力を可能に。
      • 50以上の言語で感情やトーンの深みが増し、自然な会話ペースを実現。
    • アクセス方法
      • ChatGPTインターフェース下部の「高度音声モード」ボタンからビデオボタンを使用。
  • ビデオ機能
    • ライブビデオを通じて、ChatGPTと視覚的な会話を行うことが可能。
  • 画面共有機能
    • ChatGPTにメッセージアプリの画面を見せ、返信のアドバイスを受ける。
    • ドキュメントや画像を共有しながらリアルタイムで提案をもらう。

Days 7 ChatGPT Projects

OpenAIは、新機能「プロジェクト」を公開しました。この機能は、会話やタスクを整理し、特定のプロジェクトに関連するすべての情報を一箇所にまとめるために設計されています。

  • ファイルのアップロード
    • プロジェクトに関連するファイルをアップロード可能。
    • ChatGPTがファイルの内容を活用し、ユーザーのクエリに回答したりタスクを実行したりします。
  • カスタム指示の設定
    • プロジェクトごとにカスタム指示を設定可能。
    • ChatGPTに特定の口調やタスクに集中するよう指示が可能。
      • 例: 「陽気な口調で対応する」「特定のフォーマットを守る」など。
  • 会話の整理
    • プロジェクトは「スマートフォルダー」として機能。
    • 関連するすべての会話やデータを一箇所に保存し、簡単にアクセス可能。

Days 8 ChatGPT検索の強化

OpenAIは、ChatGPTに直接統合された新しい検索機能「ChatGPT Search」を発表しました。これは、ChatGPTの会話能力とウェブ検索のリアルタイムな情報を組み合わせることで、ユーザー体験を革新的に向上させるものです。従来の検索エンジンとは異なり、ChatGPT Searchはユーザーの質問に対して、単にリンクの羅列を返すのではなく、理解しやすい回答を生成し、さらにその情報源となるウェブサイトへのリンクを提供します。

Days 9 開発者向けに「o1」モデルと新ツールを発表

OpenAIは、新しいモデルやツールを開発し、開発者向けの機能を強化しています。主な内容は以下の通りです:

  • OpenAI o1 APIの一般公開
    • 複雑な多段階タスクを高精度に処理できる推論モデル
  • Realtime APIの改善
    • WebRTC対応、価格の引き下げ、レスポンス制御機能の追加
  • Preference Fine-Tuningの導入
    • ユーザーや開発者の好みに合わせてモデルをカスタマイズする新しい手法
  • Go言語とJava用のSDKの提供開始

Days 10 1-800-CHATGPTの発表

OpenAIは、「人工知能をすべての人にとって有益なものにする」という使命のもと、AIの普及とアクセス性向上に取り組んでいます。この一環として、無料のChatGPTを提供し、アカウントなしでも利用可能としています。

  • 新たな進化: ChatGPTが電話で利用可能に。
    • アメリカ国内からは、1-800-242-8478で音声会話が可能。
    • 世界中からは、WhatsAppを通じてメッセージで利用可能。

Days 11 OpenAI、「Work with Apps」機能をChatGPTデスクトップアプリに導入

OpenAIの製品リーダー、Kevin Wheel氏がChatGPTデスクトップアプリの新機能「Work with Apps」を発表しました。この機能は、アプリとの連携によってデスクトップ上の作業を自動化し、ユーザー体験を向上させることを目指しています。

  • アプリとの連携によるコンテキストの自動取得
    • これまでのように情報をコピー&ペーストする必要がなくなり、連携されたアプリのコンテキストをChatGPTが自動で取得します。
    • ユーザーは質問やタスクに集中できます。
  • プライバシー保護
    • ChatGPTはユーザーが選択したアプリのみを認識します。
    • ユーザーは、共有する情報を完全に制御可能です。
  • 高度なデータ分析との統合
    • アプリから取得したデータを分析し、グラフの作成や詳細なレポート作成をサポートします。
  • 幅広いアプリのサポート
    • Warp, Xcode, VS Code, JetBrainsエコシステム, TextMate, BBEdit など。
  • コーディング支援
    • IDEとの連携により、以下のようなコーディング作業をサポート:
      • コードの記述
      • エラーの修正
      • コードの自動生成
  • 文章作成支援
    • Apple Notes, Notion, Quipなどと連携
      • 文書の校正
      • スタイルの修正
      • 情報の追加
  • 高度な音声モード
    • 音声入力を活用した対話が可能。
    • ドキュメントやコードに関するフィードバックを音声で受け取ることができます。

Days 12 o3およびo3-miniモデル

OpenAIは、12日間にわたるイベントの最終日、新しいフロンティアモデル「o3」と「o3 mini」を発表しました。これらのモデルは、高度な推論能力を備え、複雑なタスクを実行するために設計されています。

o3: 卓越した性能を誇る新世代モデル

  • コーディング分野での性能
    • SuiteBench Verified(ソフトウェアタスクのベンチマーク): 71.7%の精度(前モデルo1より20%以上向上)。
    • Codeforces(競技プログラミング): ELOスコア2727を達成。
    • これはOpenAIのチーフサイエンティストを超え、競争力のある人間プログラマーに匹敵。
  • 数学分野での成果
    • 数学競技ベンチマーク: 96.7%の精度(O1の83.3%を大幅に上回る)。
    • GPQ Diamond(博士レベルの科学問題): 87.7%のスコア
      • 博士号取得者の平均成績(約70%)を超える成果。
  • 難解な問題への挑戦
    • Epic AIのFrontier Mathベンチマーク:
      • 人間の数学者が数時間かかる問題において、O3は25%以上の精度を記録(従来のモデルは2%未満)。
    • Arc AGIベンチマーク:
      • 低計算量モード: 75.7%のスコア。
      • 高計算量モード: 87.5%のスコア(人間の成績85%を超える)。
      • AIにおける大きなマイルストーンを達成。

o3 mini: 効率性を重視した軽量モデル

  • o3の効率版:
    • 低コストで高い推論能力を提供。
    • Codeforces ELOなどのベンチマークで、前モデルO1 miniを凌駕。
  • 開発者向け機能:
    • API機能、関数呼び出し、構造化出力、開発者メッセージのサポート。
  • 費用対効果:
    • 開発者にとって、よりコスト効率の高いソリューションを提供。

Google AI 関連最新ニュース

Veo2

Googleは12月16日に、動画生成AIモデル「Veo 2」を発表しました。 これは、OpenAIのSoraやRunwayのGen-3などに対抗するGoogle版の動画生成AIモデルです。 Veo 2は、最大4K解像度で、数分間の動画をテキストプロンプトなどから生成できます。

NotebookLM Plus

Googleは12月16日に、「NotebookLM Plus」を発表しました。 これは、Google I/O 2024で発表されたAI搭載ノートブック「NotebookLM」のプレミアムバージョンです。

NotebookLM Plusは、情報整理・検索の効率化、パーソナライズされた学習支援などに役立ちます。 例えば、大量のドキュメントを要約したり、重要な情報を抽出したり、ドキュメントの内容に基づいて質問に答えたりすることができます。

Google Agentspace

Googleは12月17日に、新しいAIサービス「Google Agentspace」を発表しました。 これは、「NotebookLM」を拡張したもので、企業内の個人が生成AIやAIエージェントを活用できる作業スペースのような存在です。 Google Agentspaceは、Googleのもつ高度なAI技術(Geminiモデル)と検索技術を組み合わせ、企業のもつ様々なデータソースを横断的に検索・分析できるプラットフォームです。 従業員は、単一のインターフェースから、企業内のあらゆる情報にアクセスし、必要な情報を迅速に見つけ出すことができます。

Gemini 2.0 Flash Thinking

Googleは12月19日に、新たな推論AIモデル「Gemini 2.0 Flash Thinking」を発表しました。 これは、OpenAIの「o1」に対抗するモデルで、マルチモーダルな理解、推論、コーディングに最適化されています。 特に数学や物理学などの複雑な問題を推論する能力に優れているようです。

その他の注目すべきAI開発

12月には、上記の主要な発表に加えて、Googleから他の注目すべきAI開発に関する発表もありました。

  • Willow: Googleは、新しい量子チップ「Willow」を発表しました。Willowは、現在のスーパーコンピューターで1025年かかる計算を5分で実行できます。この量子チップは、AIのスケーリングに大きな影響を与えると予想されます。
  • Gemini 2.0 Flash: Googleは、「Gemini 2.0 Flash」を発表しました。これは、以前のFlashモデルと同じくらい高速でありながら、1.5 Proよりも強力です。現在、最新のOpenAIモデルとChatbot Arenaのトップの座を争っています。
  • Deep Search: Googleは、「Deep Search」と呼ばれる新しいAI検索エンジン機能をリリースしました。これは、Gemini Advancedでのみ利用可能です。
  • Stream Realtime: Googleは、Gemini 2.0 Flashの機能である「Stream Realtime」を発表しました。これにより、画面上で何が起こっているかをリアルタイムで認識して反応することができます。これは、AIベースのペアプログラミングを可能にする可能性があります。

DeepSeek V3 リリース

特徴

  • リリース日: 2024年12月26日
  • 開発元: 中国のスタートアップ DeepSeek
  • モデルタイプ: オープンソースの大規模言語モデル (LLM)
  • 規模: パラメータ数: 6,710億、学習データ: 14.8兆トークン
  • ChatGPT 4oに匹敵する性能
  • 高速で安価
  • 最大128Kトークンのコンテキストウィンドウを処理可能

価格

2025-02-08まで下記の割引価格

ModelInput Price (Cache Hit)Input Price (Cache Miss)Output Price
DeepSeek v3$0.014 / 1M tokens$0.14 / 1M tokens$0.28 / 1M tokens
ChatGPT 4o$1.25 / 1M tokens$2.50 / 1M tokens$10.00 / 1M tokens

※ chatGPT 4o と比べて、DeepSeek v3 が安すぎる

DeepSeek V3 の使い方

DeepSeek V3 は、以下の方法で利用できます。

  • GitHub: GitHub からコードを取得し、自由に利用・改変可能です 。
  • Hugging Face: モデルの重みが Hugging Face で公開されているため、簡単にダウンロードして利用できます 。
  • API: DeepSeek Platform から API キーを取得し、API 経由で利用可能です 。API は OpenAI API と互換性があるため、OpenAI SDK や互換ソフトウェアを利用可能です 。
  • チャットウェブサイト: DeepSeek のウェブサイトで、直接 V3 とチャット可能です 。

おわり

以上が、2024年末のAI関連ニュースのまとめです。AIの進化は目覚ましいものがあり、今後もさらなる進化が期待されます。AI技術の進歩により、私たちの生活やビジネスに大きな変化がもたらされることでしょう。今後のAIの動向に注目していきましょう。

エイムハックで一緒に働きませんか?

リモートとオフラインを融合した働き方を追求しています
優秀な営業、エンジニア、デザイナーを募集しています

オフィス

  • 名古屋
    〒450-0002
    愛知県名古屋市中村区名駅4丁目24番5号第2森ビル401