2024/12/18

2024年のAI関連ニュースを振り返る

KomiyaJapan 2024/12/18

はじめに

こんにちは。こみじゃぱと申します。

2022年にChatGPTがリリースされ早くも2年が経ちました。
AI業界はこの2年間で驚異的な進化を遂げ、私たちの生活や仕事に大きな影響を与えています。生成AIはもちろん、画像生成や音声認識、さらにはマルチモーダルAIといった新しい分野にも注目が集まっています。

新しい論文やモデルが毎日のように出るので、今年でた主要なモデルをまとめました。主に大手3社（OpenAI、Google、Anthropic）を中心にまとめています。
毎日の論文をキャッチアップしたい場合は以下をみていただくと良いと思います。

2024年 AIリリース表

1月

1月17日

AlphaGeometry (Google DeepMind)

https://deepmind.google/discover/blog/alphageometry-an-olympiad-level-ai-system-for-geometry/

国際数学オリンピックの幾何学問題を人間の金メダリストに匹敵するレベルで解くことができるモデルです。AlphaGeometryは30問中25問を制限時間内に解答し、これは平均的な金メダリストの成績（25.9問）に近い成績です。システム自身がランダムに図形を生成し、そこから問題を作成して自己学習を行うことで、人間のデモンストレーションに依存せず、高度な幾何学的推論能力を獲得しました。

1月25日

GPT-4 Turbo with VisionとEmbeddingの新モデルの追加と APIの更新 (OpenAI)

https://openai.com/index/new-embedding-models-and-api-updates/

埋め込みの次元数を調整することで、性能とコストのバランスを柔軟に取ることが可能になりました。

1月31日

MobileDiffusion (Google Research)

https://research.google/blog/mobilediffusion-rapid-text-to-image-generation-on-device/

モバイル向けの高速テキスト画像生成モデルです。推論時に1ステップでサンプリングを行うことで、512×512ピクセルの高品質な画像を0.5秒以内で生成可能になりました。

2月

2月4日

Qwen1.5 (Alibaba)

https://qwenlm.github.io/blog/qwen1.5/

日本語を含む多言語に対応し、長いコンテキストに対するパフォーマンスが向上しました。

2月6日

Runway Gen-1 (Runway)

https://runwayml.com/research/gen-1

任意の画像やテキストのスタイルを動画の各フレームに適用するスタイライゼーションや、動画の特定部分に効果を適用し選択的な編集を可能にするマスクに対応しました。
テクスチャのないレンダリング映像を、入力画像やテキストの指示に基づいてリアルな出力に変換することができるようになりました。

2月8日

BardとDuet AIをGeminiに改名 (Google)

https://blog.google/intl/ja-jp/company-news/technology/bard-gemini-ultra-jp/

Gemini Advanced(Google)

Gemini 1.0 Ultra(Google)

2月14日

ChatGPTのメモリと新コントロール (OpenAI)

https://openai.com/index/memory-and-new-controls-for-chatgpt/

ChatGPTの新機能「メモリ」が登場し、ユーザーとの対話内容を記憶し、将来の会話でよりパーソナライズされた応答が可能になりました。

2月16日

Gemini 1.5 (Google DeepMind)

https://blog.google/technology/ai/google-gemini-next-generation-model-february-2024/

Sora (OpenAI)

https://openai.com/index/video-generation-models-as-world-simulators/

標準で128,000トークンのコンテキストウィンドウに対応し、一部の開発者や企業向けには最大100万トークンのコンテキストウィンドウに対応しました。

2月21日

Gemma (Google)

https://blog.google/technology/ai/gemma-open-models-february-2024/

軽量オープンモデルファミリー

2月22日

Stable Diffusion 3 (Stability AI)

https://stability.ai/news/stable-diffusion-3

Stable Diffusion 3は、複数の主題を含むプロンプトへの対応力、画像品質、文字の再現能力が大幅に向上しています。このモデルは、800Mから8Bのパラメータを持つ複数のバリエーションが提供されました。

3月

3月4日

Claude 3 Opus・Sonnet (Anthropic)

https://www.anthropic.com/news/claude-3-family

高速かつコスト効率に優れたモデルで、短時間での処理が求められるタスクに適したClaude 3 Haiku、知性と速度のバランスが取れたモデルで、迅速な応答が必要なタスクに最適なClaude 3 Sonnet、最も高性能なモデルで、複雑な分析や高度な推論を必要とするタスクに対応したClaude 3 Opusが発表されました。

3月13日

SIMA (Google DeepMind)

https://deepmind.google/discover/blog/sima-generalist-ai-agent-for-3d-virtual-environments/

3D仮想環境で自然言語の指示に従いタスクを実行できる汎用AIエージェント「SIMA（Scalable Instructable Multiworld Agent）」です。
SIMAは、視覚情報と自然言語の指示を理解し、キーボードやマウスを用いて人間のように環境と対話します。

SIMAの目的は、高得点を獲得することではなく、人間の指示に従って行動する能力を持つAIエージェントの開発にあり、この研究は、AIシステムの実世界での応用可能性を高めることを目指しています。

Figure 1 の進捗発表 (OpenAI)

https://x.com/Figure_robot/status/1767913661253984474

3月14日

Claude 3 Haiku (Anthropic)

https://www.anthropic.com/news/claude-3-haiku

3月17日

Grok 1 (xAI)

https://x.ai/blog/grok-os

3140億パラメータを持つ大規模言語モデル「Grok-1」の基礎モデルの重みとネットワークアーキテクチャが公開されました。
Grok-1は、Mixture-of-Expertsアーキテクチャを採用し、トークンごとに25%の重みが活性化される設計となっています。

3月19日

Stable Video 3D (Stability AI)

https://stability.ai/news/introducing-stable-video-3d

単一の画像から高品質な新規視点の動画や3Dメッシュを生成するモデル「Stable Video 3D（SV3D）」です。SV3Dは、Stable Video Diffusionを基盤とし、カメラの調整なしで、単一の画像からオービタル動画を生成するSV3D_uと、単一の画像やオービタルビューに対応し、指定されたカメラパスに沿った3D動画の作成が可能なSV3D_pの2つを提供しています。

3月21日

RakutenAI-7B (Rakuten)

https://corp.rakuten.co.jp/news/press/2024/0321_01.html

日本語に最適化された高性能な大規模言語モデル（LLM）「Rakuten AI 7B」シリーズが公開されました。

このシリーズには、基盤モデル「Rakuten AI 7B」、インストラクションチューニング済モデル「Rakuten AI 7B Instruct」、およびチャットモデル「Rakuten AI 7B Chat」が含まれています。

これらのモデルは、オープンソースとして提供されており、Apache 2.0ライセンスの下で利用可能です。

「Rakuten AI 7B」は、フランスのAIスタートアップであるMistral AI社のオープンモデル「Mistral-7B-v0.1」を基に、楽天が独自に大規模な日本語と英語のデータを用いて事前学習を行った70億パラメータの基盤モデルです。

suno v3 (suno)

https://suno.com/blog/v3

3月23日

ChatGPT plugins (OpenAI)

https://openai.com/index/chatgpt-plugins/

GitHub Copilot X (GitHub)

https://github.blog/news-insights/product-news/github-copilot-x-the-ai-powered-developer-experience/

3月28日

Grok 1.5 (xAI)

https://x.ai/blog/grok-1.5

Qwen1.5-MoE (Alibaba)

https://qwenlm.github.io/blog/qwen-moe/

このモデルは、活性化パラメータ数が27億と少ないにもかかわらず、Mistral 7BやQwen1.5-7Bなどの最先端の70億パラメータモデルと同等の性能を発揮します。
さらに、トレーニングコストを75%削減し、推論速度を1.74倍に向上させることに成功しています。

3月30日

Voice Engine (OpenAI)

https://openai.com/index/navigating-the-challenges-and-opportunities-of-synthetic-voices/

このモデルは、テキスト入力と15秒の音声サンプルから、元の話者に近い自然な音声を生成できます。

4月

4月2日

Qwen1.5-32B (Alibaba)

https://qwenlm.github.io/blog/qwen1.5/

4月3日

Stable Audio 2.0 (Stability AI)

https://stability.ai/news/stable-audio-2-0

4月4日

新ファインチューニングAPI (OpenAI)

https://openai.com/index/introducing-improvements-to-the-fine-tuning-api-and-expanding-our-custom-models-program/

各トレーニングエポックごとに完全なファインチューニング済みモデルのチェックポイントを自動生成し、再トレーニングの必要性を削減するエポックベースのチェックポイント作成、複数のモデルやファインチューニングスナップショットの出力を並べて比較し、人間による評価を可能にする新しいUIが追加されました。

4月7日

Open-Sora Plan

https://x.com/LinBin46984/status/1776899920538014044

非公開のSoraに対抗したオープンソースの動画生成モデルが公開されました。

4月8日

Stable LM 2 12B (Stability AI)

https://stability.ai/news/introducing-stable-lm-2-12b

4月10日

Google Vids (Google)

https://workspace.google.com/blog/product-announcements/new-generative-ai-and-security-innovations

Google Workspaceに新しいAI搭載の動画作成アプリが追加されました。

udio (Udio)

https://x.com/udiomusic/status/1778045322654003448

Sunoに対抗する形で、新しい音楽生成モデルが公開されました。

4月12日

Grok 1.5 Vision (xAI)

https://x.ai/blog/grok-1.5v

4月15日

OpenAI Japan 設立 (OpenAI)

https://openai.com/index/introducing-openai-japan/

4月18日

Llama 3 (Meta)

https://ai.meta.com/blog/meta-llama-3/

MetaのオープンソースLLMであるこのモデルは、8B（80億）と70B（700億）のパラメータを持つ事前学習済みおよび指示調整済みの言語モデルで、幅広いユースケースに対応しています。

4月26日

Qwen/Qwen1.5-110B (Alibaba)

https://qwenlm.github.io/blog/qwen1.5-110b/

Transformerデコーダーアーキテクチャを採用し、Grouped Query Attention（GQA）を組み込むことで、推論時の効率性を向上させています。また、最大32,000トークンのコンテキストを処理可能で、長文の理解や生成に対応しています。

4月30日

LLM-jp-13B v2.0 (LLM-jp)

https://llm-jp.nii.ac.jp/blog/2024/04/30/v2.0-release.html

5月

5月8日

AlphaFold 3 (Google DeepMind)

https://deepmind.google/discover/blog/alphafold-3-a-new-era-of-protein-structure-prediction/

タンパク質だけでなく、DNA、RNA、リガンドなど、生命のあらゆる分子の構造と相互作用を高精度で予測しできるモデルです。

AlphaFold 2の成果を基に、改良されたEvoformerモジュールとディフュージョンネットワークを組み合わせ、分子構造の予測精度を向上させています。また、複数の分子間の相互作用や化学修飾を考慮した複合体の構造予測が可能で、細胞内での分子の機能や疾患の理解に貢献します。

5月9日

Japanese Stable LM 2 1.6B (Stability AI)

https://ja.stability.ai/blog/japanese-stable-lm-2-16b

5月13日

GPT-4o (OpenAI)

https://openai.com/index/hello-gpt-4o/

もはや説明するまでもありませんが、OpenAIの最新のマルチモーダルモデルです。
個人的にはPythonベースのCode Interpreterが一番便利だと思います。

不定期ではありますが、現在も密かにアップデートされパフォーマンスが向上しています。
最近、知識が2024年6月までのものに更新されました。

https://x.com/btibor91/status/1867833940964520350

Mac版 ChatGPT (OpenAI)

https://help.openai.com/en/articles/9703738-macos-app-release-notes

ChatGPTのMac版アプリがリリースされました。
Option + Spaceでいつでも開けるのは便利ですね。

5月14日

Gemini 1.5 Flash ・ PaliGemma ・ Project Astra (Google)

https://blog.google/technology/ai/google-gemini-update-flash-ai-assistant-io-2024/

新たに追加された Gemini 1.5 Flash は、スピードと効率性を追求した軽量モデルで、大規模なサービスに高速かつ効率的に対応できるよう設計されています。

また、コンテキストウィンドウが200万トークンに拡張された Gemini 1.5 Pro も提供され、コード生成や論理的推論、マルチターン会話、音声と画像の理解能力が強化されています。

5月25日

suno v3.5 (Suno)

https://www.techno-edge.net/article/2024/05/25/3401.html

6月

6月6日

NotebookLM 多言語対応 (Google)

6月7日

Qwen2 (Alibaba)

https://qwenlm.github.io/blog/qwen2/

6月18日

Runway Gen-3 Alpha (Runway)

https://runwayml.com/research/introducing-gen-3-alpha

6月19日

Gemini API - Context Caching (Google)

https://ai.google.dev/gemini-api/docs/caching?lang=python&hl=ja

「Context Caching」は、入力トークンをキャッシュして、後続リクエストでキャッシュされたトークンを参照することで、コストを下げることができるものです。

6月21日

Claude 3.5 Sonnet ・ Artifacts (Anthropic)

https://www.anthropic.com/news/claude-3-5-sonnet

6月26日

Projects (Anthropic)

https://www.anthropic.com/news/projects

ユーザーはチャットをプロジェクト単位で整理し、関連する知識や活動を一箇所にまとめることができるようになりました。

6月27日

Gemma 2 (Google)

https://blog.google/technology/developers/google-gemma-2/

Gemini 1.5 Pro - 200万トークンのコンテキストウィンドウ (Google)

https://developers.googleblog.com/en/new-features-for-the-gemini-api-and-google-ai-studio/

長文の処理に対応できるようになりました。

Gemini API - Code Execution (Google)

https://ai.google.dev/gemini-api/docs/code-execution?hl=ja

モデルがPythonコードを生成・実行し、その結果を基に反復的に学習して最終的な出力を得ることができるようになりました。

CriticGPT (OpenAI)

https://openai.com/index/finding-gpt4s-mistakes-with-gpt-4/

GPT-4を基盤とした新たなモデル「CriticGPT」を開発し、ChatGPTのコード出力におけるエラー検出が強化されました。このモデルは、ChatGPTの回答を批評し、AIトレーナーが微妙な誤りを発見するのを支援します。

7月

7月2日

Runway Gen-3 Alpha (Runway)

https://runwayml.com/research/introducing-gen-3-alpha

7月3日

Gemini on Multimodal Canvas (Google)

https://labs.google/multimodal-canvas

7月8日

NoLang 2.0 (NoLang)

https://x.com/sayhi2ai_jp/status/1810083591935930668

7月10日

Artifacts - Share ・ Remix (Anthropic)

https://x.com/AnthropicAI/status/1810698780263563325

Anthropic Console - Test Case Generation ・ Output Comparison (Anthropic)

https://www.anthropic.com/news/anthropic-console-test-case-generation-output-comparison

7月11日

Claude 3 Haiku - Fine-tuning (Anthropic)

https://www.anthropic.com/news/fine-tune-claude-3-haiku

7月16日

Gemini - Google Workspace Extensions (Google)

Androidアプリ (Anthropic)

https://www.anthropic.com/news/anthropic-android-app

7月19日

GPT-4o mini (OpenAI)

https://openai.com/index/gpt-4o-mini-advancing-cost-efficient-intelligence/

7月23日

GPT-4o mini のファインチューニング (OpenAI)

https://openai.com/index/gpt-4o-mini-fine-tuning/

7月25日

SearchGPT Prototype (OpenAI)

https://openai.com/index/searchgpt-prototype/

Perplexityに対抗する形で、検索機能を搭載したモデルが限定公開されました。

AlphaProof・AlphaGeometry 2 (Google DeepMind)

https://deepmind.google/discover/blog/ai-solves-imo-problems-at-silver-medal-level/

7月31日

Gemma 2 2B (Google)

https://huggingface.co/google/gemma-2-2b

ShieldGemma (Google)

https://huggingface.co/google/shieldgemma-2b

8月

8月1日

Gemini 1.5 Pro Experimental 0801 (Google)

FLUX.1 (Flux 1 AI)

https://flux.ai/

Runway Gen-3 Alpha Turbo (Runway)

https://www.techno-edge.net/article/2024/08/16/3601.html

8月6日

gpt-4o-2024-08-06・Structured Outputs (OpenAI)

https://openai.com/index/introducing-structured-outputs-in-the-api/

APIにJSONスキーマにモデルの出力を正確に一致させる新機能が追加されました。

8月12日

Gemini 1.5 Flash の価格削減 (Google)

8月13日

Gemini Live (Google)

https://blog.google/products/gemini/made-by-google-gemini-ai-updates/

Gemini版のAdvanced Voice Modeが発表されました。

LongWriter (Tsinghua University)

https://huggingface.co/THUDM/LongWriter-llama3.1-8b

論文「LongWriter: Unleashing 10,000+ Word Generation from Long Context LLMs」（arxiv: 2408.07055）に併せて公開されました。

長いコンテキストを処理できる大規模言語モデル（LLM）が、2,000語を超える長い出力を生成するのが難しいという課題に取り組んでいます。

研究者たちは、モデルの生成長が教師あり微調整（SFT）中に見たサンプルによって制約されていることを発見しました。

この問題を解決するために、彼らは「AgentWrite」というエージェントベースの手法を導入し、超長文生成タスクをサブタスクに分解することで、既存のLLMが20,000語を超える一貫した出力を生成できるようにしました。

さらに、2,000語から32,000語の出力を持つ6,000のSFTデータを含む「LongWriter-6k」データセットを構築し、モデルのトレーニングに組み込みました。

これにより、既存のモデルの出力長を10,000語以上に拡大し、出力品質を維持することに成功しました。

また、超長文生成能力を評価するための包括的なベンチマーク「LongBench-Write」も開発しました。

https://note.com/shi3zblog/n/n969d819d5f31

Grok 2 Beta (xAI)

https://x.ai/blog/grok-2

8月15日

Prompt caching (Anthropic)

https://www.anthropic.com/news/prompt-caching

8月20日

Grok 2 (beta) (xAI)

https://x.ai/blog/grok-2

8月21日

8月27日

gemini-1.5-pro-exp-0827 ・ gemini-1.5-flash-exp-0827 ・gemini-1.5-flash-8b-exp-0827 (Google)

GameNGen (ゲームエンジン) (Google)

https://blog.google/technology/ai/game-gen-ai-engine/

8月28日

iOSアプリのGrokの機能追加 (xAI)

Artifacts - 一般公開・iOS・Andorid (Anthropic)

Gemini - Gems ・ Imagen 3 (Google)

https://blog.google/products/gemini/google-gemini-update-august-2024/

8月29日

Qwen2-VL (VLM)

https://huggingface.co/Qwen/Qwen2-VL-7B-Instruct

8月30日

Gemini 1.5 Flash - JSON Schema Mode (Google)

9月

9月4日

Claude Enterprise Plan (Anthropic)

9月12日

OpenAI o1 Preview (OpenAI)

https://openai.com/index/introducing-openai-o1-preview/

それまでのLLMとは異なり、推論に時間をかけることで、より高精度な結果を得ることができるようになりました。特にコーディング性能が向上しています。

DataGemma (Google)

https://ai.google.dev/gemma/docs/datagemma?hl=ja

HeyGen Avatar 3.0 (HeyGen)

https://x.com/HeyGen_Official/status/1834261947815993615

9月13日

GameGen-O (ゲーム生成)

https://www.techno-edge.net/article/2024/09/20/3697.html

9月18日

Qwen2.5 (Alibaba)

https://huggingface.co/Qwen/Qwen2.5-72B-Instruct

9月24日

Advanced Voice (OpenAI)

https://openai.com/index/chatgpt-can-now-see-hear-and-speak/

9月25日

LLM-jp-3 1.8B・3.7B・13B (LLM-jp)

https://huggingface.co/llm-jp/llm-jp-3-1.8b

Llama 3.2 Vision (Meta)

https://huggingface.co/meta-llama/Llama-3.2-11B-Vision

Llama 3.2 1B・3B (Meta)

https://huggingface.co/meta-llama/Llama-3.2-1B

9月26日

AlphaChip (Google DeepMind)

https://deepmind.google/discover/blog/how-alphachip-transformed-computer-chip-design/

強化学習を活用したコンピューターチップの設計方法を発表しました。従来、チップのレイアウト設計には数週間から数ヶ月を要していましたが、AlphaChipはこれを数時間で完了し、人間の専門家と同等かそれ以上の性能を持つレイアウトを生成します。

この技術は、GoogleのカスタムAIアクセラレータであるTensor Processing Unit（TPU）の最新3世代の設計に採用され、データセンターからモバイル機器まで、世界中のハードウェアで活用されています。

omni-moderation-latest (OpenAI)

https://openai.com/index/upgrading-the-moderation-api-with-our-new-multimodal-moderation-model/

9月30日

llm-jp-3-3.7b-instruct-EZO-Humanities ・ llm-jp-3-3.7b-instruct-EZO-Common (LLM-jp)

https://huggingface.co/AXCXEPT/llm-jp-3-3.7b-instruct-EZO-Humanities

10月

10月1日

Whisper Large v3 Turbo (OpenAI)

https://huggingface.co/openai/whisper-large-v3-turbo

OpenAIが開発した音声認識モデル「Whisper large-v3」の蒸留版で、デコーダーレイヤーの数を32から4に削減することで、推論速度を約5倍に向上させています。

Realtime API (OpenAI)

https://openai.com/index/introducing-the-realtime-api/

アプリケーションに低遅延の音声対話機能を組み込むことができる Realtime API のパブリックベータ版が発表されました。

Prompt Caching (OpenAI)

https://openai.com/index/api-prompt-caching/

プロンプトキャッシングは、1,024トークンを超えるプロンプトに対して自動的に適用されます。

APIは、以前に処理されたプロンプトの最長のプレフィックスをキャッシュし、1,024トークンから開始して128トークン単位で増加します。共通のプレフィックスを持つプロンプトを再利用する場合、実装に変更を加えることなく、割引が自動的に適用されます。

Model Distillation (OpenAI)

https://openai.com/index/api-model-distillation/

開発者は高度なモデル（GPT-4o や o1-preview　など）の出力を活用して、より小型でコスト効率の高いモデル（GPT-4o mini など）をファインチューニングし、特定のタスクにおいて同等の性能を実現できるようになりました。

Vision Fine-Tuning (OpenAI)

https://openai.com/index/introducing-vision-to-the-fine-tuning-api/

開発者はモデルの画像理解能力を強化できるようになりました。

10月2日

FLUX 1.1 [pro] ・ BFL API (BlackForestLabs)

https://blackforestlabs.ai/announcing-flux-1-1-pro-and-the-bfl-api/

10月3日

gemma-2-2b-jpn-it (Google)

https://huggingface.co/google/gemma-2-2b-jpn-it

Gemma 2 Baku 2B (rinna)

https://huggingface.co/rinna/gemma-2-baku-2b

Canvas Beta版 (OpenAI)

https://openai.com/index/introducing-canvas/

Gemini 1.5 Flash-8B (Google)

https://developers.googleblog.com/en/gemini-15-flash-8b-is-now-generally-available-for-use/

10月4日

Meta Movie Gen (Meta)

https://ai.meta.com/research/movie-gen/

10月8日

ノーベル物理学賞

10月9日

ノーベル化学賞

Llama-3.1-Nemotron-70B (NVIDIA)

https://huggingface.co/nvidia/Llama-3.1-Nemotron-70B-Instruct-HF

Open-Sora-Plan-v1.3.0 (LanguageBind)

https://huggingface.co/LanguageBind/Open-Sora-Plan-v1.3.0

10月17日

Windows版 ChatGPT (OpenAI)

10月22日

claude-3-5-sonnet-20241022 (Anthropic)

Computer use (Anthropic)

https://www.anthropic.com/news/3-5-models-and-computer-use

mochi-1-preview (動画生成)

https://www.mochi1preview.com/

Stable Diffusion 3.5 Large ・ Stable Diffusion 3.5 Large Turbo (Stability AI)

https://stability.ai/news/introducing-stable-diffusion-3-5

OmniGen (VectorSpaceLab)

https://github.com/VectorSpaceLab/OmniGen

VectorSpaceLabが開発した統合型画像生成モデルで、テキストからの画像生成、画像編集、特定の対象に基づく生成など、多様なタスクに対応しています。

10月23日

Gemini Live - 日本語対応 (Google)

https://blog.google/intl/ja-jp/company-news/technology/gemini-live/

SynthID (Google DeepMind)

https://deepmind.google/technologies/synthid/

AI生成コンテンツの識別ツールで、画像、音声、テキスト、動画などのAI生成コンテンツにデジタル透かしを埋め込み、識別が可能になります。

10月24日

Combining Machine Learning and Homomorphic Encryption (Apple)

https://machinelearning.apple.com/research/homomorphic-encryption

今回取り上げる中で唯一のAppleの研究です。

暗号化したままベクトル演算可能になるという驚きの内容でした。ざっくりいうと、公開鍵暗号で暗号化しサーバーで演算し、クライアントは秘密鍵で復号するというものです。暗号化されることで増える演算やサイズのオーバーヘッドなどの問題はありますが、プライバシーを重視してるAppleにとっては核心的な技術ではないでしょうか。

10月29日

Stable Diffusion 3.5 Medium (Stability AI)

https://huggingface.co/stabilityai/stable-diffusion-3.5-medium

10月30日

SimpleQA (OpenAI)

https://openai.com/index/introducing-simpleqa/

AIモデルの事実性を評価するためのベンチマーク方法です。

recraft v3 (Recraft AI)

https://www.recraft.ai/blog/recraft-introduces-a-revolutionary-ai-model-that-thinks-in-design-language

10月31日

ChatGPT search (OpenAI)

https://openai.com/index/introducing-chatgpt-search/

SearchGPTの製品版です。GPT-4oに統合されました。

Claude for Desktop (Anthropic)

https://www.anthropic.com/news/claude-for-desktop

Grounding with Google Search (Google)

https://developers.googleblog.com/en/gemini-api-and-ai-studio-now-offer-grounding-with-google-search/

Gemini版ChatGPT Searchです。
旅行プランの作成などでは、ChatGPT Searchよりも優れたパフォーマンスを示しています。

Oasis (Etched)

https://oasis-model.github.io/

AIによってリアルタイムで生成されるオープンワールドのゲームモデルです。
移動、ジャンプ、アイテムの取得、ブロックの破壊など、多彩なアクションが可能です。

11月

11月1日

DMMボイス (Algomatic)

https://note.com/1230yuji/n/n2c9da487efaa

国産の音声合成サービスです。しかしながら、想定以上にアクセスが集中したため、リリースから一週間待たずにサービスを停止しました。

PDF support (Anthropic)

https://docs.anthropic.com/en/docs/build-with-claude/pdf-support

PDF内のテキストだけでなく、グラフを分析し、視覚的な情報を理解できるようになりました。

11月2日

Token counting (Anthropic)

https://docs.anthropic.com/en/docs/build-with-claude/token-counting

メッセージをClaudeに送信する前にメッセージ内のトークン数を確認できるようになりました。

11月4日

Claude 3.5 Haiku (Anthropic)

https://www.anthropic.com/claude/haiku

Predicted Outputs (OpenAI)

https://platform.openai.com/docs/guides/predicted-outputs

文章やコードの一部に編集を加えるなど、出力のある程度が決まっているときに、APIのリクエストで明示することで、出力のレイテンシを短縮できるようになりました。

11月12日

Qwen2.5-Coder 32B (Alibaba)

https://huggingface.co/Qwen/Qwen2.5-Coder-32B

ローカルで動かせるコーディング特化型のモデルです。

11月13日

DeepL Voice (DeepL)

https://www.deepl.com/ja/blog/deepl-voice

11月19日

suno v4 (suno)

https://suno.com/blog/v4

https://www.techno-edge.net/article/2024/11/20/3841.html

11月20日

gpt-4o-2024-11-20 (OpenAI)

LLM-jp-3 VILA 14B (LLM-jp)

https://huggingface.co/llm-jp/llm-jp-3-vila-14b

AivisSpeech (Aivis Project)

https://aivis-project.com/

にじボイス (Algomatic)

https://note.com/1230yuji/n/nc3c0899c0dbc

DMMボイスが改名し、サービスを再開しました。

11月23日

OminiControl (National University of Singapore)

https://huggingface.co/papers/2411.15098

FLUXベースのモデルです。制御性の大きな向上と、入力画像の出力への反映が可能になりました。

12月

12月4日

Veo ・ Imagen 3 (Google)

https://blog.google/technology/google-labs/video-image-generation-update-december-2024/

12月5日

PaliGemma 2 (Google)

https://huggingface.co/google/paligemma-3b-pt-224

12月6日

o1 ・ ChatGPT Pro (OpenAI)

https://openai.com/index/introducing-chatgpt-pro/

preview版だったo1が正式版となりました。o1は、与えられたタスクに応じて、思考時間を変えて、簡単なタスクは短時間で、難しいタスクは長時間で処理することができるようになりました。また、o1 pro modeが追加され、さらに長時間かけてより高精度な結果を得ることができるようになりました。

ChatGPT Plusの上位プランであるChatGPT Proでは、o1 pro modeが利用可能になり、o1 pro mode以外の全てのモデルが無制限で利用できるようになりました。

HunyuanVideo (Tencent)

https://github.com/Tencent/HunyuanVideo

12月7日

Grok 2 + Aurora (xAI)

https://x.ai/blog/grok-image-generation-release

Reinforcement Fine-Tuning (OpenAI)

https://openai.com/form/rft-research-program/

特定の専門分野における複雑なタスクに特化した「エキスパートモデル」を作成するための新たなモデルカスタマイズ手法です。

開発者が数十から数千の高品質なタスクを使用し、モデルの応答を提供された参考解答と比較して評価することで、モデルの推論能力を強化し、特定のドメインにおけるタスクの精度を向上させる手法です。

Llama 3.3 70B (Meta)

https://huggingface.co/meta-llama/Llama-3.3-70B-Instruct

Qwen2-VL-72B (Alibaba)

https://huggingface.co/Qwen/Qwen2-VL-72B

12月9日

Sora (OpenAI)

https://openai.com/index/sora-is-here/

12月11日

Gemini 2.0 Flash Experimental (Google)

https://blog.google/technology/google-deepmind/google-gemini-ai-update-december-2024/

Gemini Deep Research (Google)

https://blog.google/products/gemini/google-gemini-deep-research/

Spatial Understanding (Google)

https://note.com/npaka/n/n9c90b4f3b580

Project Mariner (Google DeepMind)

https://deepmind.google/technologies/project-mariner/

Advanced Voice with Video (OpenAI)

https://openai.com/index/introducing-advanced-voice-with-video/

12月10日

Canvas の新機能 (OpenAI)

https://openai.com/index/introducing-canvas-new-features/

Canvas に容易にアクセスできるようになり、Pythonのコードを実行できるようになりました。

12月12日

にじボイスAPI (Algomatic)

https://note.com/1230yuji/n/n2c9da487efaa

12月13日

ChatGPT Projects (OpenAI)

https://openai.com/blog/chatgpt-projects/

NotebookLM Plus (Google)

https://blog.google/technology/google-labs/notebooklm-new-features-december-2024/

napakaさんのnote記事を参考にさせていただきました。

おわりに

いかがでしたか？とにかく量が多すぎてまとめるのが大変だったので、目を通していただけたら幸いです。

2025年が早くも楽しみです。AIがちょっとずつ進化して気づいたらすごい領域に達してそうな気がしてます。
また、ローカルで動かせるような日本語に特化した国産LLMが登場してくれると嬉しいです。日本語に特化したトークン化などでもっと最適化の余地はあると思うので。

最近、AIの軍事利用や利益の確保などが問題視されていますが、これらの課題は技術をどう管理し活用するかにかかっています。適切な倫理基準と規制を設けることで、AIの潜在的なリスクを最小限に抑え、社会全体にとって有益な方向へ進化させることが可能です。

AIは火や電気のように人類史に残る可能性のある発明のひとつであり、その可能性をどう活かすかは私たち次第です。火が道具として生活を豊かにした一方で、乱用すれば災いをもたらすように、AIもその活用次第で人類の福祉に大きく貢献することができます。だからこそ、私たちは賢くこの「新しい火」を扱い、次世代に希望を与える技術として発展させる責任があります。
（ps.この段落はChatGPTに書いてもらいました）

人類の最大の敵はAIではなく人類自身なので。

はじめに

2024年 AIリリース表

1月

1月17日

AlphaGeometry (Google DeepMind)

1月25日

GPT-4 Turbo with VisionとEmbeddingの新モデルの追加 と APIの更新 (OpenAI)

1月31日

MobileDiffusion (Google Research)

2月

2月4日

Qwen1.5 (Alibaba)

2月6日

Runway Gen-1 (Runway)

2月8日

BardとDuet AIをGeminiに改名 (Google)

Gemini Advanced(Google)

Gemini 1.0 Ultra(Google)

2月14日

ChatGPTのメモリと新コントロール (OpenAI)

2月16日

Gemini 1.5 (Google DeepMind)

Sora (OpenAI)

2月21日

Gemma (Google)

2月22日

Stable Diffusion 3 (Stability AI)

3月

3月4日

Claude 3 Opus・Sonnet (Anthropic)

3月13日

SIMA (Google DeepMind)

Figure 1 の進捗発表 (OpenAI)

3月14日

Claude 3 Haiku (Anthropic)

3月17日

Grok 1 (xAI)

3月19日

Stable Video 3D (Stability AI)

3月21日

RakutenAI-7B (Rakuten)

suno v3 (suno)

3月23日

ChatGPT plugins (OpenAI)

GitHub Copilot X (GitHub)

3月28日

Grok 1.5 (xAI)

Qwen1.5-MoE (Alibaba)

3月30日

Voice Engine (OpenAI)

4月

4月2日

Qwen1.5-32B (Alibaba)

4月3日

Stable Audio 2.0 (Stability AI)

4月4日

新ファインチューニングAPI (OpenAI)

4月7日

Open-Sora Plan

4月8日

Stable LM 2 12B (Stability AI)

4月10日

Google Vids (Google)

udio (Udio)

4月12日

Grok 1.5 Vision (xAI)

4月15日

OpenAI Japan 設立 (OpenAI)

4月18日

Llama 3 (Meta)

4月26日

Qwen/Qwen1.5-110B (Alibaba)

4月30日

LLM-jp-13B v2.0 (LLM-jp)

5月

5月8日

AlphaFold 3 (Google DeepMind)

5月9日

Japanese Stable LM 2 1.6B (Stability AI)

5月13日

GPT-4 Turbo with VisionとEmbeddingの新モデルの追加と APIの更新 (OpenAI)