はじめに
こんにちは。こみじゃぱと申します。
2022年にChatGPTがリリースされ早くも2年が経ちました。
AI業界はこの2年間で驚異的な進化を遂げ、私たちの生活や仕事に大きな影響を与えています。生成AIはもちろん、画像生成や音声認識、さらにはマルチモーダルAIといった新しい分野にも注目が集まっています。
新しい論文やモデルが毎日のように出るので、今年でた主要なモデルをまとめました。主に大手3社(OpenAI、Google、Anthropic)を中心にまとめています。
毎日の論文をキャッチアップしたい場合は以下をみていただくと良いと思います。
2024年 AIリリース表
1月
1月17日
AlphaGeometry (Google DeepMind)
https://deepmind.google/discover/blog/alphageometry-an-olympiad-level-ai-system-for-geometry/
国際数学オリンピックの幾何学問題を人間の金メダリストに匹敵するレベルで解くことができるモデルです。AlphaGeometryは30問中25問を制限時間内に解答し、これは平均的な金メダリストの成績(25.9問)に近い成績です。システム自身がランダムに図形を生成し、そこから問題を作成して自己学習を行うことで、人間のデモンストレーションに依存せず、高度な幾何学的推論能力を獲得しました。
1月25日
GPT-4 Turbo with VisionとEmbeddingの新モデルの追加 と APIの更新 (OpenAI)
https://openai.com/index/new-embedding-models-and-api-updates/
埋め込みの次元数を調整することで、性能とコストのバランスを柔軟に取ることが可能になりました。
1月31日
MobileDiffusion (Google Research)
https://research.google/blog/mobilediffusion-rapid-text-to-image-generation-on-device/
モバイル向けの高速テキスト画像生成モデルです。推論時に1ステップでサンプリングを行うことで、512×512ピクセルの高品質な画像を0.5秒以内で生成可能になりました。
2月
2月4日
Qwen1.5 (Alibaba)
https://qwenlm.github.io/blog/qwen1.5/
日本語を含む多言語に対応し、長いコンテキストに対するパフォーマンスが向上しました。
2月6日
Runway Gen-1 (Runway)
https://runwayml.com/research/gen-1
任意の画像やテキストのスタイルを動画の各フレームに適用するスタイライゼーションや、動画の特定部分に効果を適用し選択的な編集を可能にするマスクに対応しました。
テクスチャのないレンダリング映像を、入力画像やテキストの指示に基づいてリアルな出力に変換することができるようになりました。
2月8日
BardとDuet AIをGeminiに改名 (Google)
https://blog.google/intl/ja-jp/company-news/technology/bard-gemini-ultra-jp/
Gemini Advanced(Google)
Gemini 1.0 Ultra(Google)
2月14日
ChatGPTのメモリと新コントロール (OpenAI)
https://openai.com/index/memory-and-new-controls-for-chatgpt/
ChatGPTの新機能「メモリ」が登場し、ユーザーとの対話内容を記憶し、将来の会話でよりパーソナライズされた応答が可能になりました。
2月16日
Gemini 1.5 (Google DeepMind)
https://blog.google/technology/ai/google-gemini-next-generation-model-february-2024/
Sora (OpenAI)
https://openai.com/index/video-generation-models-as-world-simulators/
標準で128,000トークンのコンテキストウィンドウに対応し、一部の開発者や企業向けには最大100万トークンのコンテキストウィンドウに対応しました。
2月21日
Gemma (Google)
https://blog.google/technology/ai/gemma-open-models-february-2024/
軽量オープンモデルファミリー
2月22日
Stable Diffusion 3 (Stability AI)
https://stability.ai/news/stable-diffusion-3
Stable Diffusion 3は、複数の主題を含むプロンプトへの対応力、画像品質、文字の再現能力が大幅に向上しています。 このモデルは、800Mから8Bのパラメータを持つ複数のバリエーションが提供されました。
3月
3月4日
Claude 3 Opus・Sonnet (Anthropic)
https://www.anthropic.com/news/claude-3-family
高速かつコスト効率に優れたモデルで、短時間での処理が求められるタスクに適したClaude 3 Haiku、知性と速度のバランスが取れたモデルで、迅速な応答が必要なタスクに最適なClaude 3 Sonnet、最も高性能なモデルで、複雑な分析や高度な推論を必要とするタスクに対応したClaude 3 Opusが発表されました。
3月13日
SIMA (Google DeepMind)
https://deepmind.google/discover/blog/sima-generalist-ai-agent-for-3d-virtual-environments/
3D仮想環境で自然言語の指示に従いタスクを実行できる汎用AIエージェント「SIMA(Scalable Instructable Multiworld Agent)」です。
SIMAは、視覚情報と自然言語の指示を理解し、キーボードやマウスを用いて人間のように環境と対話します。
SIMAの目的は、高得点を獲得することではなく、人間の指示に従って行動する能力を持つAIエージェントの開発にあり、この研究は、AIシステムの実世界での応用可能性を高めることを目指しています。
Figure 1 の進捗発表 (OpenAI)
https://x.com/Figure_robot/status/1767913661253984474
3月14日
Claude 3 Haiku (Anthropic)
https://www.anthropic.com/news/claude-3-haiku
3月17日
Grok 1 (xAI)
3140億パラメータを持つ大規模言語モデル「Grok-1」の基礎モデルの重みとネットワークアーキテクチャが公開されました。
Grok-1は、Mixture-of-Expertsアーキテクチャを採用し、トークンごとに25%の重みが活性化される設計となっています。
3月19日
Stable Video 3D (Stability AI)
https://stability.ai/news/introducing-stable-video-3d
単一の画像から高品質な新規視点の動画や3Dメッシュを生成するモデル「Stable Video 3D(SV3D)」です。SV3Dは、Stable Video Diffusionを基盤とし、カメラの調整なしで、単一の画像からオービタル動画を生成するSV3D_uと、単一の画像やオービタルビューに対応し、指定されたカメラパスに沿った3D動画の作成が可能なSV3D_pの2つを提供しています。
3月21日
RakutenAI-7B (Rakuten)
https://corp.rakuten.co.jp/news/press/2024/0321_01.html
日本語に最適化された高性能な大規模言語モデル(LLM)「Rakuten AI 7B」シリーズが公開されました。
このシリーズには、基盤モデル「Rakuten AI 7B」、インストラクションチューニング済モデル「Rakuten AI 7B Instruct」、およびチャットモデル「Rakuten AI 7B Chat」が含まれています。
これらのモデルは、オープンソースとして提供されており、Apache 2.0ライセンスの下で利用可能です。
「Rakuten AI 7B」は、フランスのAIスタートアップであるMistral AI社のオープンモデル「Mistral-7B-v0.1」を基に、楽天が独自に大規模な日本語と英語のデータを用いて事前学習を行った70億パラメータの基盤モデルです。
suno v3 (suno)
3月23日
ChatGPT plugins (OpenAI)
https://openai.com/index/chatgpt-plugins/
GitHub Copilot X (GitHub)
https://github.blog/news-insights/product-news/github-copilot-x-the-ai-powered-developer-experience/
3月28日
Grok 1.5 (xAI)
Qwen1.5-MoE (Alibaba)
https://qwenlm.github.io/blog/qwen-moe/
このモデルは、活性化パラメータ数が27億と少ないにもかかわらず、Mistral 7BやQwen1.5-7Bなどの最先端の70億パラメータモデルと同等の性能を発揮します。
さらに、トレーニングコストを75%削減し、推論速度を1.74倍に向上させることに成功しています。
3月30日
Voice Engine (OpenAI)
https://openai.com/index/navigating-the-challenges-and-opportunities-of-synthetic-voices/
このモデルは、テキスト入力と15秒の音声サンプルから、元の話者に近い自然な音声を生成できます。
4月
4月2日
Qwen1.5-32B (Alibaba)
https://qwenlm.github.io/blog/qwen1.5/
4月3日
Stable Audio 2.0 (Stability AI)
https://stability.ai/news/stable-audio-2-0
4月4日
新ファインチューニングAPI (OpenAI)
各トレーニングエポックごとに完全なファインチューニング済みモデルのチェックポイントを自動生成し、再トレーニングの必要性を削減するエポックベースのチェックポイント作成、複数のモデルやファインチューニングスナップショットの出力を並べて比較し、人間による評価を可能にする新しいUIが追加されました。
4月7日
Open-Sora Plan
https://x.com/LinBin46984/status/1776899920538014044
非公開のSoraに対抗したオープンソースの動画生成モデルが公開されました。
4月8日
Stable LM 2 12B (Stability AI)
https://stability.ai/news/introducing-stable-lm-2-12b
4月10日
Google Vids (Google)
https://workspace.google.com/blog/product-announcements/new-generative-ai-and-security-innovations
Google Workspaceに新しいAI搭載の動画作成アプリが追加されました。
udio (Udio)
https://x.com/udiomusic/status/1778045322654003448
Sunoに対抗する形で、新しい音楽生成モデルが公開されました。
4月12日
Grok 1.5 Vision (xAI)
4月15日
OpenAI Japan 設立 (OpenAI)
https://openai.com/index/introducing-openai-japan/
4月18日
Llama 3 (Meta)
https://ai.meta.com/blog/meta-llama-3/
MetaのオープンソースLLMであるこのモデルは、8B(80億)と70B(700億)のパラメータを持つ事前学習済みおよび指示調整済みの言語モデルで、幅広いユースケースに対応しています。
4月26日
Qwen/Qwen1.5-110B (Alibaba)
https://qwenlm.github.io/blog/qwen1.5-110b/
Transformerデコーダーアーキテクチャを採用し、Grouped Query Attention(GQA)を組み込むことで、推論時の効率性を向上させています。また、最大32,000トークンのコンテキストを処理可能で、長文の理解や生成に対応しています。
4月30日
LLM-jp-13B v2.0 (LLM-jp)
https://llm-jp.nii.ac.jp/blog/2024/04/30/v2.0-release.html
5月
5月8日
AlphaFold 3 (Google DeepMind)
https://deepmind.google/discover/blog/alphafold-3-a-new-era-of-protein-structure-prediction/
タンパク質だけでなく、DNA、RNA、リガンドなど、生命のあらゆる分子の構造と相互作用を高精度で予測しできるモデルです。
AlphaFold 2の成果を基に、改良されたEvoformerモジュールとディフュージョンネットワークを組み合わせ、分子構造の予測精度を向上させています。また、複数の分子間の相互作用や化学修飾を考慮した複合体の構造予測が可能で、細胞内での分子の機能や疾患の理解に貢献します。
5月9日
Japanese Stable LM 2 1.6B (Stability AI)
https://ja.stability.ai/blog/japanese-stable-lm-2-16b
5月13日
GPT-4o (OpenAI)
https://openai.com/index/hello-gpt-4o/
もはや説明するまでもありませんが、OpenAIの最新のマルチモーダルモデルです。
個人的にはPythonベースのCode Interpreterが一番便利だと思います。
不定期ではありますが、現在も密かにアップデートされパフォーマンスが向上しています。
最近、知識が2024年6月までのものに更新されました。
https://x.com/btibor91/status/1867833940964520350
Mac版 ChatGPT (OpenAI)
https://help.openai.com/en/articles/9703738-macos-app-release-notes
ChatGPTのMac版アプリがリリースされました。
Option + Spaceでいつでも開けるのは便利ですね。
5月14日
Gemini 1.5 Flash ・ PaliGemma ・ Project Astra (Google)
https://blog.google/technology/ai/google-gemini-update-flash-ai-assistant-io-2024/
新たに追加された Gemini 1.5 Flash は、スピードと効率性を追求した軽量モデルで、大規模なサービスに高速かつ効率的に対応できるよう設計されています。
また、コンテキストウィンドウが200万トークンに拡張された Gemini 1.5 Pro も提供され、コード生成や論理的推論、マルチターン会話、音声と画像の理解能力が強化されています。
5月25日
suno v3.5 (Suno)
https://www.techno-edge.net/article/2024/05/25/3401.html
6月
6月6日
NotebookLM 多言語対応 (Google)
6月7日
Qwen2 (Alibaba)
https://qwenlm.github.io/blog/qwen2/
6月18日
Runway Gen-3 Alpha (Runway)
https://runwayml.com/research/introducing-gen-3-alpha
6月19日
Gemini API - Context Caching (Google)
https://ai.google.dev/gemini-api/docs/caching?lang=python&hl=ja
「Context Caching」は、入力トークンをキャッシュして、後続リクエストでキャッシュされたトークンを参照することで、コストを下げることができるものです。
6月21日
Claude 3.5 Sonnet ・ Artifacts (Anthropic)
https://www.anthropic.com/news/claude-3-5-sonnet
6月26日
Projects (Anthropic)
https://www.anthropic.com/news/projects
ユーザーはチャットをプロジェクト単位で整理し、関連する知識や活動を一箇所にまとめることができるようになりました。
6月27日
Gemma 2 (Google)
https://blog.google/technology/developers/google-gemma-2/
Gemini 1.5 Pro - 200万トークンのコンテキストウィンドウ (Google)
https://developers.googleblog.com/en/new-features-for-the-gemini-api-and-google-ai-studio/
長文の処理に対応できるようになりました。
Gemini API - Code Execution (Google)
https://ai.google.dev/gemini-api/docs/code-execution?hl=ja
モデルがPythonコードを生成・実行し、その結果を基に反復的に学習して最終的な出力を得ることができるようになりました。
CriticGPT (OpenAI)
https://openai.com/index/finding-gpt4s-mistakes-with-gpt-4/
GPT-4を基盤とした新たなモデル「CriticGPT」を開発し、ChatGPTのコード出力におけるエラー検出が強化されました。このモデルは、ChatGPTの回答を批評し、AIトレーナーが微妙な誤りを発見するのを支援します。
7月
7月2日
Runway Gen-3 Alpha (Runway)
https://runwayml.com/research/introducing-gen-3-alpha
7月3日
Gemini on Multimodal Canvas (Google)
https://labs.google/multimodal-canvas
7月8日
NoLang 2.0 (NoLang)
https://x.com/sayhi2ai_jp/status/1810083591935930668
7月10日
Artifacts - Share ・ Remix (Anthropic)
https://x.com/AnthropicAI/status/1810698780263563325
Anthropic Console - Test Case Generation ・ Output Comparison (Anthropic)
https://www.anthropic.com/news/anthropic-console-test-case-generation-output-comparison
7月11日
Claude 3 Haiku - Fine-tuning (Anthropic)
https://www.anthropic.com/news/fine-tune-claude-3-haiku
7月16日
Gemini - Google Workspace Extensions (Google)
Androidアプリ (Anthropic)
https://www.anthropic.com/news/anthropic-android-app
7月19日
GPT-4o mini (OpenAI)
https://openai.com/index/gpt-4o-mini-advancing-cost-efficient-intelligence/
7月23日
GPT-4o mini のファインチューニング (OpenAI)
https://openai.com/index/gpt-4o-mini-fine-tuning/
7月25日
SearchGPT Prototype (OpenAI)
https://openai.com/index/searchgpt-prototype/
Perplexityに対抗する形で、検索機能を搭載したモデルが限定公開されました。
AlphaProof・AlphaGeometry 2 (Google DeepMind)
https://deepmind.google/discover/blog/ai-solves-imo-problems-at-silver-medal-level/
7月31日
Gemma 2 2B (Google)
https://huggingface.co/google/gemma-2-2b
ShieldGemma (Google)
https://huggingface.co/google/shieldgemma-2b
8月
8月1日
Gemini 1.5 Pro Experimental 0801 (Google)
FLUX.1 (Flux 1 AI)
Runway Gen-3 Alpha Turbo (Runway)
https://www.techno-edge.net/article/2024/08/16/3601.html
8月6日
gpt-4o-2024-08-06・Structured Outputs (OpenAI)
https://openai.com/index/introducing-structured-outputs-in-the-api/
APIにJSONスキーマにモデルの出力を正確に一致させる新機能が追加されました。
8月12日
Gemini 1.5 Flash の価格削減 (Google)
8月13日
Gemini Live (Google)
https://blog.google/products/gemini/made-by-google-gemini-ai-updates/
Gemini版のAdvanced Voice Modeが発表されました。
LongWriter (Tsinghua University)
https://huggingface.co/THUDM/LongWriter-llama3.1-8b
論文「LongWriter: Unleashing 10,000+ Word Generation from Long Context LLMs」(arxiv: 2408.07055)に併せて公開されました。
長いコンテキストを処理できる大規模言語モデル(LLM)が、2,000語を超える長い出力を生成するのが難しいという課題に取り組んでいます。
研究者たちは、モデルの生成長が教師あり微調整(SFT)中に見たサンプルによって制約されていることを発見しました。
この問題を解決するために、彼らは「AgentWrite」というエージェントベースの手法を導入し、超長文生成タスクをサブタスクに分解することで、既存のLLMが20,000語を超える一貫した出力を生成できるようにしました。
さらに、2,000語から32,000語の出力を持つ6,000のSFTデータを含む「LongWriter-6k」データセットを構築し、モデルのトレーニングに組み込みました。
これにより、既存のモデルの出力長を10,000語以上に拡大し、出力品質を維持することに成功しました。
また、超長文生成能力を評価するための包括的なベンチマーク「LongBench-Write」も開発しました。
https://note.com/shi3zblog/n/n969d819d5f31
Grok 2 Beta (xAI)
8月15日
Prompt caching (Anthropic)
https://www.anthropic.com/news/prompt-caching
8月20日
Grok 2 (beta) (xAI)
8月21日
GPT-4o のファインチューニング (OpenAI)
https://openai.com/index/gpt-4o-fine-tuning/
Chrome 128 (Gemini Nano搭載) (Google)
https://blog.google/technology/ai/chrome-128-gemini-nano/
Google AI StudioとGemini APIのPDF読み込みが最大1000ページ(2GB) (Google)
https://x.com/OfficialLoganK/status/1825976844228694168
8月27日
gemini-1.5-pro-exp-0827 ・ gemini-1.5-flash-exp-0827 ・gemini-1.5-flash-8b-exp-0827 (Google)
GameNGen (ゲームエンジン) (Google)
https://blog.google/technology/ai/game-gen-ai-engine/
8月28日
iOSアプリのGrokの機能追加 (xAI)
Artifacts - 一般公開・iOS・Andorid (Anthropic)
Gemini - Gems ・ Imagen 3 (Google)
https://blog.google/products/gemini/google-gemini-update-august-2024/
8月29日
Qwen2-VL (VLM)
https://huggingface.co/Qwen/Qwen2-VL-7B-Instruct
8月30日
Gemini 1.5 Flash - JSON Schema Mode (Google)
9月
9月4日
Claude Enterprise Plan (Anthropic)
9月12日
OpenAI o1 Preview (OpenAI)
https://openai.com/index/introducing-openai-o1-preview/
それまでのLLMとは異なり、推論に時間をかけることで、より高精度な結果を得ることができるようになりました。特にコーディング性能が向上しています。
DataGemma (Google)
https://ai.google.dev/gemma/docs/datagemma?hl=ja
HeyGen Avatar 3.0 (HeyGen)
https://x.com/HeyGen_Official/status/1834261947815993615
9月13日
GameGen-O (ゲーム生成)
https://www.techno-edge.net/article/2024/09/20/3697.html
9月18日
Qwen2.5 (Alibaba)
https://huggingface.co/Qwen/Qwen2.5-72B-Instruct
9月24日
Advanced Voice (OpenAI)
https://openai.com/index/chatgpt-can-now-see-hear-and-speak/
9月25日
LLM-jp-3 1.8B・3.7B・13B (LLM-jp)
https://huggingface.co/llm-jp/llm-jp-3-1.8b
Llama 3.2 Vision (Meta)
https://huggingface.co/meta-llama/Llama-3.2-11B-Vision
Llama 3.2 1B・3B (Meta)
https://huggingface.co/meta-llama/Llama-3.2-1B
9月26日
AlphaChip (Google DeepMind)
https://deepmind.google/discover/blog/how-alphachip-transformed-computer-chip-design/
強化学習を活用したコンピューターチップの設計方法を発表しました。従来、チップのレイアウト設計には数週間から数ヶ月を要していましたが、AlphaChipはこれを数時間で完了し、人間の専門家と同等かそれ以上の性能を持つレイアウトを生成します。
この技術は、GoogleのカスタムAIアクセラレータであるTensor Processing Unit(TPU)の最新3世代の設計に採用され、データセンターからモバイル機器まで、世界中のハードウェアで活用されています。
omni-moderation-latest (OpenAI)
https://openai.com/index/upgrading-the-moderation-api-with-our-new-multimodal-moderation-model/
9月30日
llm-jp-3-3.7b-instruct-EZO-Humanities ・ llm-jp-3-3.7b-instruct-EZO-Common (LLM-jp)
https://huggingface.co/AXCXEPT/llm-jp-3-3.7b-instruct-EZO-Humanities
10月
10月1日
Whisper Large v3 Turbo (OpenAI)
https://huggingface.co/openai/whisper-large-v3-turbo
OpenAIが開発した音声認識モデル「Whisper large-v3」の蒸留版で、デコーダーレイヤーの数を32から4に削減することで、推論速度を約5倍に向上させています。
Realtime API (OpenAI)
https://openai.com/index/introducing-the-realtime-api/
アプリケーションに低遅延の音声対話機能を組み込むことができる Realtime API のパブリックベータ版が発表されました。
Prompt Caching (OpenAI)
https://openai.com/index/api-prompt-caching/
プロンプトキャッシングは、1,024トークンを超えるプロンプトに対して自動的に適用されます。
APIは、以前に処理されたプロンプトの最長のプレフィックスをキャッシュし、1,024トークンから開始して128トークン単位で増加します。共通のプレフィックスを持つプロンプトを再利用する場合、実装に変更を加えることなく、割引が自動的に適用されます。
Model Distillation (OpenAI)
https://openai.com/index/api-model-distillation/
開発者は高度なモデル(GPT-4o や o1-preview など)の出力を活用して、より小型でコスト効率の高いモデル(GPT-4o mini など)をファインチューニングし、特定のタスクにおいて同等の性能を実現できるようになりました。
Vision Fine-Tuning (OpenAI)
https://openai.com/index/introducing-vision-to-the-fine-tuning-api/
開発者はモデルの画像理解能力を強化できるようになりました。
10月2日
FLUX 1.1 [pro] ・ BFL API (BlackForestLabs)
https://blackforestlabs.ai/announcing-flux-1-1-pro-and-the-bfl-api/
10月3日
gemma-2-2b-jpn-it (Google)
https://huggingface.co/google/gemma-2-2b-jpn-it
Gemma 2 Baku 2B (rinna)
https://huggingface.co/rinna/gemma-2-baku-2b
Canvas Beta版 (OpenAI)
https://openai.com/index/introducing-canvas/
Gemini 1.5 Flash-8B (Google)
https://developers.googleblog.com/en/gemini-15-flash-8b-is-now-generally-available-for-use/
10月4日
Meta Movie Gen (Meta)
https://ai.meta.com/research/movie-gen/
10月8日
ノーベル物理学賞
10月9日
ノーベル化学賞
Llama-3.1-Nemotron-70B (NVIDIA)
https://huggingface.co/nvidia/Llama-3.1-Nemotron-70B-Instruct-HF
Open-Sora-Plan-v1.3.0 (LanguageBind)
https://huggingface.co/LanguageBind/Open-Sora-Plan-v1.3.0
10月17日
Windows版 ChatGPT (OpenAI)
10月22日
claude-3-5-sonnet-20241022 (Anthropic)
Computer use (Anthropic)
https://www.anthropic.com/news/3-5-models-and-computer-use
mochi-1-preview (動画生成)
https://www.mochi1preview.com/
Stable Diffusion 3.5 Large ・ Stable Diffusion 3.5 Large Turbo (Stability AI)
https://stability.ai/news/introducing-stable-diffusion-3-5
OmniGen (VectorSpaceLab)
https://github.com/VectorSpaceLab/OmniGen
VectorSpaceLabが開発した統合型画像生成モデルで、テキストからの画像生成、画像編集、特定の対象に基づく生成など、多様なタスクに対応しています。
10月23日
Gemini Live - 日本語対応 (Google)
https://blog.google/intl/ja-jp/company-news/technology/gemini-live/
SynthID (Google DeepMind)
https://deepmind.google/technologies/synthid/
AI生成コンテンツの識別ツールで、画像、音声、テキスト、動画などのAI生成コンテンツにデジタル透かしを埋め込み、識別が可能になります。
10月24日
Combining Machine Learning and Homomorphic Encryption (Apple)
https://machinelearning.apple.com/research/homomorphic-encryption
今回取り上げる中で唯一のAppleの研究です。
暗号化したままベクトル演算可能になるという驚きの内容でした。ざっくりいうと、公開鍵暗号で暗号化しサーバーで演算し、クライアントは秘密鍵で復号するというものです。暗号化されることで増える演算やサイズのオーバーヘッドなどの問題はありますが、プライバシーを重視してるAppleにとっては核心的な技術ではないでしょうか。
10月29日
Stable Diffusion 3.5 Medium (Stability AI)
https://huggingface.co/stabilityai/stable-diffusion-3.5-medium
10月30日
SimpleQA (OpenAI)
https://openai.com/index/introducing-simpleqa/
AIモデルの事実性を評価するためのベンチマーク方法です。
recraft v3 (Recraft AI)
10月31日
ChatGPT search (OpenAI)
https://openai.com/index/introducing-chatgpt-search/
SearchGPTの製品版です。GPT-4oに統合されました。
Claude for Desktop (Anthropic)
https://www.anthropic.com/news/claude-for-desktop
Grounding with Google Search (Google)
Gemini版ChatGPT Searchです。
旅行プランの作成などでは、ChatGPT Searchよりも優れたパフォーマンスを示しています。
Oasis (Etched)
https://oasis-model.github.io/
AIによってリアルタイムで生成されるオープンワールドのゲームモデルです。
移動、ジャンプ、アイテムの取得、ブロックの破壊など、多彩なアクションが可能です。
11月
11月1日
DMMボイス (Algomatic)
https://note.com/1230yuji/n/n2c9da487efaa
国産の音声合成サービスです。しかしながら、想定以上にアクセスが集中したため、リリースから一週間待たずにサービスを停止しました。
PDF support (Anthropic)
https://docs.anthropic.com/en/docs/build-with-claude/pdf-support
PDF内のテキストだけでなく、グラフを分析し、視覚的な情報を理解できるようになりました。
11月2日
Token counting (Anthropic)
https://docs.anthropic.com/en/docs/build-with-claude/token-counting
メッセージをClaudeに送信する前にメッセージ内のトークン数を確認できるようになりました。
11月4日
Claude 3.5 Haiku (Anthropic)
https://www.anthropic.com/claude/haiku
Predicted Outputs (OpenAI)
https://platform.openai.com/docs/guides/predicted-outputs
文章やコードの一部に編集を加えるなど、出力のある程度が決まっているときに、APIのリクエストで明示することで、出力のレイテンシを短縮できるようになりました。
11月12日
Qwen2.5-Coder 32B (Alibaba)
https://huggingface.co/Qwen/Qwen2.5-Coder-32B
ローカルで動かせるコーディング特化型のモデルです。
11月13日
DeepL Voice (DeepL)
https://www.deepl.com/ja/blog/deepl-voice
11月19日
suno v4 (suno)
https://www.techno-edge.net/article/2024/11/20/3841.html
11月20日
gpt-4o-2024-11-20 (OpenAI)
LLM-jp-3 VILA 14B (LLM-jp)
https://huggingface.co/llm-jp/llm-jp-3-vila-14b
AivisSpeech (Aivis Project)
にじボイス (Algomatic)
https://note.com/1230yuji/n/nc3c0899c0dbc
DMMボイスが改名し、サービスを再開しました。
11月23日
OminiControl (National University of Singapore)
https://huggingface.co/papers/2411.15098
FLUXベースのモデルです。制御性の大きな向上と、入力画像の出力への反映が可能になりました。
12月
12月4日
Veo ・ Imagen 3 (Google)
https://blog.google/technology/google-labs/video-image-generation-update-december-2024/
12月5日
PaliGemma 2 (Google)
https://huggingface.co/google/paligemma-3b-pt-224
12月6日
o1 ・ ChatGPT Pro (OpenAI)
https://openai.com/index/introducing-chatgpt-pro/
preview版だったo1が正式版となりました。o1は、与えられたタスクに応じて、思考時間を変えて、簡単なタスクは短時間で、難しいタスクは長時間で処理することができるようになりました。また、o1 pro modeが追加され、さらに長時間かけてより高精度な結果を得ることができるようになりました。
ChatGPT Plusの上位プランであるChatGPT Proでは、o1 pro modeが利用可能になり、o1 pro mode以外の全てのモデルが無制限で利用できるようになりました。
HunyuanVideo (Tencent)
https://github.com/Tencent/HunyuanVideo
12月7日
Grok 2 + Aurora (xAI)
https://x.ai/blog/grok-image-generation-release
Reinforcement Fine-Tuning (OpenAI)
https://openai.com/form/rft-research-program/
特定の専門分野における複雑なタスクに特化した「エキスパートモデル」を作成するための新たなモデルカスタマイズ手法です。
開発者が数十から数千の高品質なタスクを使用し、モデルの応答を提供された参考解答と比較して評価することで、モデルの推論能力を強化し、特定のドメインにおけるタスクの精度を向上させる手法です。
Llama 3.3 70B (Meta)
https://huggingface.co/meta-llama/Llama-3.3-70B-Instruct
Qwen2-VL-72B (Alibaba)
https://huggingface.co/Qwen/Qwen2-VL-72B
12月9日
Sora (OpenAI)
https://openai.com/index/sora-is-here/
12月11日
Gemini 2.0 Flash Experimental (Google)
https://blog.google/technology/google-deepmind/google-gemini-ai-update-december-2024/
Gemini Deep Research (Google)
https://blog.google/products/gemini/google-gemini-deep-research/
Spatial Understanding (Google)
https://note.com/npaka/n/n9c90b4f3b580
Project Mariner (Google DeepMind)
https://deepmind.google/technologies/project-mariner/
Advanced Voice with Video (OpenAI)
https://openai.com/index/introducing-advanced-voice-with-video/
12月10日
Canvas の新機能 (OpenAI)
https://openai.com/index/introducing-canvas-new-features/
Canvas に容易にアクセスできるようになり、Pythonのコードを実行できるようになりました。
12月12日
にじボイスAPI (Algomatic)
https://note.com/1230yuji/n/n2c9da487efaa
12月13日
ChatGPT Projects (OpenAI)
https://openai.com/blog/chatgpt-projects/
NotebookLM Plus (Google)
https://blog.google/technology/google-labs/notebooklm-new-features-december-2024/
napakaさんのnote記事を参考にさせていただきました。
おわりに
いかがでしたか?とにかく量が多すぎてまとめるのが大変だったので、目を通していただけたら幸いです。
2025年が早くも楽しみです。AIがちょっとずつ進化して気づいたらすごい領域に達してそうな気がしてます。
また、ローカルで動かせるような日本語に特化した国産LLMが登場してくれると嬉しいです。日本語に特化したトークン化などでもっと最適化の余地はあると思うので。
最近、AIの軍事利用や利益の確保などが問題視されていますが、これらの課題は技術をどう管理し活用するかにかかっています。適切な倫理基準と規制を設けることで、AIの潜在的なリスクを最小限に抑え、社会全体にとって有益な方向へ進化させることが可能です。
AIは火や電気のように人類史に残る可能性のある発明のひとつであり、その可能性をどう活かすかは私たち次第です。火が道具として生活を豊かにした一方で、乱用すれば災いをもたらすように、AIもその活用次第で人類の福祉に大きく貢献することができます。だからこそ、私たちは賢くこの「新しい火」を扱い、次世代に希望を与える技術として発展させる責任があります。
(ps.この段落はChatGPTに書いてもらいました)
人類の最大の敵はAIではなく人類自身なので。