2024年のAI関連ニュースを振り返る
    2024/12/18

    2024年のAI関連ニュースを振り返る

    KomiyaJapan 2024/12/18

    はじめに

    こんにちは。こみじゃぱと申します。

    2022年にChatGPTがリリースされ早くも2年が経ちました。
    AI業界はこの2年間で驚異的な進化を遂げ、私たちの生活や仕事に大きな影響を与えています。生成AIはもちろん、画像生成や音声認識、さらにはマルチモーダルAIといった新しい分野にも注目が集まっています。

    新しい論文やモデルが毎日のように出るので、今年でた主要なモデルをまとめました。主に大手3社(OpenAI、Google、Anthropic)を中心にまとめています。
    毎日の論文をキャッチアップしたい場合は以下をみていただくと良いと思います。

    Daily Papers - Hugging Face
    Your daily dose of AI research from AK
    Hugging Face

    2024年 AIリリース表

    1月

    1月17日

    AlphaGeometry (Google DeepMind)

    https://deepmind.google/discover/blog/alphageometry-an-olympiad-level-ai-system-for-geometry/

    国際数学オリンピックの幾何学問題を人間の金メダリストに匹敵するレベルで解くことができるモデルです。AlphaGeometryは30問中25問を制限時間内に解答し、これは平均的な金メダリストの成績(25.9問)に近い成績です。システム自身がランダムに図形を生成し、そこから問題を作成して自己学習を行うことで、人間のデモンストレーションに依存せず、高度な幾何学的推論能力を獲得しました。

    1月25日

    GPT-4 Turbo with VisionとEmbeddingの新モデルの追加 と APIの更新 (OpenAI)

    https://openai.com/index/new-embedding-models-and-api-updates/

    埋め込みの次元数を調整することで、性能とコストのバランスを柔軟に取ることが可能になりました。

    1月31日

    MobileDiffusion (Google Research)

    https://research.google/blog/mobilediffusion-rapid-text-to-image-generation-on-device/

    モバイル向けの高速テキスト画像生成モデルです。推論時に1ステップでサンプリングを行うことで、512×512ピクセルの高品質な画像を0.5秒以内で生成可能になりました。

    2月

    2月4日

    Qwen1.5 (Alibaba)

    https://qwenlm.github.io/blog/qwen1.5/

    日本語を含む多言語に対応し、長いコンテキストに対するパフォーマンスが向上しました。

    2月6日

    Runway Gen-1 (Runway)

    https://runwayml.com/research/gen-1

    任意の画像やテキストのスタイルを動画の各フレームに適用するスタイライゼーションや、動画の特定部分に効果を適用し選択的な編集を可能にするマスクに対応しました。
    テクスチャのないレンダリング映像を、入力画像やテキストの指示に基づいてリアルな出力に変換することができるようになりました。

    2月8日

    BardとDuet AIをGeminiに改名 (Google)

    https://blog.google/intl/ja-jp/company-news/technology/bard-gemini-ultra-jp/

    Gemini Advanced(Google)

    Gemini 1.0 Ultra(Google)

    2月14日

    ChatGPTのメモリと新コントロール (OpenAI)

    https://openai.com/index/memory-and-new-controls-for-chatgpt/

    ChatGPTの新機能「メモリ」が登場し、ユーザーとの対話内容を記憶し、将来の会話でよりパーソナライズされた応答が可能になりました。

    2月16日

    Gemini 1.5 (Google DeepMind)

    https://blog.google/technology/ai/google-gemini-next-generation-model-february-2024/

    Sora (OpenAI)

    https://openai.com/index/video-generation-models-as-world-simulators/

    標準で128,000トークンのコンテキストウィンドウに対応し、一部の開発者や企業向けには最大100万トークンのコンテキストウィンドウに対応しました。

    2月21日

    Gemma (Google)

    https://blog.google/technology/ai/gemma-open-models-february-2024/

    軽量オープンモデルファミリー

    2月22日

    Stable Diffusion 3 (Stability AI)

    https://stability.ai/news/stable-diffusion-3

    Stable Diffusion 3は、複数の主題を含むプロンプトへの対応力、画像品質、文字の再現能力が大幅に向上しています。 このモデルは、800Mから8Bのパラメータを持つ複数のバリエーションが提供されました。

    3月

    3月4日

    Claude 3 Opus・Sonnet (Anthropic)

    https://www.anthropic.com/news/claude-3-family

    高速かつコスト効率に優れたモデルで、短時間での処理が求められるタスクに適したClaude 3 Haiku、知性と速度のバランスが取れたモデルで、迅速な応答が必要なタスクに最適なClaude 3 Sonnet、最も高性能なモデルで、複雑な分析や高度な推論を必要とするタスクに対応したClaude 3 Opusが発表されました。

    3月13日

    SIMA (Google DeepMind)

    https://deepmind.google/discover/blog/sima-generalist-ai-agent-for-3d-virtual-environments/

    3D仮想環境で自然言語の指示に従いタスクを実行できる汎用AIエージェント「SIMA(Scalable Instructable Multiworld Agent)」です。
    SIMAは、視覚情報と自然言語の指示を理解し、キーボードやマウスを用いて人間のように環境と対話します。

    SIMAの目的は、高得点を獲得することではなく、人間の指示に従って行動する能力を持つAIエージェントの開発にあり、この研究は、AIシステムの実世界での応用可能性を高めることを目指しています。

    Figure 1 の進捗発表 (OpenAI)

    https://x.com/Figure_robot/status/1767913661253984474

    3月14日

    Claude 3 Haiku (Anthropic)

    https://www.anthropic.com/news/claude-3-haiku

    3月17日

    Grok 1 (xAI)

    https://x.ai/blog/grok-os

    3140億パラメータを持つ大規模言語モデル「Grok-1」の基礎モデルの重みとネットワークアーキテクチャが公開されました。
    Grok-1は、Mixture-of-Expertsアーキテクチャを採用し、トークンごとに25%の重みが活性化される設計となっています。

    3月19日

    Stable Video 3D (Stability AI)

    https://stability.ai/news/introducing-stable-video-3d

    単一の画像から高品質な新規視点の動画や3Dメッシュを生成するモデル「Stable Video 3D(SV3D)」です。SV3Dは、Stable Video Diffusionを基盤とし、カメラの調整なしで、単一の画像からオービタル動画を生成するSV3D_uと、単一の画像やオービタルビューに対応し、指定されたカメラパスに沿った3D動画の作成が可能なSV3D_pの2つを提供しています。

    3月21日

    RakutenAI-7B (Rakuten)

    https://corp.rakuten.co.jp/news/press/2024/0321_01.html

    日本語に最適化された高性能な大規模言語モデル(LLM)「Rakuten AI 7B」シリーズが公開されました。

    このシリーズには、基盤モデル「Rakuten AI 7B」、インストラクションチューニング済モデル「Rakuten AI 7B Instruct」、およびチャットモデル「Rakuten AI 7B Chat」が含まれています。

    これらのモデルは、オープンソースとして提供されており、Apache 2.0ライセンスの下で利用可能です。

    「Rakuten AI 7B」は、フランスのAIスタートアップであるMistral AI社のオープンモデル「Mistral-7B-v0.1」を基に、楽天が独自に大規模な日本語と英語のデータを用いて事前学習を行った70億パラメータの基盤モデルです。

    suno v3 (suno)

    https://suno.com/blog/v3

    3月23日

    ChatGPT plugins (OpenAI)

    https://openai.com/index/chatgpt-plugins/

    GitHub Copilot X (GitHub)

    https://github.blog/news-insights/product-news/github-copilot-x-the-ai-powered-developer-experience/

    3月28日

    Grok 1.5 (xAI)

    https://x.ai/blog/grok-1.5

    Qwen1.5-MoE (Alibaba)

    https://qwenlm.github.io/blog/qwen-moe/

    このモデルは、活性化パラメータ数が27億と少ないにもかかわらず、Mistral 7BやQwen1.5-7Bなどの最先端の70億パラメータモデルと同等の性能を発揮します。
    さらに、トレーニングコストを75%削減し、推論速度を1.74倍に向上させることに成功しています。

    3月30日

    Voice Engine (OpenAI)

    https://openai.com/index/navigating-the-challenges-and-opportunities-of-synthetic-voices/

    このモデルは、テキスト入力と15秒の音声サンプルから、元の話者に近い自然な音声を生成できます。

    4月

    4月2日

    Qwen1.5-32B (Alibaba)

    https://qwenlm.github.io/blog/qwen1.5/

    4月3日

    Stable Audio 2.0 (Stability AI)

    https://stability.ai/news/stable-audio-2-0

    4月4日

    新ファインチューニングAPI (OpenAI)

    https://openai.com/index/introducing-improvements-to-the-fine-tuning-api-and-expanding-our-custom-models-program/

    各トレーニングエポックごとに完全なファインチューニング済みモデルのチェックポイントを自動生成し、再トレーニングの必要性を削減するエポックベースのチェックポイント作成、複数のモデルやファインチューニングスナップショットの出力を並べて比較し、人間による評価を可能にする新しいUIが追加されました。

    4月7日

    Open-Sora Plan

    https://x.com/LinBin46984/status/1776899920538014044

    非公開のSoraに対抗したオープンソースの動画生成モデルが公開されました。

    4月8日

    Stable LM 2 12B (Stability AI)

    https://stability.ai/news/introducing-stable-lm-2-12b

    4月10日

    Google Vids (Google)

    https://workspace.google.com/blog/product-announcements/new-generative-ai-and-security-innovations

    Google Workspaceに新しいAI搭載の動画作成アプリが追加されました。

    udio (Udio)

    https://x.com/udiomusic/status/1778045322654003448

    Sunoに対抗する形で、新しい音楽生成モデルが公開されました。

    4月12日

    Grok 1.5 Vision (xAI)

    https://x.ai/blog/grok-1.5v

    4月15日

    OpenAI Japan 設立 (OpenAI)

    https://openai.com/index/introducing-openai-japan/

    4月18日

    Llama 3 (Meta)

    https://ai.meta.com/blog/meta-llama-3/

    MetaのオープンソースLLMであるこのモデルは、8B(80億)と70B(700億)のパラメータを持つ事前学習済みおよび指示調整済みの言語モデルで、幅広いユースケースに対応しています。

    4月26日

    Qwen/Qwen1.5-110B (Alibaba)

    https://qwenlm.github.io/blog/qwen1.5-110b/

    Transformerデコーダーアーキテクチャを採用し、Grouped Query Attention(GQA)を組み込むことで、推論時の効率性を向上させています。また、最大32,000トークンのコンテキストを処理可能で、長文の理解や生成に対応しています。

    4月30日

    LLM-jp-13B v2.0 (LLM-jp)

    https://llm-jp.nii.ac.jp/blog/2024/04/30/v2.0-release.html

    5月

    5月8日

    AlphaFold 3 (Google DeepMind)

    https://deepmind.google/discover/blog/alphafold-3-a-new-era-of-protein-structure-prediction/

    タンパク質だけでなく、DNA、RNA、リガンドなど、生命のあらゆる分子の構造と相互作用を高精度で予測しできるモデルです。

    AlphaFold 2の成果を基に、改良されたEvoformerモジュールとディフュージョンネットワークを組み合わせ、分子構造の予測精度を向上させています。また、複数の分子間の相互作用や化学修飾を考慮した複合体の構造予測が可能で、細胞内での分子の機能や疾患の理解に貢献します。

    5月9日

    Japanese Stable LM 2 1.6B (Stability AI)

    https://ja.stability.ai/blog/japanese-stable-lm-2-16b

    5月13日

    GPT-4o (OpenAI)

    https://openai.com/index/hello-gpt-4o/

    もはや説明するまでもありませんが、OpenAIの最新のマルチモーダルモデルです。
    個人的にはPythonベースのCode Interpreterが一番便利だと思います。

    不定期ではありますが、現在も密かにアップデートされパフォーマンスが向上しています。
    最近、知識が2024年6月までのものに更新されました。

    https://x.com/btibor91/status/1867833940964520350

    Mac版 ChatGPT (OpenAI)

    https://help.openai.com/en/articles/9703738-macos-app-release-notes

    ChatGPTのMac版アプリがリリースされました。
    Option + Spaceでいつでも開けるのは便利ですね。

    5月14日

    Gemini 1.5 Flash ・ PaliGemma ・ Project Astra (Google)

    https://blog.google/technology/ai/google-gemini-update-flash-ai-assistant-io-2024/

    新たに追加された Gemini 1.5 Flash は、スピードと効率性を追求した軽量モデルで、大規模なサービスに高速かつ効率的に対応できるよう設計されています。

    また、コンテキストウィンドウが200万トークンに拡張された Gemini 1.5 Pro も提供され、コード生成や論理的推論、マルチターン会話、音声と画像の理解能力が強化されています。

    5月25日

    suno v3.5 (Suno)

    https://www.techno-edge.net/article/2024/05/25/3401.html

    6月

    6月6日

    NotebookLM 多言語対応 (Google)

    6月7日

    Qwen2 (Alibaba)

    https://qwenlm.github.io/blog/qwen2/

    6月18日

    Runway Gen-3 Alpha (Runway)

    https://runwayml.com/research/introducing-gen-3-alpha

    6月19日

    Gemini API - Context Caching (Google)

    https://ai.google.dev/gemini-api/docs/caching?lang=python&hl=ja

    「Context Caching」は、入力トークンをキャッシュして、後続リクエストでキャッシュされたトークンを参照することで、コストを下げることができるものです。

    6月21日

    Claude 3.5 Sonnet ・ Artifacts (Anthropic)

    https://www.anthropic.com/news/claude-3-5-sonnet

    6月26日

    Projects (Anthropic)

    https://www.anthropic.com/news/projects

    ユーザーはチャットをプロジェクト単位で整理し、関連する知識や活動を一箇所にまとめることができるようになりました。

    6月27日

    Gemma 2 (Google)

    https://blog.google/technology/developers/google-gemma-2/

    Gemini 1.5 Pro - 200万トークンのコンテキストウィンドウ (Google)

    https://developers.googleblog.com/en/new-features-for-the-gemini-api-and-google-ai-studio/

    長文の処理に対応できるようになりました。

    Gemini API - Code Execution (Google)

    https://ai.google.dev/gemini-api/docs/code-execution?hl=ja

    モデルがPythonコードを生成・実行し、その結果を基に反復的に学習して最終的な出力を得ることができるようになりました。

    CriticGPT (OpenAI)

    https://openai.com/index/finding-gpt4s-mistakes-with-gpt-4/

    GPT-4を基盤とした新たなモデル「CriticGPT」を開発し、ChatGPTのコード出力におけるエラー検出が強化されました。このモデルは、ChatGPTの回答を批評し、AIトレーナーが微妙な誤りを発見するのを支援します。

    7月

    7月2日

    Runway Gen-3 Alpha (Runway)

    https://runwayml.com/research/introducing-gen-3-alpha

    7月3日

    Gemini on Multimodal Canvas (Google)

    https://labs.google/multimodal-canvas

    7月8日

    NoLang 2.0 (NoLang)

    https://x.com/sayhi2ai_jp/status/1810083591935930668

    7月10日

    Artifacts - Share ・ Remix (Anthropic)

    https://x.com/AnthropicAI/status/1810698780263563325

    Anthropic Console - Test Case Generation ・ Output Comparison (Anthropic)

    https://www.anthropic.com/news/anthropic-console-test-case-generation-output-comparison

    7月11日

    Claude 3 Haiku - Fine-tuning (Anthropic)

    https://www.anthropic.com/news/fine-tune-claude-3-haiku

    7月16日

    Gemini - Google Workspace Extensions (Google)

    Androidアプリ (Anthropic)

    https://www.anthropic.com/news/anthropic-android-app

    7月19日

    GPT-4o mini (OpenAI)

    https://openai.com/index/gpt-4o-mini-advancing-cost-efficient-intelligence/

    7月23日

    GPT-4o mini のファインチューニング (OpenAI)

    https://openai.com/index/gpt-4o-mini-fine-tuning/

    7月25日

    SearchGPT Prototype (OpenAI)

    https://openai.com/index/searchgpt-prototype/

    Perplexityに対抗する形で、検索機能を搭載したモデルが限定公開されました。

    AlphaProof・AlphaGeometry 2 (Google DeepMind)

    https://deepmind.google/discover/blog/ai-solves-imo-problems-at-silver-medal-level/

    7月31日

    Gemma 2 2B (Google)

    https://huggingface.co/google/gemma-2-2b

    ShieldGemma (Google)

    https://huggingface.co/google/shieldgemma-2b

    8月

    8月1日

    Gemini 1.5 Pro Experimental 0801 (Google)

    FLUX.1 (Flux 1 AI)

    https://flux.ai/

    Runway Gen-3 Alpha Turbo (Runway)

    https://www.techno-edge.net/article/2024/08/16/3601.html

    8月6日

    gpt-4o-2024-08-06・Structured Outputs (OpenAI)

    https://openai.com/index/introducing-structured-outputs-in-the-api/

    APIにJSONスキーマにモデルの出力を正確に一致させる新機能が追加されました。

    8月12日

    Gemini 1.5 Flash の価格削減 (Google)

    8月13日

    Gemini Live (Google)

    https://blog.google/products/gemini/made-by-google-gemini-ai-updates/

    Gemini版のAdvanced Voice Modeが発表されました。

    LongWriter (Tsinghua University)

    https://huggingface.co/THUDM/LongWriter-llama3.1-8b

    論文「LongWriter: Unleashing 10,000+ Word Generation from Long Context LLMs」(arxiv: 2408.07055)に併せて公開されました。

    長いコンテキストを処理できる大規模言語モデル(LLM)が、2,000語を超える長い出力を生成するのが難しいという課題に取り組んでいます。

    研究者たちは、モデルの生成長が教師あり微調整(SFT)中に見たサンプルによって制約されていることを発見しました。

    この問題を解決するために、彼らは「AgentWrite」というエージェントベースの手法を導入し、超長文生成タスクをサブタスクに分解することで、既存のLLMが20,000語を超える一貫した出力を生成できるようにしました。

    さらに、2,000語から32,000語の出力を持つ6,000のSFTデータを含む「LongWriter-6k」データセットを構築し、モデルのトレーニングに組み込みました。

    これにより、既存のモデルの出力長を10,000語以上に拡大し、出力品質を維持することに成功しました。

    また、超長文生成能力を評価するための包括的なベンチマーク「LongBench-Write」も開発しました。

    https://note.com/shi3zblog/n/n969d819d5f31

    Grok 2 Beta (xAI)

    https://x.ai/blog/grok-2

    8月15日

    Prompt caching (Anthropic)

    https://www.anthropic.com/news/prompt-caching

    8月20日

    Grok 2 (beta) (xAI)

    https://x.ai/blog/grok-2

    8月21日

    GPT-4o のファインチューニング (OpenAI)

    https://openai.com/index/gpt-4o-fine-tuning/

    Chrome 128 (Gemini Nano搭載) (Google)

    https://blog.google/technology/ai/chrome-128-gemini-nano/

    Google AI StudioとGemini APIのPDF読み込みが最大1000ページ(2GB) (Google)

    https://x.com/OfficialLoganK/status/1825976844228694168

    8月27日

    gemini-1.5-pro-exp-0827 ・ gemini-1.5-flash-exp-0827 ・gemini-1.5-flash-8b-exp-0827 (Google)

    GameNGen (ゲームエンジン) (Google)

    https://blog.google/technology/ai/game-gen-ai-engine/

    8月28日

    iOSアプリのGrokの機能追加 (xAI)

    Artifacts - 一般公開・iOS・Andorid (Anthropic)

    Gemini - Gems ・ Imagen 3 (Google)

    https://blog.google/products/gemini/google-gemini-update-august-2024/

    8月29日

    Qwen2-VL (VLM)

    https://huggingface.co/Qwen/Qwen2-VL-7B-Instruct

    8月30日

    Gemini 1.5 Flash - JSON Schema Mode (Google)

    9月

    9月4日

    Claude Enterprise Plan (Anthropic)

    9月12日

    OpenAI o1 Preview (OpenAI)

    https://openai.com/index/introducing-openai-o1-preview/

    それまでのLLMとは異なり、推論に時間をかけることで、より高精度な結果を得ることができるようになりました。特にコーディング性能が向上しています。

    DataGemma (Google)

    https://ai.google.dev/gemma/docs/datagemma?hl=ja

    HeyGen Avatar 3.0 (HeyGen)

    https://x.com/HeyGen_Official/status/1834261947815993615

    9月13日

    GameGen-O (ゲーム生成)

    https://www.techno-edge.net/article/2024/09/20/3697.html

    9月18日

    Qwen2.5 (Alibaba)

    https://huggingface.co/Qwen/Qwen2.5-72B-Instruct

    9月24日

    Advanced Voice (OpenAI)

    https://openai.com/index/chatgpt-can-now-see-hear-and-speak/

    9月25日

    LLM-jp-3 1.8B・3.7B・13B (LLM-jp)

    https://huggingface.co/llm-jp/llm-jp-3-1.8b

    Llama 3.2 Vision (Meta)

    https://huggingface.co/meta-llama/Llama-3.2-11B-Vision

    Llama 3.2 1B・3B (Meta)

    https://huggingface.co/meta-llama/Llama-3.2-1B

    9月26日

    AlphaChip (Google DeepMind)

    https://deepmind.google/discover/blog/how-alphachip-transformed-computer-chip-design/

    強化学習を活用したコンピューターチップの設計方法を発表しました。従来、チップのレイアウト設計には数週間から数ヶ月を要していましたが、AlphaChipはこれを数時間で完了し、人間の専門家と同等かそれ以上の性能を持つレイアウトを生成します。

    この技術は、GoogleのカスタムAIアクセラレータであるTensor Processing Unit(TPU)の最新3世代の設計に採用され、データセンターからモバイル機器まで、世界中のハードウェアで活用されています。

    omni-moderation-latest (OpenAI)

    https://openai.com/index/upgrading-the-moderation-api-with-our-new-multimodal-moderation-model/

    9月30日

    llm-jp-3-3.7b-instruct-EZO-Humanities ・ llm-jp-3-3.7b-instruct-EZO-Common (LLM-jp)

    https://huggingface.co/AXCXEPT/llm-jp-3-3.7b-instruct-EZO-Humanities

    10月

    10月1日

    Whisper Large v3 Turbo (OpenAI)

    https://huggingface.co/openai/whisper-large-v3-turbo

    OpenAIが開発した音声認識モデル「Whisper large-v3」の蒸留版で、デコーダーレイヤーの数を32から4に削減することで、推論速度を約5倍に向上させています。

    Realtime API (OpenAI)

    https://openai.com/index/introducing-the-realtime-api/

    アプリケーションに低遅延の音声対話機能を組み込むことができる Realtime API のパブリックベータ版が発表されました。

    Prompt Caching (OpenAI)

    https://openai.com/index/api-prompt-caching/

    プロンプトキャッシングは、1,024トークンを超えるプロンプトに対して自動的に適用されます。

    APIは、以前に処理されたプロンプトの最長のプレフィックスをキャッシュし、1,024トークンから開始して128トークン単位で増加します。共通のプレフィックスを持つプロンプトを再利用する場合、実装に変更を加えることなく、割引が自動的に適用されます。

    Model Distillation (OpenAI)

    https://openai.com/index/api-model-distillation/

    開発者は高度なモデル(GPT-4o や o1-preview など)の出力を活用して、より小型でコスト効率の高いモデル(GPT-4o mini など)をファインチューニングし、特定のタスクにおいて同等の性能を実現できるようになりました。

    Vision Fine-Tuning (OpenAI)

    https://openai.com/index/introducing-vision-to-the-fine-tuning-api/

    開発者はモデルの画像理解能力を強化できるようになりました。

    10月2日

    FLUX 1.1 [pro] ・ BFL API (BlackForestLabs)

    https://blackforestlabs.ai/announcing-flux-1-1-pro-and-the-bfl-api/

    10月3日

    gemma-2-2b-jpn-it (Google)

    https://huggingface.co/google/gemma-2-2b-jpn-it

    Gemma 2 Baku 2B (rinna)

    https://huggingface.co/rinna/gemma-2-baku-2b

    Canvas Beta版 (OpenAI)

    https://openai.com/index/introducing-canvas/

    Gemini 1.5 Flash-8B (Google)

    https://developers.googleblog.com/en/gemini-15-flash-8b-is-now-generally-available-for-use/

    10月4日

    Meta Movie Gen (Meta)

    https://ai.meta.com/research/movie-gen/

    10月8日

    ノーベル物理学賞

    10月9日

    ノーベル化学賞

    Llama-3.1-Nemotron-70B (NVIDIA)

    https://huggingface.co/nvidia/Llama-3.1-Nemotron-70B-Instruct-HF

    Open-Sora-Plan-v1.3.0 (LanguageBind)

    https://huggingface.co/LanguageBind/Open-Sora-Plan-v1.3.0

    10月17日

    Windows版 ChatGPT (OpenAI)

    10月22日

    claude-3-5-sonnet-20241022 (Anthropic)

    Computer use (Anthropic)

    https://www.anthropic.com/news/3-5-models-and-computer-use

    mochi-1-preview (動画生成)

    https://www.mochi1preview.com/

    Stable Diffusion 3.5 Large ・ Stable Diffusion 3.5 Large Turbo (Stability AI)

    https://stability.ai/news/introducing-stable-diffusion-3-5

    OmniGen (VectorSpaceLab)

    https://github.com/VectorSpaceLab/OmniGen

    VectorSpaceLabが開発した統合型画像生成モデルで、テキストからの画像生成、画像編集、特定の対象に基づく生成など、多様なタスクに対応しています。

    10月23日

    Gemini Live - 日本語対応 (Google)

    https://blog.google/intl/ja-jp/company-news/technology/gemini-live/

    SynthID (Google DeepMind)

    https://deepmind.google/technologies/synthid/

    AI生成コンテンツの識別ツールで、画像、音声、テキスト、動画などのAI生成コンテンツにデジタル透かしを埋め込み、識別が可能になります。

    10月24日

    Combining Machine Learning and Homomorphic Encryption (Apple)

    https://machinelearning.apple.com/research/homomorphic-encryption

    今回取り上げる中で唯一のAppleの研究です。

    暗号化したままベクトル演算可能になるという驚きの内容でした。ざっくりいうと、公開鍵暗号で暗号化しサーバーで演算し、クライアントは秘密鍵で復号するというものです。暗号化されることで増える演算やサイズのオーバーヘッドなどの問題はありますが、プライバシーを重視してるAppleにとっては核心的な技術ではないでしょうか。

    10月29日

    Stable Diffusion 3.5 Medium (Stability AI)

    https://huggingface.co/stabilityai/stable-diffusion-3.5-medium

    10月30日

    SimpleQA (OpenAI)

    https://openai.com/index/introducing-simpleqa/

    AIモデルの事実性を評価するためのベンチマーク方法です。

    recraft v3 (Recraft AI)

    https://www.recraft.ai/blog/recraft-introduces-a-revolutionary-ai-model-that-thinks-in-design-language

    10月31日

    ChatGPT search (OpenAI)

    https://openai.com/index/introducing-chatgpt-search/

    SearchGPTの製品版です。GPT-4oに統合されました。

    Claude for Desktop (Anthropic)

    https://www.anthropic.com/news/claude-for-desktop

    Grounding with Google Search (Google)

    https://developers.googleblog.com/en/gemini-api-and-ai-studio-now-offer-grounding-with-google-search/

    Gemini版ChatGPT Searchです。
    旅行プランの作成などでは、ChatGPT Searchよりも優れたパフォーマンスを示しています。

    Oasis (Etched)

    https://oasis-model.github.io/

    AIによってリアルタイムで生成されるオープンワールドのゲームモデルです。
    移動、ジャンプ、アイテムの取得、ブロックの破壊など、多彩なアクションが可能です。

    11月

    11月1日

    DMMボイス (Algomatic)

    https://note.com/1230yuji/n/n2c9da487efaa

    国産の音声合成サービスです。しかしながら、想定以上にアクセスが集中したため、リリースから一週間待たずにサービスを停止しました。

    PDF support (Anthropic)

    https://docs.anthropic.com/en/docs/build-with-claude/pdf-support

    PDF内のテキストだけでなく、グラフを分析し、視覚的な情報を理解できるようになりました。

    11月2日

    Token counting (Anthropic)

    https://docs.anthropic.com/en/docs/build-with-claude/token-counting

    メッセージをClaudeに送信する前にメッセージ内のトークン数を確認できるようになりました。

    11月4日

    Claude 3.5 Haiku (Anthropic)

    https://www.anthropic.com/claude/haiku

    Predicted Outputs (OpenAI)

    https://platform.openai.com/docs/guides/predicted-outputs

    文章やコードの一部に編集を加えるなど、出力のある程度が決まっているときに、APIのリクエストで明示することで、出力のレイテンシを短縮できるようになりました。

    11月12日

    Qwen2.5-Coder 32B (Alibaba)

    https://huggingface.co/Qwen/Qwen2.5-Coder-32B

    ローカルで動かせるコーディング特化型のモデルです。

    11月13日

    DeepL Voice (DeepL)

    https://www.deepl.com/ja/blog/deepl-voice

    11月19日

    suno v4 (suno)

    https://suno.com/blog/v4

    https://www.techno-edge.net/article/2024/11/20/3841.html

    11月20日

    gpt-4o-2024-11-20 (OpenAI)

    LLM-jp-3 VILA 14B (LLM-jp)

    https://huggingface.co/llm-jp/llm-jp-3-vila-14b

    AivisSpeech (Aivis Project)

    https://aivis-project.com/

    にじボイス (Algomatic)

    https://note.com/1230yuji/n/nc3c0899c0dbc

    DMMボイスが改名し、サービスを再開しました。

    11月23日

    OminiControl (National University of Singapore)

    https://huggingface.co/papers/2411.15098

    FLUXベースのモデルです。制御性の大きな向上と、入力画像の出力への反映が可能になりました。

    12月

    12月4日

    Veo ・ Imagen 3 (Google)

    https://blog.google/technology/google-labs/video-image-generation-update-december-2024/

    12月5日

    PaliGemma 2 (Google)

    https://huggingface.co/google/paligemma-3b-pt-224

    12月6日

    o1 ・ ChatGPT Pro (OpenAI)

    https://openai.com/index/introducing-chatgpt-pro/

    preview版だったo1が正式版となりました。o1は、与えられたタスクに応じて、思考時間を変えて、簡単なタスクは短時間で、難しいタスクは長時間で処理することができるようになりました。また、o1 pro modeが追加され、さらに長時間かけてより高精度な結果を得ることができるようになりました。

    ChatGPT Plusの上位プランであるChatGPT Proでは、o1 pro modeが利用可能になり、o1 pro mode以外の全てのモデルが無制限で利用できるようになりました。

    HunyuanVideo (Tencent)

    https://github.com/Tencent/HunyuanVideo

    12月7日

    Grok 2 + Aurora (xAI)

    https://x.ai/blog/grok-image-generation-release

    Reinforcement Fine-Tuning (OpenAI)

    https://openai.com/form/rft-research-program/

    特定の専門分野における複雑なタスクに特化した「エキスパートモデル」を作成するための新たなモデルカスタマイズ手法です。

    開発者が数十から数千の高品質なタスクを使用し、モデルの応答を提供された参考解答と比較して評価することで、モデルの推論能力を強化し、特定のドメインにおけるタスクの精度を向上させる手法です。

    Llama 3.3 70B (Meta)

    https://huggingface.co/meta-llama/Llama-3.3-70B-Instruct

    Qwen2-VL-72B (Alibaba)

    https://huggingface.co/Qwen/Qwen2-VL-72B

    12月9日

    Sora (OpenAI)

    https://openai.com/index/sora-is-here/

    12月11日

    Gemini 2.0 Flash Experimental (Google)

    https://blog.google/technology/google-deepmind/google-gemini-ai-update-december-2024/

    Gemini Deep Research (Google)

    https://blog.google/products/gemini/google-gemini-deep-research/

    Spatial Understanding (Google)

    https://note.com/npaka/n/n9c90b4f3b580

    Project Mariner (Google DeepMind)

    https://deepmind.google/technologies/project-mariner/

    Advanced Voice with Video (OpenAI)

    https://openai.com/index/introducing-advanced-voice-with-video/

    12月10日

    Canvas の新機能 (OpenAI)

    https://openai.com/index/introducing-canvas-new-features/

    Canvas に容易にアクセスできるようになり、Pythonのコードを実行できるようになりました。

    12月12日

    にじボイスAPI (Algomatic)

    https://note.com/1230yuji/n/n2c9da487efaa

    12月13日

    ChatGPT Projects (OpenAI)

    https://openai.com/blog/chatgpt-projects/

    NotebookLM Plus (Google)

    https://blog.google/technology/google-labs/notebooklm-new-features-december-2024/

    napakaさんのnote記事を参考にさせていただきました。

    AIリリース年表|npaka|note
    AIリリース年表をまとめました。
    note(ノート)

    おわりに

    いかがでしたか?とにかく量が多すぎてまとめるのが大変だったので、目を通していただけたら幸いです。

    2025年が早くも楽しみです。AIがちょっとずつ進化して気づいたらすごい領域に達してそうな気がしてます。
    また、ローカルで動かせるような日本語に特化した国産LLMが登場してくれると嬉しいです。日本語に特化したトークン化などでもっと最適化の余地はあると思うので。

    最近、AIの軍事利用や利益の確保などが問題視されていますが、これらの課題は技術をどう管理し活用するかにかかっています。適切な倫理基準と規制を設けることで、AIの潜在的なリスクを最小限に抑え、社会全体にとって有益な方向へ進化させることが可能です。

    AIは火や電気のように人類史に残る可能性のある発明のひとつであり、その可能性をどう活かすかは私たち次第です。火が道具として生活を豊かにした一方で、乱用すれば災いをもたらすように、AIもその活用次第で人類の福祉に大きく貢献することができます。だからこそ、私たちは賢くこの「新しい火」を扱い、次世代に希望を与える技術として発展させる責任があります。
    (ps.この段落はChatGPTに書いてもらいました)

    人類の最大の敵はAIではなく人類自身なので。

    この部分は購読者のみ表示されます。

    © backspace.fm Privacy & Terms
    Privacy  &  Terms
    © backspace.fm