kaeken(嘉永島健司)Techブログ

主に情報科学/情報技術全般に関する知見をポストします。（最近は、特にData Science、機械学習、深層学習、統計学、Python、数学、ビッグデータ）

OpenAI "GPT-4o" モデルニュースまとめ

AI ChatGPT

概要

https://openai.com/index/hello-gpt-4o/

www.youtube.com

GPT-4oは「ジーピーティーフォーオー」と読む。oは「omni」のo。omni（オムニ）は「オムニバス」「オムニチャンネル」などの日本語にもなっているように、すべて、全体、全方位などを表す言葉
2024年5月13日(米国時間)に発表されたOpenAIの新しいAIモデル「GPT-4o」
テキストだけでなく、音声や画像、動画の入力にも対応し、自然な対話が可能
無料ユーザーでも利用可能になり、ChatGPT Plusユーザーは制限が緩和される
音声モードはアルファ版をリリースし、Plusユーザー向けに早期アクセスを提供予定
Mac向けのデスクトップアプリも発表され、プログラミングコードやグラフの解釈が可能
従来のGPT-4 Turboや他社モデルを大きく上回るレーティングを記録
APIの価格は従来の半額となり、応答速度も2倍速い
世界最高のモデルとして、無料ユーザーでも利用可能になるのは前例のないこと
多様なモダリティに対応し、高性能かつ低価格で提供されるのが特徴
今後のAI技術の発展に大きな影響を与えると期待されている

その他

機能など

「GPT-4o」発表　頭一つ抜けた性能をChatGPT無料版にも展開　音声と視覚を備えて“自然な対話”可能に【追記済】 - ITmedia AI＋

OpenAI最新モデル！GPT-4oについて徹底解説してみた - YouTube

ベンチマーク関連

GPT-4oが出たのでいろんなモデルと比較しました。結論は、4oが圧倒的です。※追記：嘘でした。Gemini 1.5 proもすごいです。

OpenAI、次世代AIモデル「GPT-4o」を発表

GPT-4o の概要｜npaka

手書きの画面仕様書を読み込んで、コード生成

GPT-4oの画像認識力と理解力ならいけるのではと思い手書きの仕様指示を読み込ませたら本当にコードを書き上げてくれた→｢ついにコーダーが恐怖を感じる時が来たか｣ - Togetter

文字認識率向上

OpenAIのGPT-4oを日本語OCRとして使ってみる