グーグルは2023年12月6日、人類の発展と生活の質の向上に貢献することを目的とした最新のAI技術「ジェミニ」を発表した。ジェミニは、その最先端の能力により、日常的なタスクから分野別のニーズまで、幅広い用途がある。グーグル・ジェミニは、ベンチマークと実用的なアプリケーションの両方において、既存のAIモデルを上回ることに成功している。

この記事では、Google Geminiとは何か、そしてその機能を紹介する!

TL;DR

  • ジェミニは、グーグルの最新かつ最も有能なAIマルチモーダルである。
  • ジェミニには3種類のサイズがある:ナノ、プロ、ウルトラ。
  • GoogleはGemini 1.5 Proのコンテキストウィンドウの容量を100万トークンに増やし、AI StudioとVertex AIを通じて一部のユーザーが利用できるようにした。
  • ジェミニは、コード、ビジュアル、オーディオ、ビデオを含むウェブドキュメントや書籍のトレーニングを行った。
  • ジェミニ・ナノとジェミニ・プロには、グーグル製品からアクセスできる。
  • Gemini ProはGoogle Gemini Appのページから体験できる。
  • ジェミニのパフォーマンスはGPT-4より若干良い。
  • 双子座は、強力な推理力、数学、コーディング、言語理解能力を備えている。
  • ジェミニは、文字、ビジュアル、オーディオ、ビデオの入出力をサポートしている。

グーグルジェミニとは? 

ジェミニは、グーグル最大かつ最先端のAIマルチモーダルである。Google Geminiは、テキスト、画像、コード、音声、動画など、さまざまな種類のデータを入力として分析し、出力として生成することができる。そのマルチモーダル機能は、さまざまなユースケースと新たな機会への扉を開く。

ジェミニを作ったのは誰か?

ジェミニは、グーグルとグーグルの親会社であるアルファベットによって作成・訓練され、グーグルの最も高度で有能なAIモデルとして紹介された。ジェミニを紹介する中でグーグルは、ジェミニはグーグルリサーチ、グーグルディープマインド、アルパコードの各チームの共同作業によって作られたと述べた

グーグル・ジェミニの3つのサイズ

ジェミニはグーグルの最も柔軟なAIモデルである。データセンターからモバイルデバイスまで効率的に稼働させることができる。グーグルのジェミニには3種類のサイズがある:

  • ジェミニ・ナノジェミニの最も効率的なモデルは、スマートフォンなどのデバイス上で動作するように設計されている。ジェミニナノには2つのバージョンがある:1.8B(Nano-1)と3.25B(Nano-2)です。Gemini Nanoは、外部ソースなしでデバイス上のタスクを実行するように構築されており、クラス最高のパフォーマンスを提供します。
  • ジェミニ・プロ:Gemini Proは、幅広いタスクにおいて、パフォーマンスを最適化し、コスト効率の高いサービスを提供するために設計されたモデルである。このモデルは、強力な推論、パフォーマンス、入力理解、数学、コーディング能力を提供する。さらに、Gemini ProモデルはGoogle Bardを強化する。
  • ジェミニ・ウルトラ:ジェミニの最上位モデルで、ジェミニ・プロモデルができることはすべてでき、さらに複雑なタスクを処理するための高度な推論能力とマルチモーダル能力を備えている。まだ公開されていないジェミニ・ウルトラは、非常に複雑なタスクをこなすために開発された。
ジェミニAIモデル

ジェミニAIにアクセスするには?

ジェミニは、ナノサイズとプロサイズのグーグル製品で利用できる。また、Googleは、検索エンジン、広告、Chrome などのGoogleサービスにGeminiを統合していくと発表した。

また、Google GeminiアプリからGemini Proモデルにアクセスすることもできる。ジェミニは、高度な推論、コーディング、計画、理解などを行うために特別に調整されたバージョンのジェミニ・プロを活用している。

グーグル 双子座 2024

グーグルジェミニの機能

グーグルGeminiは、3つの異なるサイズと洗練された機能を備えている。これは、これまでで最大級の、最も先進的なAIモデルである。サードパーティのアプリケーションを必要としないユニークなマルチモーダル機能により、Google Geminiは際立っている。Google Geminiの機能を詳しく見てみよう。

グーグル・ジェミニのパフォーマンス

Google GeminiはマルチモーダルAIであるため、様々なタスクを高いパフォーマンスで実行することができる。Google Geminiは高性能なマルチモーダルAIであり、テキスト、ビジュアル、ビデオ、オーディオ、コードを含む入力を理解して出力を生成する。

グーグルの文書によると、ジェミニ・ウルトラモデルは、MMLU(大規模マルチタスク言語理解)、GSM8K、MATHなどのベンチマークで高いスコアを持っている。実際、これらのベンチマークによると、グーグルGeminiはGPT-4を上回る性能を発揮している。

Google gemini ai パフォーマンスベンチマーク

ジェミニ1.5プロ

Gemini 1.5 Proモデルには通常、128,000トークンで構成されるコンテキストウィンドウが含まれている。しかし、今日現在、一部の開発者と企業顧客は、AI Studioと Vertex AIを介したプライベートプレビューで、最大100万トークンの容量を持つコンテキストウィンドウを使用してテストすることができる。

いくつかの機械学習の進歩のおかげで、グーグルは1.5 Proのコンテキストウィンドウの制限を、Gemini 1.0の当初の容量32,000トークンから大幅に拡大した。更新されたバージョンでは、本番中に最大100万トークンを処理できるようになった。

訓練されたデータ

Geminiのすべてのサイズは、コード、画像、音声、動画を含む、ウェブドキュメントや書籍からのデータセットでトレーニングされている。さらに、Geminiの小さいサイズは、より高いパフォーマンスと精度のために、かなり多くのトークンでトレーニングされている。GoogleはGeminiの学習に使用するデータに品質フィルターを適用し、有害なデータで学習されることを防いでいる。

マルチモーダリティ

グーグルジェミニは、テキストベースのタスクだけに限定されない。ビジュアル、ビデオ、オーディオ関連のデータも処理できる。グーグルジェミニは、OCR(Object Character Recognition)システムのサポートなしに、マルチモーダルベンチマークで高得点を得ることに成功した。言い換えれば、グーグルジェミニは、画像内のテキストを理解し、サポートなしでそれらを分析して出力を生成することができる。

ジェミニ・マルチモーダル

グーグルジェミニは、さまざまなタイプの入力を理解、照合、分析し、収集した情報に基づいて出力を生成することができる。その機能は、日常的なタスクから専門的なタスクまで、様々な使用ケースで役に立つ。

ジェミニ・マルチモーダルAI

推論と入力理解

ジェミニは、その高度な推論能力により、複雑な文章や視覚的な入力を理解することができる。さらに、この能力のおかげで、ジェミニは何千ものドキュメントをスキャンし、ユーザーが必要とするデータを収集し、それを使って出力を生成することができる。手作業では時間がかかるデータ分析やデータ管理の作業も、ジェミニを使えば数分で完了することができる。さらに、グーグルジェミニはビジュアルデータを分析し、ユーザーのプロンプトに従って新しいビジュアルを生成することができる。

ジェミニAIベンチマーク

高度なコーディングアルファコード2

コーディングに関しては、ジェミニはその高度な数学と推論能力のおかげで、複雑なコーディングタスクを完了し、複雑な問題を解決することができると言える。ジェミニは、簡単なモバイルアプリケーションの作成などの基本的なコーディング作業を1分以内に完了させることができる一方で、競争力のあるコーディング作業を高い精度で完了させることができる。

ジェミニaiコーディング

グーグルの記事によると、ジェミニを搭載したアルファコード2モデルは、前モデルのアルファコードに比べて2倍の問題を解いたという。つまり、ジェミニを使えば、高度なコーディング作業をこなし、難しい問題を素早く解くことができる。Geminiは、コーディング、推論、数学のタスクの素晴らしいアシスタントとなる。

安全性

ジェミニを開発する際、グーグルは非倫理的なAIの利用を避けるため、グーグルのAI原則を遵守した。グーグルのAI原則によると、AIモデルは社会的に有益な影響を与えるべきであり、不公平なバイアスを生み出さないようにすべきである。その結果、ジェミニは非倫理的で有害な結果を生み出すことはない。

TextCortex - フルカスタマイズ可能なAIコパイロット

ジェミニ・モーダルはいろいろなことができるが、あなたの声を話し、あなたのことを知っている、完全にパーソナライズされたAIアシスタントには向いていないようだ。TextCortex は、日常的なタスクでユーザーを支援するために設計されたAIアシスタントだ。TextCortex を使えば、テキストを生成したり、既存のタスクをさまざまな声のトーンで言い換えたりすることができる。

TextCortex はウェブ・アプリケーションおよびブラウザextension として利用できる。そのブラウザextension は、30,000以上のウェブサイトやアプリと統合されているため、インターネットの旅に同行することができる。

ゼノチャット 

ZenoChatは、TextCortex によって開発された会話AIで、人間のような会話と高度な文章作成機能が光る。ZenoChatはテキスト生成からウェブ検索まで様々な機能を備えている。ウェブ検索機能により、ZenoChatは最新のインターネットデータを使用して出力を生成することができます。

ZenoChatは「個別ペルソナ」と「ナレッジベース」機能により、完全にカスタマイズ可能なAI体験を提供します。個別ペルソナ」機能では、ZenoChatの出力スタイル、声のトーン、パーソナリティを自由に調整することができます。さらに、開発チームはZenoChatに12種類のペルソナを追加しました。

ナレッジベース」機能では、ZenoChatが出力を生成するために使用するデータセットをアップロードまたは接続することができます。言い換えれば、「ナレッジベース」機能により、独自のAIチャットボットをトレーニングすることができます。この機能を使用すると、1回のプロンプトでドキュメントを要約したり、チャットしたりすることができます。

ゼノアシスタント

Google DocsやPagesなどの様々なオンライン・ワープロと統合されたZeno Assistantは、アウトライン作成から文法修正まで、あなたの執筆作業をサポートするように設計されています。どのテキストボックスでも「Alt/Opt + Enter」ショートカットでZeno Assistantを起動できます。Zenoアシスタントの機能の一部をご紹介します:

  • リライト
  • まとめる
  • 長くする/短くする
  • 言語の簡略化
  • ドラフトBlog Post /エッセイ/アウトライン/ソーシャルメディアPost
  • 文法とスペルの修正
  • 執筆を続ける

TextCortex の他のすべての機能と同様に、Zeno Assistant は 25 以上の言語で出力を生成できます。

オートメーションTextCortex

TextCortex は、make.comとZapierによってシームレスな自動化オプションを提供しています。 integrations.TextCortex を使えば、メール作成から商品説明文の作成まで、様々なテキストベースのタスクを自動化できる。こうすることで、繰り返しのタスクに時間を費やすことを避け、より重要なビジネスの側面に時間を振り向けることができます。