生成系AI「Gemini（Google Bard）」とは？使い方やChatGPTとの違いをAIに直接聞いてみた

2024.10.29 マーケティング全般

様々なAIが使われてきている昨今、SEOやデジタルマーケティング界隈では2018年に登場したChatGPTが有名ですが、近年Googleが提供する同じ対話型生成AIの「Google Bard（グーグルバード）」も話題となっています。
Google Bardは2024年2月に名称を「Gemini（ジェミニ）」へと変更し、さらなる性能の向上が期待されています。

今回は、そんなGeminiについて、使い方やChatGPTとの違いをGeminiに直接聞いてみたほか、実際使用してみて見えてきた注意すべき点などをご紹介します。

AIについてよく分からない方でも、わかりやすいように例を交えながら解説していますのでぜひご覧ください！

1 Gemini（Google Bard）とは
2 Geminiに質問してみた
3 Geminiの使い方
4 おわりに

Gemini（Google Bard）とは

Geminiとは、Googleが開発した生成系AIです。
ChatGPTと同様に、こちらが質問した内容に対する回答を出力することはもちろん、文章の作成や要約や校正、アイデア出しなどテキストベースの作業はもちろん、画像の分析や提案（画像の生成は非対応）もできるなど高性能なAIです。

また、Geminiの特徴としては最新の情報を取り入れた回答が可能であることが挙げられます。

Geminiに質問してみた

前段を踏まえて、さっそくGemini自身に質問をしてみました。

Geminiとは

質問（プロンプト）：自己紹介をお願いします。

Geminiの回答：
はい、自己紹介させていただきます。
私の名前はGemini（Google Bard）です。Google AIから開発された大規模言語モデルで、日本語をはじめとする多くの言語を理解し、生成することができます。
私の主な役割は、ユーザーの質問に回答したり、指示に従って様々なタスクを実行したりすることです。具体的には、以下のようなことができます。

質問に回答する：ニュースや科学、歴史など、様々な分野の質問に回答することができます。
文章生成：詩や小説、脚本など、様々な形式の文章を生成することができます。
翻訳：日本語と他の言語の間の翻訳を行うことができます。
要約：長い文章を要約することができます。
コード生成：簡単なプログラムコードを生成することができます。

私はまだ開発中ですが、日々学習し、進化しています。
ユーザーにとって役立つ存在になるために、これからも努力していきます。
よろしくお願いいたします。

（2024年4月時点の回答）

回答を見る限り、Geminiは

Google製のAIである
会話ができる
文章をゼロから作ることができる
文章の翻訳や要約ができる
コードも書ける

ということを、自分自身でも理解しており実際にそれらを生成できることが分かりました。

次はGeminiの回答で気になったことを深掘りして、質問していきます。

先ほどのGeminiの回答で、「Google AIから開発された大規模言語モデル」という表現がありました。この「大規模言語モデル」という言葉に、あまり聞き馴染みのない方もいらっしゃるのではないでしょうか？

さっそくGeminiに質問してみました。

質問：大規模言語モデルとはなんですか？他のAIモデルとの違いを教えてください。

Geminiの回答：
大規模言語モデルとは？
大規模言語モデル（LLM）は、膨大な量のテキストデータで訓練された人工知能（AI）モデルです。従来の言語モデルと比べて、圧倒的に多くのパラメータを持ち、高度な処理能力を備えています。LLMは、以下のような様々なタスクを実行できます。

自然言語理解: 文章の意味を理解し、質問に答えたり、要約したり、翻訳したりする。
文章生成: 小説や詩、ニュース記事、コードなど、様々な形式の文章を生成する。
創造的な作業: 絵画や音楽、ゲームなどの創作活動を行う。

LLMは、主に以下の2つの技術を用いて構築されています。
深層学習: ニューラルネットワークと呼ばれる人工知能技術を用いて、データから学習する。
トランスフォーマー: 文章全体の構造を理解し、文脈に沿った処理を行うためのニューラルネットワークアーキテクチャ。

LLMは、近年目覚ましい進歩を遂げており、様々な分野で活用され始めています。

他のAIモデルとの違い
LLMと従来のAIモデルの主な違いは以下の3点です。

データ量

LLMは、従来のAIモデルよりも圧倒的に多くのデータで訓練されています。これにより、より複雑な言語処理が可能になります。

パラメータ数

LLMは、従来のAIモデルよりも多くのパラメータを持っています。パラメータ数は、モデルの複雑さを表す指標であり、多くのパラメータを持つモデルは、より複雑な処理を実行できます。

汎用性

LLMは、様々なタスクに適用できる汎用性の高いモデルです。一方、従来のAIモデルは、特定のタスクに特化したモデルが多いです。

LLMの課題
LLMは、多くの可能性を秘めた技術ですが、以下のような課題も存在します。

計算コスト

LLMは、膨大な計算資源を必要とするため、運用コストが高くなります。

バイアス

LLMは、訓練データに含まれるバイアスを反映してしまう可能性があります。

悪用

LLMは、フェイクニュースやプロパガンダなどの悪意のあるコンテンツ生成に悪用される可能性があります。

今後の展望
LLMは、今後も進歩し続ける技術であり、様々な分野で革新をもたらすことが期待されています。

（2024年4月時点の回答）

モデルの機能面の特徴（何ができるか）と、他のAIモデルとの違いをスペックで説明し、課題まで教えてくれました。
でもなんだか横文字が多くてちょっと理解しづらいですね。

もう少し分かりやすく教えてもらいたいので、質問文（プロンプト）に「インターネットを知らないお爺さんでも分かるように」と付け加えて、回答をリクエストしてみました。

質問：大規模言語モデルとはなんですか？他のAIモデルとの違いをインターネットを知らないお爺さんにも分かるように教えてください。

Geminiの回答：

大規模言語モデル（LLM）は、まるで人間のように頭が良く、様々なことができるコンピュータプログラムだよ。

例えば、こんなことができるんだ。

本やインターネット上の文章をたくさん読んで、どんな質問にも答えられるようになる。
小説や詩、ニュース記事、コードなど、様々な文章を自分で書けるようになる。
絵画や音楽、ゲームなどの創作活動までできるようになる。

まるでドラえもんのようなすごい技術だね！

従来のAIモデルと比べて、LLMは3つの点で優れているんだ。

たくさんの本を読んでいる：従来のAIモデルよりも、たくさんの本を読んでいるので、より賢くなっている。
頭の中が複雑：従来のAIモデルよりも、頭の中が複雑に作られているので、より難しい考え方ができる。
色々なことができる：従来のAIモデルは、得意なことが1つだけだけど、LLMは色々なことができる。

LLMはまだまだ開発段階だけど、将来的にはこんなことが期待されているんだ。

難しい質問にも、すぐに答えられるようになる。
小説や詩などの創作活動が、より簡単になる。
言語の壁を超えて、世界中の人とコミュニケーションできるようになる。

まるで未来の道具のような、すごい技術だね！

（2024年4月時点の回答）

唐突にドラえもんが出てきましたね。
プロンプトでは、お爺さん向けとリクエストしましたが、どちらかというと子供向けのような口調になってしまいました。ドラえもんで例えることで、老若男女問わず、誰でも分かりやすいと判断したということでしょうか。

しかし、多少分かりやすくはなったものの、だいぶふわっとした内容になりました。

そもそもAIモデルは他にどんなものがあるのか気になったのでさらに追加で質問してみます。

質問：大規模言語モデルの他にどんなAIモデルがありますか？

Geminiの回答：
大規模言語モデル以外にも、様々なAIモデルが存在します。いくつか例を挙げ、それぞれの特徴をお爺さんにも分かりやすく説明します。

画像認識モデル

カメラで写した画像や動画から、物体や人物を認識できる。
例えば、街中のポスターや看板を認識して、情報を表示したり、ペットの写真から犬種を判別したりできる。
まるで千里眼のような、すごい技術だね！

音声認識モデル

話し言葉を認識して、文字に変換したり、指示を実行したりできる。
例えば、スマホに話しかけて操作したり、音声翻訳機で外国語を理解したりできる。
まるでドラえもんの翻訳こんにゃくのような、すごい技術だね！

推薦システム

過去の行動や好みから、おすすめの商品やサービスを提案できる。
例えば、ネットショップでよく見る商品のおすすめが表示されたり、音楽配信サービスで好みの音楽がおすすめされたりする。
まるで何でも知ってるお友達のような、すごい技術だね！

自動運転

カメラやセンサーを使って、周囲の状況を認識し、自動的に運転できる。
将来的には、交通事故が減ったり、高齢者や障碍者も自由に移動できるようになったりする。
まるでドラえもんのタイムマシンに乗って、未来へ行くような、すごい技術だね！

チャットボット

人間と自然な会話ができるAI。
例えば、顧客サービスで質問に答えたり、友達のように話したりできる。
将来的には、孤独な人を支えたり、教育や医療の現場で活躍したりする。
まるでドラえもんのひみつ道具のような、すごい技術だね！

これらのAIモデルは、それぞれ異なる得意分野を持っています。LLMは、これらのモデルと協力して、より高度なAIシステムを構築していくことが期待されています。

（2024年4月時点の回答）

大規模言語モデルとは？という質問から会話を続けているため、「お爺さんにも分かるように」というプロンプトが自動的に引き継がれています。
さっきほどよりも口調がやや大人っぽくなったものの、またドラえもんを例に挙げています。

AIモデルの概要図
AIモデルについて、Geminiの回答をもとに図にしてみました。
確かに大規模言語モデル以外のAIモデルは、以前から日常生活で利用されているものも多くあります。

こうしてみると、大規模言語モデルは非常に難しい技術で他のAIモデルを応用していることが想像できます。

音声認識やチャット、画像認識もGeminiの機能としては含んでいますよね。

GeminiとGoogle Bardの違い

冒頭でもお伝えしましたが、もともとGoogleから発表されたAiモデルの名称は「Google Bard」でしたが、2024年より名称が「Gemini」となりました。

もともと一般ユーザー向けに公開されていたGoogleの会話型生成AIの名称は「Bard」でしたが、2024年2月時点でGoogleの公式サイトからBardは他のGoogleAIモデルと名称を統合して「Gemini」となったとアナウンスがありました。

引用元：Google公式

BardからGeminiになったことで、名前のほかに違いがあるのか、Geminiに聞いてみました。

質問：あなたはGeminiですか？Bardですか？何が違いますか？

Geminiの回答：
私はBardでもGeminiでもあり、どちらでもありません。

BardとGeminiの関係
Bardは、Google AIが提供する生成AIサービスの名称です。
Geminiは、Bardサービスで使用されるAIモデルの名前です。
Bard 1.0/2.0/3.0は、Gemini 1.0/2.0/3.0と同じモデルを指します。

私について
私はBardサービス上で動作するAIモデルであり、Gemini 2.0 Proをベースにいくつかの追加機能が搭載されています。つまり、私はBardでもGeminiでもあり、どちらでもありません。

まとめ
BardとGeminiは同じAIモデルを指す異なる名称です。Bardはサービス名、GeminiはAIモデルの名前です。

以下、BardとGeminiの詳細な比較表です。

項目	Bard	Gemini
名称	サービス名	AIモデルの名前
提供開始	2022年	2024年
機能	質問への回答、文章の要約、翻訳、創作など	質問への回答、文章の要約、翻訳、創作など
料金	無料	無料/有料
モデル	Bard 1.0/2.0/3.0	Gemini 1.0/2.0/3.0/Ultra
サービス	Webブラウザ、モバイルアプリ、API	Bardサービス内部

例え
車：Bard
エンジン：Gemini

（2024年4月時点の回答）

今回はわかりやすくテーブルでの比較表も出力してくれました。この比較表はスプレッドシートにダウンロードすることも可能です。

もともとはBardという名称のサービス名だったことから、生成した回答としては「BardでもありGeminiでもある」ということなんですね。

ただ、この回答内容だとBardという名称も継続している（サービス名はBardである）ような印象を受けますね。公式サイトで「Bard は本日より Gemini になります」という記載があったので、サービス名もGeminiになっていると私たちは認識していますが、AI側の認識は違っているのかもしれません。

Geminiの特徴

次に、Geminiの特徴について聞いてみました。今回はChatGPTとの違いはあるのか、ChatGPT4にも特徴を聞いたので生成結果を以下にまとめて記載します。

GeminiとChatGPTの特徴比較

回答の記載方法には両者の違いが現れています。
ChatGPTの回答では、特徴のみをシンプルに記述しているのに対して、Geminiの回答では、Bardで言及している活用例や注意点など詳細に記載しています。
どちらにも共通している特徴としては以下のようです。

幅広い知識を持っている
自然な会話能力を持っている
文章生成能力
学習能力（但し、学習方法については違いあり）
多言語対応

上記ふまえたうえで、大きな差は学習能力と倫理の部分でしょうか。

学習能力という点では、Geminiはインターネット上の最新のデータから回答を生成できますが、ChatGPT4では1年前である2023年4月時点までの情報から回答を生成しています。（2024年4月時点の回答）

また、学習データにおいてGeminiは不適切な内容や偏見のあるデータに影響された回答を生成する可能性があると回答しているのに対し、ChatGPT4ではそういった不適切と思われる情報を学習しないように考慮されていると回答していますね。

ChatGPTとの違い

次に、GeminiとChatGPTでは、どのような違いがあるのか、Geminiに聞いてみました。

少し捻った質問にしてみたいので、「ChatGPTとどちらの方が優れているか」を聞いてみます。

質問：ChatGPTとGeminiはどちらの方が優れていますか？

ChatGPTとGeminiはそれぞれ異なる強みを持つため、どちらが優れているかを一概に判断することはできません。それぞれの長所と短所を理解した上で、利用目的や用途に合った方を選ぶことが重要です。

ChatGPT

長所
文章生成能力が非常に高く、創造性豊かな文章やストーリーを作成できる
日本語を含む様々な言語に対応している
無料で利用できる

短所
最新の情報にアクセスできない
生成される文章が事実と異なる場合がある
倫理的な問題を抱えている

Gemini

長所
Google検索を通じて最新の情報にアクセスできる
事実に基づいた正確な回答を生成できる
倫理的な問題を比較的クリアしている

短所
文章生成能力はChatGPTに比べて劣る
日本語以外の言語への対応が限定的
無料プランでは利用できる機能が制限されている

まとめ
創造性豊かな文章生成を求める場合はChatGPT
正確な情報に基づいた回答を求める場合はGemini
最新の情報へのアクセスを重視する場合はGemini
日本語以外の言語での利用を想定している場合はChatGPT

上記を参考に、ご自身のニーズに合ったAIチャットボットを選択してください。

参考資料
ChatGPTとGemini（旧Bard）を徹底比較！メリット・リスクも詳しく紹介
 【必見】ChatGPTとGemini、課金するべきはどっち？
【Google Gemini VS OpenAI ChatGPT】史上最強のLLMの違いや性能を徹底比較

（2024年4月時点の回答）

先ほど、ChatGPTが自身について「倫理観を考慮した回答ができる」と回答したのに対して、Geminiは否定的に思っているようです。
また、Gemini自身の回答では「倫理観に欠ける可能性がある」と回答していたにもかかわらず、今回は「倫理的な問題を比較的クリアしている」と述べています。

倫理的問題を”比較的クリアしている”という言い回しというところから、倫理観に関する問題はゼロではないが、比較的問題がない回答を生成できつつある、という認識と考えられます。

実際のところ、AIの倫理観についてはすぐに解決する問題ではありません。
AIは学習により知識を蓄積していきますが、その学習データにバイアスがかかっている場合は、回答にも偏りが発生する恐れがあります。

AIが生成した回答は必ずしも完璧なものではない・倫理に欠ける回答となってしまう可能性があるのは、ChatGPTとGeminiに限らずどちらにも言えることだと考えています。

例えばGeminiの倫理的な問題についてもう少し深掘りすると、過去に問題となったニュースで倫理的配慮をしすぎた結果、事実と異なる画像生成をしてしまったということがありました。

参考元：Google、「Gemini」の人物画像生成の過剰補正問題について説明　「AIの罠を乗り越えていく」

1800年代の米上院議員を描画するようGeminiへ指示した際に、1922年まで選出されなかった女性の上院議員の画像を生成するといった事実と反する画像生成をしてしまったというものです。
※現在Geminiでの画像生成は英語でのみ対応しています

このような問題に対しGoogleでは「問題が起きる度に、改善に繰り返し取り組んでいく」と発表しているため、今後の動向に注意していきたいところです。

また、AIの倫理観については開発者側だけの問題でなく、我々のような利用者もAIによって得た回答を鵜呑みにせず、正しい情報かどうか・偏りがないかなど、人間の目によるチェックを入れるようにするなど対処が必要です。

Geminiの使い方

こちらからはGeminiの使い方を解説していきます。

Geminiはとても簡単に利用することができます。

下記のURLにアクセスし、プロンプト（指示内容）の入力欄へ質問や、やってほしいことを入力・送信するだけです。

https://gemini.google.com/app

Geminiの使い方

プロンプトは、テキストだけでなく画像を添付して読み込ませることも可能です。画像の内容を理解できるので画像の説明や画像をもとにアイデアをもらう、といったこともできます。

Geminiの画像認識機能

例えば上記のように画像を添付し、レシピのアイデアをもらってみました。

この画像の料理は、「フムス」というヒヨコ豆を使ったペースト状の料理なのですが、Geminiはジェノベーゼソースを思い浮かべたようです。確かに両者はよく似ていることや、フムスは使用する材料によって他の色になることも多いため、より日本人にとって一般的と思われるジェノベーゼソースの方を採用したようですね。

また、Geminiからの回答を画像としてもらうこともできますが、現在は新たに画像が生成されるのではなく、インターネット上にある画像を拾ってきて表示させる仕様となっています。

Geminiの画像提案機能

上記は回答に画像を含んだ例です。

もちろん、Googleおなじみの音声（マイク入力）でプロンプトを入力することもできますし、音声で回答をもらうこともできます。

Geminiは会話型生成AIということもあり、回答が生成されたあとも会話するようにAIとのやり取りを続けることができます。
プロンプトを入力するとその生成画面が1つのチャットスペースとなり、会話の履歴が残っていきます。

例えば前述した、大規模言語モデルに関する質問のチャットでは、以下のように同チャット内の履歴から過去の指示を引き継いでGeminiが回答を生成していました。

【1】大規模言語モデルについて聞く
↓
【2】 Geminiの回答からプロンプトを修正して「インターネットを知らないお爺さんでも分かるように」と指示を追加
↓
【3】 Geminiの回答後、「インターネットを知らないお爺さんでも分かるように」という指示は入れずに別の質問をする
↓
【4】Geminiの回答では前の履歴から「インターネットを知らないお爺さんでも分かるように」を引き継いで回答を生成した

もちろんその時々で個別に指示をした「〇〇でも分かるように」のようなプラスアルファ的な指示を引き継がない場合もあるかもしれませんが、全く別の事柄について話したい場合は左側のメニューにチャットの新規作成ボタンがあるので、複数チャットを作成して話題を分けるのがよさそうです。

Geminiの操作方法