【Bardってどう？】 GPT-3.5、GPT-4との比較で見えた長所と短所

Googleが発表した言語AIのBardと、GPT-3.5とGPT-4を比較をしてBard強みと弱みは何かを考察しました。それぞれのモデルの学習範囲と私がよく用いる、記事執筆補助とコード生成の観点を中心に比較してみました。

コンテンツ一覧

学習範囲
記事執筆比較
コード生成（プログラミング）
- 単純なタスク
- やや難しいタスク
Bardの強み
Bardの弱み
- チャット履歴が残らない
- 推論力はGPTに軍配が上がる
総評

学習範囲

この検証では、「日本の首相を2010年以降から列挙して下さい。任期も添えて」と聞いています。

GPT-3.5
GPT-4
Bard

Chat-GPTはどちらのモデルも2021年9月までのデータしか学習していませんが、GPT4では2021年9月までのデータしかないことを明記できています。 GPT3.5ではそれを明記できていないため、GPT4よりも情報の信頼性に欠けると言えます。

Bardに関してはインターネットの最新情報を取得しているとされており、上記の日本の歴代首相では最新の正しい情報が帰ってきます。しかし、「昨日のニュース」などを聞くと日付も違うかなり曖昧な情報が返ってくるので、直近の情報となると弱い印象を受けます。

記事執筆比較

この検証では、「一度は行ってみたい！世界の観光地3選」という記事を書いて下さいと依頼しています。この時、条件として、「3つの観光地はそれぞれなるべく離れた地点で」、という条件や、「マークダウン形式で書いて」という条件をつけています。

GPT-3.5
GPT-4

GPT-3.5とGPT-4はどちらも同じように記事を出力可能ですが、内容を読んでみると「心に残る」や「息を呑むほど」など GPT４の方が日本語的にも豊かな表現をしていることがわかります。また、 GPT4ではタイトルもニュアンスから汲み取ってより興味を引くような言い回しに変えています。

一方、Bardではこういった記事執筆はできないと言われてしまいました。

コード生成（プログラミング）

単純なタスク

簡単なタスクだとどれも同等なものが出力されます。

GPT-3.5
GPT-4
Bard

ここでBardの強みがひとつあり、PythonプログラムであればGoogleが提供するPython実行環境であるColabにシームレスに反映することができます。

やや難しいタスク

競技プログラミングで出題される問題をこちらで特に誘導せずに解かせてみます。AtCoderという競技プログラミングの中の簡単な問題から2番目の難易度のB問題を解かせてみます。

AtCoder

B - Fill the Gaps

https://atcoder.jp/contests/abc301/tasks/abc301_b

AtCoder is a programming contest site for anyone from beginners to experts. We hold weekly programming contests online.

GPT3.5とGPT4とBardの三つのモデルの中で、ロジックが正解していたのはGPT-4のみでした。

GPT-3.5
GPT-4
Bard

Bardの強み

無料でかつ速い

現状「試験運用中」とはなっていますが、無料で使えます。また応答速度もかなり速く、有料のGPT-3.5と同等の速度くらいで回答してくれます。

Googleサービスとの接続性

コード生成のところで紹介したようにPythonのコードであれば、Colabにシームレスに接続したように、ネイティブにGoogleサービスと連携できる強みがあります。

他にはGoogleドキュメントやGmailに接続できます。将来的にはスプレッドシートやスライドなど、色々なGoogleサービスとの連携が期待でき、ここはGoogleならではの強みと言えます。

インターネットの最新情報を拾える。。？

Bardではインターネット上の情報をリアルタイムに取得できるとされていますが、先の例のように直近の情報はまだ弱いのかなという印象を受けました。

因みに、ChatGPTもまもなくインターネット情報と連携するとのことなので、ここら辺の比較も今後していこうと思います。

Bardの弱み

チャット履歴が残らない

Chat GPTでは今まで聞いた履歴が、会話内容含めて全て残ります。なので、以前のChatを再開できたりもします。

しかしBardでは現状、アクティビティとして概要だけは残りますが、何を聞いて何を回答されたかの詳細な履歴は閲覧できないようになっています。

推論力はGPTに軍配が上がる

コーディングのところでもGPT−4だけが正解したように、回答の論理性の高さなどはGPT−4の方がまだ高いように感じます。

例えば、 OXゲームをチャット上でやろうとすると、GPTの方がかなり洗練されていることがわかります。（3x3のマスに、OとXを書いて３つ並んだら勝ちになるやつです。）

以下はGPT-3.5とゲームをした時です。

斜めに勝利条件を達したときがスルーされているものの、一応ゲームとしては矛盾なく進行していることがわかります。

これをBardとやった時が以下です。

かなりめちゃくちゃです。こちらの置く位置も勝手に決め始めて全然ゲームとして成り立ちません。

表現が難しいのですが、ある種の「親切さ」というか、人間でいう行間を読んだりする能力がまだ欠けているように感じてしまいます。上記のゲームの例でもChat GPTでは最初からマス目を示してくれたりと、「OXゲームをやりましょう」というだけで互いにターンがあったやりとりを行うものであろうということをわかってくれています。

Bardはマス目がめちゃくちゃなのはともかく、勝手にゲームを進めてしまったりと、「ゲームをしましょう」から人間が意図することをあまり汲み取れていないのかなと感じました。

総評

個人的にはBardはまだChat GPTに及んでいない部分が多いのかなと感じました。しかし、試験運用中ということですし、今後一気に改善されるのかなと期待できます。

特に、Googleサービスとの連携は個人的に一番期待できる部分だと思います。GoogleドキュメントやColab等はもちろんですが、Google Cloud Platformのサービスの連携なども期待します。例えばBig Queryと連携して、SQLクエリの生成補助がBardでできたりするとメチャクチャ便利だと思います。

応答速度の速さ

【Bardってどう？】 GPT-3.5・GPT-4との比較で見えた長所と短所