投稿一覧に戻る GMOメディア(株)【6180】の掲示板 2020/07/16〜 945 oiu***** 3月13日 13:50 日本語言語モデルの実践的評価」研究によりIT分野での大規模言語モデル(LLM)の能力差を解明 GMOメディア<6180>は11日、「日本語言語モデルの実践的評価」研究によりIT分野での大規模言語モデル(LLM)の能力差を解明したと発表。 現在、各方面でChatGPTをはじめとする大規模言語モデル(LLM)の評価が行われており、医療や法律といった特定の専門分野での有用性に関する評価も進められている。今回、IT分野においてLLMがどの程度の能力を持っているかを解明することを目的に研究を実施。 「大規模言語モデルの日本語実践的評価:JGLUEとITパスポート試験を用いた比較分析」をテーマとした研究を実施、現在公開されている大規模言語モデル(LLM)のIT分野における推論・問題解決能力を、ITパスポート試験を解答させた。 結果から、IT分野の問題に対して一定程度論理的な解答を導き出すことが期待できることが判明、最も解答の精度が高かったのは「ELYZA-japanese-Llama-2-7b-instruct」で正答率は72.3%だった。 また、LLMに補助的にITパスポート試験に関するヒント(プロンプト)を入力することで、ほとんどのLLMでヒントを与えない場合よりも出力(解答)の精度を上げることができた。 これにより、IT分野での正確な解答を導き出す力はLLMのモデル間で差異があり、IT分野に関してLLMに質問をする場合は、ある程度有効的に活用できるLLM(「gpt-3.5-turbo-1106」「gpt-4-11-6-preview」「ELYZA-japanese-Llama-2-7b-instruct」)と、活用に注意しなければならないLLMがあることが分かった。 返信する そう思う27 そう思わない0 開く お気に入りユーザーに登録する 無視ユーザーに登録する 違反報告する 証券取引等監視委員会に情報提供する ツイート 投稿一覧に戻る
oiu***** 3月13日 13:50
日本語言語モデルの実践的評価」研究によりIT分野での大規模言語モデル(LLM)の能力差を解明
GMOメディア<6180>は11日、「日本語言語モデルの実践的評価」研究によりIT分野での大規模言語モデル(LLM)の能力差を解明したと発表。
現在、各方面でChatGPTをはじめとする大規模言語モデル(LLM)の評価が行われており、医療や法律といった特定の専門分野での有用性に関する評価も進められている。今回、IT分野においてLLMがどの程度の能力を持っているかを解明することを目的に研究を実施。
「大規模言語モデルの日本語実践的評価:JGLUEとITパスポート試験を用いた比較分析」をテーマとした研究を実施、現在公開されている大規模言語モデル(LLM)のIT分野における推論・問題解決能力を、ITパスポート試験を解答させた。
結果から、IT分野の問題に対して一定程度論理的な解答を導き出すことが期待できることが判明、最も解答の精度が高かったのは「ELYZA-japanese-Llama-2-7b-instruct」で正答率は72.3%だった。
また、LLMに補助的にITパスポート試験に関するヒント(プロンプト)を入力することで、ほとんどのLLMでヒントを与えない場合よりも出力(解答)の精度を上げることができた。
これにより、IT分野での正確な解答を導き出す力はLLMのモデル間で差異があり、IT分野に関してLLMに質問をする場合は、ある程度有効的に活用できるLLM(「gpt-3.5-turbo-1106」「gpt-4-11-6-preview」「ELYZA-japanese-Llama-2-7b-instruct」)と、活用に注意しなければならないLLMがあることが分かった。