Skip to content

Latest commit

 

History

History

fr

Folders and files

NameName
Last commit message
Last commit date

parent directory

..
 
 

Aperçu des grands modèles de langage (LLM) en japonais

[ English | Français | 日本語 ]

LLMs en japonais et en non-japonais par taille de paramètres au fil du temps

Evolution du nombre de paramètres des LLMs en japonais et en non-japonais. Pour des informations sur le modèle japonais, nous nous référons à cet article, et pour le modèle non-japonais, nous nous référons au tableau des modèles sur LifeArchitect.ai (notez cependant que certains modèles ont été omis en raison de l'espace limité sur le graphique. De plus, le nombre de paramètres pour le modèle non-japonais inclut des valeurs estimées). Veuillez nous informer de toute correction ou ajout nécessaire.

Voici une liste des LLMs disponibles au grand public, axés sur l'apprentissage du japonais, ainsi que leurs critères d'évaluation. Cette liste est maintenue par des bénévoles qui collectent des informations à partir de diverses sources telles que des articles académiques et d'autres ressources publiques.

::: warning Attention

  1. Nous ne pouvons garantir l’exactitude ou l’exhaustivité des informations présentées ici.
  2. Certaines informations sont basées sur des conjectures et peuvent ne pas refléter votre cas d'utilisation spécifique.
  3. Bien que de nombreux modèles soient publiés sous des licences permissives telles que MIT ou Apache 2.0, certains modèles sont soumis à des conditions plus restrictives, notamment des clauses d'utilisation non commerciale (exemple CC BY-NC-SA 4.0) ou d'autres modalités légales et contractuelles :::

N'hésitez pas à signaler les erreurs sur la page issues. N'hésitez pas également à contribuer directement avec une pull request.

::: details Table des matières [[toc]] :::

Modèles IA génératives

Pour les modèles multimodal, voir ci-dessous.

Modèles développés à partir de zéro

D'usage général

Architecture Longueur Maximale du Contexte Données d'entraînement Développeur Licence / Conditions d'utilisation
Sarashina2-8x70B Mixtral
(8x70b (465b))
8,192 Sparse Upcycling on Sarashina2 (70B) SB Intuitions Sarashina Model NonCommercial License
LLM-jp-3 172B Llama
(172b, 172b-instruct3)
4,096 Pre-training: llm-jp-corpus-v3
(2.1T tokens)
Instruction Tuning: ichikara-instruction, answer-carefully, magpie-sft-v1.0, Daring-Anteater, FLAN, ichikara-instruction-format, AutoMultiTurnByCalm3-22B, ramdom-to-fixed-multiturn-Calm3, wizardlm8x22b-logical-math-coding-sft-ja, wizardlm8x22b-logical-math-coding-sft_additional-ja, Synthetic-JP-EN-Coding-Dataset-567k
DPO: synthetic data
Research and Development Center for Large Language Models Pre-trained model: LLM-jp-3 172B Terms of Use
Post-trained model: llm-jp-3-172b-instruct3 Terms of Use
LLM-jp-3 172B beta2 Llama
(172b-beta2, 172b-beta2-instruct2)
4,096 Pre-training: part of llm-jp-corpus-v3
(1.4T tokens)
Instruction Tuning: ichikara-instruction, answer-carefully, magpie-sft-v1.0, Daring-Anteater, FLAN, ichikara-instruction-format, AutoMultiTurnByCalm3-22B, ramdom-to-fixed-multiturn-Calm3, wizardlm8x22b-logical-math-coding-sft-ja, wizardlm8x22b-logical-math-coding-sft_additional-ja, Synthetic-JP-EN-Coding-Dataset-567k
Research and Development Center for Large Language Models LLM-jp-3 172B beta2 Terms of Use
LLM-jp-3 172B beta1 Llama
(172b-beta1, 172b-beta1-instruct)
4,096 Pre-training: part of llm-jp-corpus-v3
(0.7T tokens)
Instruction Tuning: ichikara-instruction, answer-carefully, Dolly Dataset, OASST1, OASST2, Aya Dataset, ichikara-instruction-format, Daring-Anteater, FLAN
Research and Development Center for Large Language Models LLM-jp-3 172B beta1 Terms of Use
LLM-jp-3 172B alpha Llama
(172b-alpha1, 172b-alpha1-instruct, 172b-alpha2, 172b-alpha2-instruct)
4,096 Pre-training: part of llm-jp-corpus-v3
(alpha1: 0.7T tokens, alpha2: 1.4T tokens)
Instruction Tuning: ichikara-instruction, answer-carefully, Dolly Dataset, OASST1, OASST2, Aya Dataset, ichikara-instruction-format, Daring-Anteater, FLAN
Research and Development Center for Large Language Models Apache 2.0
Stockmark-100b Llama
(100b, 100b-instruct-v0.1)
4,096 Pre-training: RedPajama, Wikipedia en japonais, Japanese mC4, Japanese CommonCrawl, Japanese Patent, Stockmark Web Corpus
(910B tokens)
Instruction Tuning (LoRA): ichikara-instruction
Stockmark MIT
PLaMo-100B-Pretrained Llama1
(100b)
4,096 Pre-training: Japanese CommonCrawl, RefinedWeb, undisclosed
(2.0T tokens)
Preferred Elements (Preferred Networks) PLaMo Non-Commercial License
Sarashina2 Llama
(7b, 13b, 70b)
7b, 13b: 4,096
70b: 8,192
Pre-training: Japanese Common Crawl, SlimPajama, StarCoder
(2.1T tokens)
SB Intuitions MIT
Sarashina1 GPT-NeoX
(7b, 13b, 65b)
2,048 Pre-training: Japanese Common Crawl
(1T tokens)
SB Intuitions MIT
Tanuki-8×8B Tanuki (MoE) (47b)
(v1.0, v1.0-AWQ, v1.0-GPTQ-4bit, v1.0-GPTQ-8bit, v1.0-GGUF)
4,096 Pre-training: various Web & synthetic datasets(1.7T tokens)
SFT, DPO: various synthetic datasets 2
Matsuo Lab LLM Development Project Apache 2.0
CyberAgentLM3 (CALM3) Llama
(22b-chat)
16,384 undisclosed
(2.0T tokens)
CyberAgent Apache 2.0
LLM-jp-3 13B Llama
(1.8b, 1.8b-instruct, 3.7b, 3.7b-instruct, 13b, 13b-instruct)
4,096 Pre-training: llm-jp-corpus-v3
(2.1T tokens)
Instruction Tuning: ichikara-instruction, answer-carefully, FLAN, ichikara-instruction-format, AutoMultiTurnByCalm3-22B, ramdom-to-fixed-multiturn-Calm3, wizardlm8x22b-logical-math-coding-sft_additional-ja, Synthetic-JP-EN-Coding-Dataset-567k
Research and Development Center for Large Language Models Apache 2.0
llm-jp-3-3.7b-instruct-EZO Llama
(3.7b-instruct-EZO-Common, 3.7b-instruct-EZO-Humanities)
4,096 additionally trained on LLM-jp-3 (3.7B) Axcxept Apache 2.0
LLM-jp-13B v2.0 Llama
(13b-v2.0, 13b-instruct-full-dolly-ichikara_004_001_single-oasst-oasst2-v2.0, 13b-instruct-full-ac_001-dolly-ichikara_004_001_single-oasst-oasst2-v2.0, 13b-instruct-full-ac_001_16x-dolly-ichikara_004_001_single-oasst-oasst2-v2.0)
4,096 Pre-training: llm-jp-corpus-v2
(260B tokens)
Instruction Tuning: ichikara-instruction, answer-carefully, Dolly Dataset, OASST1, OASST2
LLM-jp Apache 2.0
Fugaku-LLM GPT
(13B, 13B-instruct, 13B-instruct-gguf)
2,048 Pre-training: undisclosed dataset
Instruction Tuning: OASST1, Dolly Dataset, GSM8K
Titech, Tohoku Univ., Fujitsu, RIKEN, Nagoya Univ., CyberAgent, Kotoba Technologies Fugaku-LLM Terms of Use
LLM-jp-13B v1.1 GPT
(13b-instruct-lora-dolly_en-dolly_ja-ichikara_003_001-oasst_en-oasst_ja-v1.1, 13b-instruct-full-dolly_en-dolly_ja-ichikara_003_001-oasst_en-oasst_ja-v1.1, 13b-dpo-lora-hh_rlhf_ja-v1.1)
2,048 Instruction Tuning (LoRA or Full-parameter FT): Dolly Dataset, OASST1, ichikara-instruction
DPO (LoRA): HH RLHF
LLM-jp Apache 2.0
LLM-jp-13B GPT
(1.3b-v1.0, 13b-v1.0, 13b-instruct-full-jaster-v1.0, 13b-instruct-full-jaster-dolly-oasst-v1.0, 13b-instruct-full-dolly-oasst-v1.0, 13b-instruct-lora-jaster-v1.0, 13b-instruct-lora-jaster-dolly-oasst-v1.0, 13b-instruct-lora-dolly-oasst-v1.0)
2,048 Pré-entraînement: llm-jp-corpus (Wikipedia, Japanese mC4, The Pile, Stack) (300B tokens)
Instruction Tuning (Full-parameter FT or LoRA): jaster, Dolly Dataset, OASST1
LLM-jp Apache 2.0
PLaMo-13B Llama3
(13b, 13b-instruct, 13b-instruct-nc)
base: 4,096
instruct, instruct-nc: 8,192
Pré-entraînement: C4, Project Gutenberg, RedPajama, Japanese Wikipedia, Japanese mC4
(1.5T tokens)
Instruction Tuning: Dolly, HH RLHF, OASST1, wikinews (+Alpaca in NC model)
Preferred Networks Apache 2.0
(CC BY-NC 4.0 as for NC model)
Stockmark-13b Llama
(13b, 13b-instruct)
2,048 Wikipedia en japonais, Japanese CC-100, Japanese mC4, Japanese CommonCrawl, Japanese Patent, Stockmark Web Corpus
(220B tokens)
Instruction Tuning (LoRA): ichikara-instruction
Stockmark base: MIT
instruct: CC BY-NC-SA 4.0
Weblab-10B GPT-NeoX
(10b, 10b-instruction-sft)
2,048 Japanese mC4, The Pile
(600B tokens)
Instruction Tuning: Alpaca, FLAN
Université de Tokyo Matsuo Lab CC BY‑NC 4.0
Tanuki-8B Tanuki (8b)
(v1.0, v1.0-AWQ, v1.0-GPTQ-4bit, v1.0-GPTQ-8bit, v1.0-GGUF)
4,096 Pre-training: various Web & synthetic datasets(1.3T tokens)
SFT, DPO: various synthetic datasets 2
Matsuo Lab LLM Development Project Apache 2.0
Japanese StableLM Alpha GPT-NeoX
(base-alpha-7b, instruct-alpha-7b, instruct-alpha-7b-v2)
2,048 Wikipédia, Japanese CC‑100, Japanese mC4, Japanese OSCAR, RedPajama, ensembles de données privés4
(750B tokens)
Instruction Tuning: Dolly, HH‑RLHF, wikinews, Alpaca (discarded in v2)
Stability AI base: Apache 2.0
instruct (v1): Research license
instruct (v2): Apache 2.0
CyberAgentLM2 (CALM2) Llama
(7b, 7b-chat, 7b-chat-dpo-experimental)
base: 4,096
chat: 32,768
Ensembles de données japonais et anglais accessibles au public (détails inconnus)
(1.3T tokens)
DPO: Chatbot Arena Conversations JA (calm2) Dataset
CyberAgent Apache 2.0
(CC BY 4.0 as for DPO model)
OpenCALM GPT-NeoX
(small, medium, large, 1b(1.4b), 3b(2.7b), 7b(6.8b))
2,048 Wikipedia en japonais, Japanese mC4, Japanese CC‑100 CyberAgent CC BY‑SA 4.0
Stormy GPT-NeoX
(7b(6.8b))
2,048 OpenCALM fine-tuned sur
llm-japanese-dataset v0 sans âches de traduction
Université de Tokyo Izumi Lab CC BY‑SA 4.0
rinna GPT
(En-Ja Bilingual)
GPT-NeoX
(4b(3.8b), 4b(3.8b)-8k, 4b(3.8b)-instruction-sft, 4b(3.8b)-instruction-ppo)
8k model: 8,192
others: 2,048
Wikipedia, Japanese CC‑100, Japanese C4, RedPajama, The Pile
(524B tokens)
Instruction Tuning: HH‑RLHF, FLAN
PPO: HH‑RLHF par apprentissage par renforcement
8k: entrainé sur du long texte
rinna MIT
japanese-large-lm GPT-NeoX
(1.7b, 3.6b, 1.7b-instruction-sft, 3.6b-instruction-sft)
2,048 Wikipedia en japonais, Japanese CC‑100, Japanese C4, Japanese OSCAR et ensembles de données privés
(650GB)
Instruction Tuning: OASST1
LINE Apache 2.0
rinna GPT
(Japanese only)
GPT / GPT-NeoX
(xsmall, small, medium, 1b, neox-small, neox-3.6b, neox-3.6b-instruction-sft, neox-3.6b-instruction-sft-v2, neox-3.6b-instruction-ppo)
≤ 2,048 Wikipédia en japonais, Japanese CC‑100
(1b et plus modèles à ajouter
Japanese mC4)
Instruction Tuning: HH‑RLHF, FLAN, SHP
PPO: HH‑RLHF par apprentissage par renforcement
rinna MIT
RetrievaT5 T5
(small (short), small (medium), small (long), base (short), base (medium), base (long), large (short), large (medium), large (long), xl(3b))
Wikipédia en japonais, Japanese mC4 Retrieva CC BY‑SA 4.0
Spiral-RetNet-3b-base RetNet
(3b)
2,048 Wikipedia, Japanese CC-100, CulturaX Spiral.AI MIT
kotomamba-2.8B Mamba
(2.8B-v1.0)
2,048 Wikipedia en japonais, Swallow Corpus, SlimPajama Kotoba Technologies Apache 2.0
ABEJA GPT GPT / GPT-NeoX
(large, neox-2.7b)
Japanese Wikipedia, Japanese CC‑100, Japanese OSCAR ABEJA MIT
WasedaGPT GPT
(small, xl(1.5b))
Wikipédia en japonais, Japanese CC‑100 Université de Waseda Kawahara Lab CC BY‑SA 4.0
StockmarkGPT GPT-NeoX
(1.4b)
Wikipédia en japonais (0.88B tokens), Japanese CC‑100 (10.5B tokens), ensembles de données privés (8.6B tokens) Stockmark MIT
YellowbackGPT GPT-NeoX
(1.3b)
Wikipédia en japonais, Japanese CC‑100, Japanese OSCAR Yellowback Apache 2.0
Sarashina2.1-1B Llama
(1b)
8,192 Japanese and English data on the web (10T tokens) SB Intuitions Sarashina Model NonCommercial License
colorfulscoop GPT GPT
(small)
Wikipédia en japonais Colorful Scoop CC BY‑SA 3.0
TitechGPT GPT
(medium, medium-reversed) 5
Wikipédia en japonais, Japanese CC‑100 Titech Okazaki Lab CC BY‑SA 4.0
KyotoUniversityGPT GPT
(small, medium, large)
Wikipédia en japonais (3.2GB), Japanese CC‑100 (85GB), Japanese OSCAR (54GB) Université de Kyoto Laboratoire de traitement des langues et des médias CC BY‑SA 4.0
JapaneseBART BART
(base, large)
Wikipédia en japonais (18M sentences) Université de Kyoto Laboratoire de traitement des langues et des médias CC BY‑SA 4.0
Megagon Labs T5 T5
(base)
Japanese mC4 (782 GB), Wikipédia en japonais 40b (2 GB) Megagon Labs
(Recruit Co.,Ltd.)
Apache 2.0

Spécifique à un domaine

Domaine Architecture Données d'entraînement Développeur Licence
Japanese Dialog Transformer Dialogue Transformer Pairs de réponses venant de Twitter NTT License en évaluaiton
Japanese News BART Affaires BART (base) Articles de l'actualité économique en japonais (21M articles) Stockmark MIT
AcademicBART Science BART (base) CiNii Japanese Papers Université d'Ehime AI Lab Apache 2.0

Modèles développés à partir d'LLM non-japonais (avec un apprentissage en continue en japonais)

D'usage général

Base du Model Données d'entraînement Développeur Licence / Conditions d'utilisation
Llama 3.1 Swallow 70B
(70B-v0.1, 70B-Instruct-v0.1, 70B-Instruct-v0.3)
Llama 3.1 (70b) Pre-training: The Stack v2, Wikipedia, DCLM-baseline-1.0, Swallow Corpus Version 2, Cosmopedia, Laboro ParaCorpus
Instruction Tuning: lmsys-chat-1m-synth-ja-wo-pii-and-template-instructions, lmsys-chat-1m-synth-en-wo-pii-and-template-instructions, filtered-magpie-ultra-ja, filtered-magpie-ultra-en, gemma-magpie
Swallow Project Llama 3.1 Community License
(Gemma Terms of Use is also applied to the Instruct model)
cyberagent/Llama-3.1-70B-Japanese-Instruct-2407 Llama 3.1 (70b) undisclosed CyberAgent Llama 3.1 Community License
Llama 3 Swallow 70B
(70B-v0.1, 70B-Instruct-v0.1)
Llama 3 (70b) Pre-training: Algebraic Stack, Wikipedia, RefinedWeb, Swallow Corpus, Cosmopedia, Laboro ParaCorpus, OpenWebMath
Instruction Tuning: OASST1 6
Swallow Project Llama 3 Community License
turing-motors/Llama-3-heron-brain-70B-v0.3 Llama 3 (70b) additionally trained on Llama 3 Swallow 70B (details undisclosed) Turing Llama 3 Community License
Llama 3 Youko 70B
(70b, 70b-instruct, 70b-gptq, 70b-instruct-gptq)
Llama 3 (70b) Pre-training: Wikipedia, Japanese C4, Japanese CC-100, Japanese OSCAR, The Pile, undisclosed dataset
(5B tokens)
Instruction Tuning: undisclosed datasetト7
rinna Llama 3 Community License
Swallow 70B
(70b-hf, 70b-instruct-hf, 70b-instruct-v0.1, 70b-NVE-hf, 70b-NVE-instruct-hf)
Llama 2 (70b) Pre-training: Japanese Wikipedia, RefinedWeb, Swallow Corpus, The Pile
Instruction Tuning: Dolly Dataset, HH RLHF, OASST1
*v0.1: OASST1, OASST2
Swallow Project Llama 2 Community License
KARAKURI LM
(70b-v0.1, 70b-chat-v0.1)
Llama 2 (70b) Pre-training: mC4, CC100, OSCAR, RedPajama, undisclosed dataset
(16B tokens)
SteerLM: OASST2, undisclosed dataset
KARAKURI Llama 2 Community License8
Japanese Stable LM Beta 70B
(base-beta-70b, instruct-beta-70b)
Llama 2 (70b) Pre-training: Wikipedia, Japanese mC4, Japanese CC-100, Japanese OSCAR, SlimPajama(excluding Books3)
(100B tokens)
Instruction Tuning: Dolly Dataset, HH RLHF, OASST1
Stability AI Llama 2 Community License
Swallow-MX 8x7B
(8x7b-NVE-v0.1)
Mixtral-8x7B-Instruct-v0.1 (46.7b) Pre-training: Algebraic Stack, Japanese Wikipedia, RefinedWeb, Swallow Corpus, The Pile, The Vault Swallow Project Apache 2.0
KARAKURI LM 8x7B Instruct v0.1
(8x7b-instruct-v0.1)
Mixtral-8x7B-Instruct-v0.1 (46.7b) trained Swallow-MX 8x7B on the following datasets: Dolly Dataset, OASST2, HelpSteer, glaive-code-assistant-v3, glaive-function-calling-v2, synthetic_text_to_sql, MetaMathQA, orca-math-word-problems-200k, rag-dataset-12000, rag-hallucination-dataset-1000, undisclosed dataset KARAKURI Apache 2.0 (?)9
KARAKURI LM 8x7B Chat v0.1
(8x7b-chat-v0.1)
Mixtral-8x7B-Instruct-v0.1 (46.7b) trained Swallow-MX 8x7B on OASST2, HelpSteer, and undisclosed datasets using SteerLM KARAKURI Apache 2.0
ABEJA-Mixtral-8x7B-japanese
(8x7B-v0.1-japanese, 8x7B-Instruct-v0.1-japanese, 8x7B-Instruct-v0.1-japanese-alpha, 8x7B-Instruct-v0.1-japanese-alpha-merged)
Mixtral-8x7B-Instruct-v0.1 (46.7b)
*Le modèle sans "Instruct" dans son nom est basé sur Mixtral-8x7B-v0.1
Pre-training: Japanese CC, Redpajama, undisclosed dataset
450B tokens)
ABEJA Apache 2.0
Nekomata 14B
(14b, 14b-instruction, 14b-gguf, 14b-instruction-gguf)
Qwen (14b) Pre-training: Wikipedia, Japanese C4, Japanese CC-100, Japanese OSCAR, The Pile, undisclosed dataset
(66B tokens)
Instruction Tuning: Dolly Dataset, FLAN, subsets of llm-japanese-dataset
rinna Tongyi Qianwen LICENSE
Swallow 13B
(13b-hf, 13b-instruct-hf, 13b-instruct-v0.1, 13b-NVE-hf)
Llama 2 (13b) Pre-training: Japanese Wikipedia, RefinedWeb, Swallow Corpus, The Pile
Instruction Tuning: Dolly Dataset, HH RLHF, OASST1
*v0.1: OASST1, OASST2
Swallow Project Llama 2 Community License
LEIA-Swallow-13B
(13b)
Llama 2 (13b) additionally trained Swallow 13B using LEIA Individual (Ikuya Yamada, Ryokan Ri) Llama 2 Community License
ELYZA-japanese-Llama-2-13b
(13b, 13b-instruct, 13b-fast, 13b-fast-instruct)
Llama 2 (13b) Pre-training: Japanese Wikipedia, Japanese OSCAR, and other crawled data
(18B tokens)
Instruction Tuning: undisclosed dataset
ELYZA Llama 2 Community License
cyberagent/Mistral-Nemo-Japanese-Instruct-2408 Mistral NeMo (12b) undisclosed CyberAgent Apache 2.0
Llama 3.1 Swallow 8B
(8B-v0.1, 8B-Instruct-v0.1, 8B-v0.2, 8B-Instruct-v0.2, 8B-Instruct-v0.3)
Llama 3.1 (8b) Pre-training: The Stack v2, Wikipedia, DCLM-baseline-1.0, Swallow Corpus Version 2, Cosmopedia, Laboro ParaCorpus
Instruction Tuning: lmsys-chat-1m-synth-ja-wo-pii-and-template-instructions, lmsys-chat-1m-synth-en-wo-pii-and-template-instructions, filtered-magpie-ultra-ja, filtered-magpie-ultra-en, gemma-magpie
Swallow Project Llama 3.1 Community License
(Gemma Terms of Use is also applied to the Instruct model)
Llama 3 Swallow 8B
(8B-v0.1, 8B-Instruct-v0.1)
Llama 3 (8b) Pre-training: Algebraic Stack, Wikipedia, RefinedWeb, Swallow Corpus, Cosmopedia, Laboro ParaCorpus, OpenWebMath
Instruction Tuning: OASST1 6
Swallow Project Llama 3 Community License
turing-motors/Llama-3-heron-brain-8B-v0.3 Llama 3 (8b) additionally trained on Llama 3 Swallow 8B (details undisclosed) Turing Llama 3 Community License
Llama 3 Youko 8B
(8b, 8b-instruct, 8b-gptq, 8b-instruct-gptq)
Llama 3 (8b) Pre-training: Wikipedia, Japanese C4, Japanese CC-100, Japanese OSCAR, The Pile, undisclosed dataset
(22B tokens)
Instruction Tuning7: Aya Dataset (Japanese subset), FLAN, Dolly Dataset, HH RLHF, OASST1, OASST2, MetaMathQA, CodeAlpaca Dataset, undisclosed dataset
DPO: HelpSteer, HelpSteer2, undisclosed dataset
rinna Llama 3 Community License
Llama 3 ELYZA JP 8B
(8B, 8B-GGUF, 8B-AWQ)
Llama 3 (8b) undisclosed ELYZA Llama 3 Community License
Llama 3 neoAI 8B Chat v0.1
(8B-Chat-v0.1)
Llama 3 (8b) undisclosed neoAI Llama 3 Community License
Llama 3 tedllm
(v0)
Llama 3 (8b) Pre-training: Japanese generic corpus Tokyo Electron Device Llama 3 Community License
Swallow 7B
(7b-hf, 7b-instruct-hf, 7b-instruct-v0.1, 7b-NVE-hf, 7b-NVE-instruct-hf, 7b-plus-hf)
Llama 2 (7b) Pre-training: Japanese Wikipedia, RefinedWeb, Swallow Corpus, The Pile
Instruction Tuning: Dolly Dataset, HH RLHF, OASST1
*v0.1: OASST1, OASST2
Swallow Project Llama 2 Community License
LEIA-Swallow-7B
(7b)
Llama 2 (7b) additionally trained Swallow 7B using LEIA Individual (Ikuya Yamada, Ryokan Ri) Llama 2 Community License
ELYZA-japanese-Llama-2-7b
(7b, 7b-instruct, 7b-fast, 7b-fast-instruct)
Llama 2 (7b) Pre-training: Japanese Wikipedia, Japanese OSCAR, and other crawled data
(18B tokens)
Instruction Tuning: undisclosed dataset
ELYZA Llama 2 Community License
Youri 7B
(7b, 7b-instruction, 7b-chat, 7b-gptq, 7b-instruction-gptq, 7b-chat-gptq)
Llama 2 (7b) Pre-training: Wikipedia, Japanese C4, Japanese CC-100, Japanese OSCAR, The Pile, undisclosed dataset
(40B tokens)
Instruction Tuning: Dolly Dataset, FLAN, subsets of llm-japanese-dataset
rinna Llama 2 Community License
houou-7b
(instruction-7b-v1, instruction-7b-v2, instruction-7b-v3)
Llama 2 (7b) Instruction-tuned Youri 7B (base) on ichikara-instruction MoneyForward Llama 2 Community License
Japanese Stable LM Beta 7B
(base-beta-7b, base-ja_vocab-beta-7b, instruct-beta-7b, instruct-ja_vocab-beta-7b)
Llama 2 (7b) Pre-training: Wikipedia, Japanese mC4, Japanese CC-100, Japanese OSCAR, SlimPajama(excluding Books3)
(100B tokens)
Instruction Tuning: Dolly Dataset, HH RLHF, OASST1
Stability AI Llama 2 Community License
SambaLingo-Japanese
(Base, Chat)
Llama 2 (7b) Pre-training: CulturaX
Instruction Tuning: ultrachat_200k
DPO: ultrafeedback, cai-conversation-harmless
SambaNova Systems Llama 2 Community License (?)9
blue-lizard
(blue-lizard)
Llama 2 (7b) undisclosed Deepreneur Llama 2 Community License
Swallow-MS 7B
(7b-v0.1, 7b-instruct-v0.1)
Mistral-7B-v0.1 (7b) Pre-training: Algebraic Stack, Japanese Wikipedia, RefinedWeb, Swallow Corpus, The Pile
Instruction Tuning: Dolly Dataset, OASST1
Swallow Project Apache 2.0
RakutenAI-7B
(7B, 7B-instruct, 7B-chat)
Mistral-7B-v0.1 (7b) Pre-training: undisclosed
Instruction Tuning: Dolly Dataset, OASST1, datasets converted from the train split of NLU datasets (like jaster), undisclosed dataset
Rakuten Apache 2.0
Japanese Stable LM Gamma 7B
(base-gamma-7b, instruct-gamma-7b)
Mistral-7B-v0.1 (7b) Pre-training: Wikipedia, Japanese mC4, Japanese CC-100, Japanese OSCAR, SlimPajama(excluding Books3)
(100B tokens)
Instruction Tuning: Dolly Dataset, HH RLHF, wikinews subset of llm-japanese-dataset
Stability AI Apache 2.0
ChatNTQ JA 7B
(7b-v1.0)
Mistral-7B-v0.1 (7b) Instruction-tuned Japanese Stable LM Gamma 7B (base) on their own datasets NTQ Solution Apache 2.0
Shisa Gamma 7B
(7b-v1)
Mistral-7B-v0.1 (7b) Instruction-tuned Japanese Stable LM Gamma 7B (base) on ultra-orca-boros-en-ja AUGMXNT Apache 2.0 (?)9
Shisa 7B
(base-7b-v1, 7b-v1)
Mistral-7B-v0.1 (7b) Pre-training: shisa-pretrain-en-ja-v1 (8B tokens)
Instruction Tuning & DPO: ultra-orca-boros-en-ja, shisa-en-ja-dpo-v1
AUGMXNT Apache 2.0
Karasu
(7B, 7B-chat, 7B-chat-plus, 7B-chat-plus-unleashed)
Mistral-7B-v0.1 (7b) Additionally trained Shisa 7B (base) on Aozora Bunko, Japanese Law Precedent Dataset, Japanese Wikipedia, Japanese domain webscrapes from the Japanese subset of CulturaX, UltraChat 200k
(7B tokens)
Instruction Tuning: ultra-orca-boros-en-ja-v1, OASST1, ShareGPT, undisclosed dataset
Lightblue Apache 2.0 (?)9
Nekomata 7B
(7b, 7b-instruction, 7b-gguf, 7b-instruction-gguf)
Qwen (7b) Pre-training: Wikipedia, Japanese C4, Japanese CC-100, Japanese OSCAR, The Pile, undisclosed dataset
(66B tokens)
Instruction Tuning: Dolly Dataset, FLAN, subsets of llm-japanese-dataset
rinna Tongyi Qianwen LICENSE
lightblue/japanese-mpt-7b MPT (7b) Japanese mC4 Lightblue Apache 2.0 (?)9
Japanese Stable LM 3B-4E1T
(3b-4e1t-base, 3b-4e1t-instruct)
StableLM-3B-4E1T (3b) Pre-training: Wikipedia, Japanese mC4, Japanese CC-100, Japanese OSCAR, SlimPajama(excluding Books3)
(100B tokens)
Instruction Tuning: Dolly Dataset, HH RLHF, wikinews subset of llm-japanese-dataset
Stability AI Apache 2.0
kotomamba-2.8B-CL mamba-2.8b-slimpj
(2.8b)
Japanese Wikipedia, Swallow Corpus, SlimPajama Kotoba Technologies Apache 2.0
Gemma 2 Baku 2B
(2b, 2b-it)
Gemma 2 (2b) Pre-training: Wikipedia, Japanese C4, Japanese CC-100, Japanese OSCAR, The Pile, undisclosed dataset
(80B tokens)
OPRO: undisclosed dataset 10
rinna Gemma Terms of Use
Japanese Stable LM 2 1.6B
(base, instruct)
Stable LM 2 1.6B (1.6b) Pre-training: Wikipedia, CulturaX
Instruction Tuning: jaster, ichikara-instruction, alpaca-gpt4-japanese, ultra-orca-boros-en-ja-v1
Stability AI STABILITY AI NON-COMMERCIAL RESEARCH COMMUNITY LICENSE
karasu-1.1B TinyLlama (1.1b) Pre-training: Japanese OSCAR, Japanese mC4
(3B tokens)
Lightblue Apache 2.0

Spécifique à un domaine

Domaine Base du Model Développeur Licence
Llama3-Preferred-MedSwallow-70B
(70B)
Médecine Llama 3 (70b) Preferred Networks Llama 3 Community License
AIgroup-CVM-utokyohospital/MedSwallow-70b Médecine Llama 2 (70b) Université de Tokyo - AI Group du Département hospitalier de médecine cardiovasculaire CC BY-NC-SA 4.0
nekomata-14b-pfn-qfin
(qfin, qfin-inst-merge)
Finance Qwen (14b) Preferred Networks Tongyi Qianwen LICENSE
Watashiha-Llama-2-13B-Ogiri-sft
(sft, sft-neuron)
Oogiri Llama 2 (13b) Watashiha Llama 2 Community License
ELYZA-japanese-CodeLlama-7b
(7b, 7b-instruct)
Codage Code Llama
(7b)
ELYZA Llama 2 Community License
AIBunCho/japanese-novel-gpt-j-6b Génération de récits GPT-J (6b) Individuel (Hiroyuki Osone) CreativeML OpenRAIL-M License
NovelAI/genji-jp Génération de récits GPT-J (6b) NovelAI

Modèles développés à partir d'LLM non-japonais (avec un post-entraînement en japonais)

D'usage général

Base du Model Données d'entraînement Développeur Licence / Conditions d'utilisation
AXCXEPT/EZO-Qwen2.5-72B-Instruct
AXCXEPT/EZO-AutoCoTRAG-Qwen2.5-72B-Instruct_q4
Qwen2.5 (72b) Axcxept Qwen License
ao-Karasu
(72B)
Qwen1.5 (72b) ultra-orca-boros-en-ja-v1, OASST1, ShareGPT, Japanese technical blogs, News stories, QA site answers, undisclosed dataset Lightblue Tongyi Qianwen LICENSE (?)9
AXCXEPT/Llama-3.1-70B-EZO-1.1-it Llama 3.1 (70b) Axcxept Llama 3.1 Community License
Llama 3 shisa-v1-llama3-70b
(70b)
Llama 3 (70b) ultra-orca-boros-en-ja-v1 Shisa.AI Llama 3 Community License (?)9
AIgroup-CVM-utokyohospital/Llama-2-70b-chat-4bit-japanese Llama 2 (70b) Université de Tokyo - AI Group du Département hospitalier de médecine cardiovasculaire Llama 2 Community License
doshisha-mil/llama-2-70b-chat-4bit-japanese-v1 Llama 2 (70b) Université de Doshisha Media Informatics Lab
AXCXEPT/EZO-Qwen2.5-32B-Instruct
AXCXEPT/EZO-AutoCoTRAG-Qwen2.5-32B-Instruct
Qwen2.5 (32b) Axcxept Apache 2.0
Qarasu
(14B-chat-plus-unleashed)
Qwen (14b) ultra-orca-boros-en-ja-v1, OASST1, ShareGPT, undisclosed dataset Lightblue Tongyi Qianwen LICENSE (?)9
Sparticle/llama-2-13b-chat-japanese-lora Llama 2 (13b) Sparticle
izumi-lab/llama-13b-japanese-lora-v0-1ep Llama (13b) Université de Tokyo Izumi Lab
AXCXEPT/EZO-Common-9B-gemma-2-it Gemma 2 (9b) Axcxept Gemma Terms of Use
AXCXEPT/EZO-Humanities-9B-gemma-2-it Gemma 2 (9b) Axcxept Gemma Terms of Use
AXCXEPT/Llama-3.1-8B-EZO-1.1-it Llama 3.1 (8b) Axcxept Llama 3.1 Community License
Llama 3 Suzume 8B
(8B-japanese, 8B-japanese-gguf)
Llama 3 (8b) megagonlabs/instruction_ja, ShareGPT, undisclosed dataset Lightblue Llama 3 Community License (?)9
Llama 3 shisa-v1-llama3-8b
(8b)
Llama 3 (8b) ultra-orca-boros-en-ja-v1 Shisa.AI Llama 3 Community License (?)9
AXCXEPT/Llama-3-EZO-8b-Common-it Llama 3 (8b) Axcxept Llama 3 Community License
ganchengguang/Yoko-7B-Japanese-v1 Llama 2 (7b) Université nationale de Yokohama Mori Lab
Sparticle/llama-2-7b-chat-japanese-lora Llama 2 (7b) Sparticle
izumi-lab/llama-7b-japanese-lora-v0-5ep Llama (7b) Université de Tokyo Izumi Lab
lightblue/jod Mistral-7B-SlimOrca (7b) Lightblue Apache 2.0
NTQAI/chatntq-7b-jpntuned RWKV-4 World (7b) NTQ Solution
Borea
(Jp, Common, Coding)
Phi-3.5 (3.8b) Axcxept MIT
AXCXEPT/EZO-Llama-3.2-3B-Instruct-dpoE Llama 3.2 (3b) Axcxept Llama 3.2 Community License
Gemma-2-JPN
(2b-jpn-it)
Gemma 2 (2b) Google Gemma Terms of Use
AXCXEPT/EZO-gemma-2-2b-jpn-it Gemma 2 (2b) Axcxept Gemma Terms of Use
AXCXEPT/EZO-Common-T2-2B-gemma-2-it Gemma 2 (2b) Axcxept Gemma Terms of Use

Spécifique à un domaine

Domaine Base du Model Développeur Licence
JMedLoRA
(llama2-jmedlora-6.89ep)
Médecine Llama 2 (70b) Université de Tokyo - AI Group du Département hospitalier de médecine cardiovasculaire CC BY-NC 4.0
AXCXEPT/Qwen2.5-Math-7B-Instruct-jp-EZO_OREO Mathématiques Qwen2.5-Math-7B-Instruct (7b) Axcxept Apache 2.0

Modèles fusionnés

Modèles originaux (LLMs japonais en gras) Développeur Licence
EQUES/MedLLama3-JP-v2 Llama 3 Swallow 8B (Instruct), OpenBioLLM-8B, MMed-Llama 3 8B, Llama 3 ELYZA JP 8B EQUES Llama 3 Community License
EvoLLM-JP-A
(v1-7B)
Shisa Gamma 7B (v1), Arithmo2 Mistral 7B, Abel 7B 002 Sakana AI Apache 2.0
EvoLLM-JP
(v1-7B, v1-10B)
Shisa Gamma 7B (v1), WizardMath-7B-V1.1, Abel 7B 002 Sakana AI MICROSOFT RESEARCH LICENSE

Modèles basés sur des API

Longueur Maximale du Contexte Développeur Plateforme
Solar mini chat ja
(solar-1-mini-chat-ja)
32,768 Upstage self-owned
AI Novelist 2,400 ~ 8,192 Bit192 self-owned
LHTM-OPT alt Inc. AWS Marketplace
tsuzumi
(tsuzumi-7b)
NTT Azure AI Foundry

Modèles encodeur

D'usage général

Architecture Longueur d'entrée maximale Données d'entraînement Développeur Licence HuggingFace? 11
KyotoUniBERT BERT (base, large) 512 Wikipédia en japonais (18M articles) Université de Kyoto Laboratoire de traitement des langues et des médias Apache 2.0
TohokuUniversityBERT BERT (base, large) 512 base (v1):
Wikipédia en japonais (17M articles / 2.6GB)
base (v2) & large:
Wikipédia en japonais 4.0GB
base (v3) & large (v2):
Wikipédia en japonais (4.9GB), Japanese CC‑100 (74.3GB)
Université de Tohoku - Groupe TAL base (v1, v2) & large: CC BY‑SA 3.0
base (v3) & large (v2): Apache 2.0

(base (v1), base (v1, char-level), base (v2), base (v2, char-level), large, large (char-level), base (v3), base (v3, char-level), large (v2), large (v2, char-level))
TohokuNLP BERT-alpha 500M Llama-based encoder12 4,096
or
8,192
Japanese subset of llm-jp-corpus-v3 Tohoku University NLP Group Apache 2.0 ◯ (sq4096-alpha, sq8192-alpha)
NICT BERT BERT (base) 512 Wikipédia en japonais NICT CC BY 4.0
Laboro BERT BERT (base, large) 512 Corpus web en japonais
(Actualités, blogs, etc) (12GB)
Laboro.AI CC BY‑NC 4.0
colorfulscoop BERT BERT (base) 512 Wikipédia en japonais Colorful Scoop CC BY‑SA 3.0
UniversityOfTokyoBERT BERT (small) 512 Wikipédia en japonais (2.9GB) Université de Tokyo Izumi Lab CC BY‑SA 4.0
chiTra (Sudachi Transformers) BERT (base) 512 NINJAL Web Japanese Corpus (148GB) NINJAL, WAP Tokushima - Laboratoire IA et TAL Apache 2.0
ACCMS BERT BERT (base) 512 Wikipédia en japonais (3.3GB) Université de Kyoto ACCMS CC BY‑SA 4.0
HitachiBERT BERT (base) 512 Wikipédia en japonais, Japanese CC‑100 Hitachi CC BY‑NC‑SA 4.0 13
RetrievaBERT BERT 14 2,048 Japanese CommonCrawl, RefinedWeb, Chinese Wikipedia, Korean Wikipedia, The Stack Retrieva Apache 2.0
Bandai Namco DistilBERT DistilBERT 512 (Distillation de BERT (base) de l'Université du Tohoku) Bandai Namco Research MIT
Laboro DistilBERT DistilBERT 512 (Distillation of Laboro BERT(base)) Laboro.AI CC BY‑NC 4.0
LINE DistilBERT DistilBERT 512 (Distillation de LINE en interne BERT model) LINE Apache 2.0
rinna RoBERTa RoBERTa (base) 512 Wikipédia en japonais, Japanese CC‑100 rinna MIT
WasedaRoBERTa RoBERTa (base, large) 512 Wikipédia en japonais, Japanese CC‑100 Waseda Kawahara Lab CC BY‑SA 4.0
(base, large, large (seq512))15
InformatixRoBERTa RoBERTa (base) 512 Wikipédia en japonais, Web Articles
(25GB)
Informatix Apache 2.0
KyotoUniversityRoBERTa RoBERTa (base, large) 512 Wikipédia en japonais, Japanese CC‑100 Université de Kyoto Laboratoire de traitement des langues et des médias CC BY‑SA 4.0
(base (char-level), large (char-level))
YokohamaNationalRoBERTa RoBERTa (base) 512 Wikipédia en japonais (3.45GB) Université nationale de Yokohama - Mori Lab Apache 2.0
Megagon Labs RoBERTa RoBERTa (base)16 1,282 Japanese mC4 (200M sentences) Megagon Labs
(Recruit Co.,Ltd.)
MIT
ACCMS RoBERTa RoBERTa (base) 512 Wikipédia en japonais (3.3GB) + Japanese CC‑100 (70GB) Université de Kyoto ACCMS CC BY‑SA 4.0
CinnamonELECTRA ELECTRA (small) 512 Wikipédia en japonais Cinnamon Apache 2.0
Megagon Labs ELECTRA ELECTRA (base) 512 Japanese mC4 (200M sentences) Megagon Labs
(Recruit Co.,Ltd.)
MIT
UniversityOfTokyoELECTRA ELECTRA (small, base) 512 Wikipédia en japonais (2.9GB) Université de Tokyo Izumi Lab CC BY‑SA 4.0
(small, base)
JapaneseRoFormer RoFormer (base) 512 Wikipédia en japonais (3.45GB) Université nationale de Yokohama - Mori Lab Apache 2.0
JapaneseLUKE LUKE (base, large) 512 Wikipédia en japonais Studio Ousia Apache 2.0
(base, large)
KyotoUniversityDeBERTaV2 DeBERTaV2 (tiny, base, large) 512 Wikipédia en japonais, Japanese CC‑100, Japanese OSCAR
(171GB)
Université de Kyoto - Laboratoire du traitement des langues et médias CC BY‑SA 4.0
(tiny, tiny (char-level), base, large)
KyotoUniversityDeBERTaV3 DeBERTaV3 (base) 512 llm-jp-corpus Kyoto University Language Media Processing Lab Apache 2.0
UniversityOfTokyoDeBERTaV2 DeBERTaV2 (small, base) 512 Wikipédia en japonais, Japanese Wikinews, Japanese CC-100, Japanese mC4, Japanese OSCAR University of Tokyo Izumi Lab CC BY-SA 4.0 ◯ (small, base)
GLOBIS DeBERTaV3 DeBERTaV3 (xsmall, base, large) 512 Wikipedia, WikiBooks, Aozora Bunko, Japanese CC-100, Japanese mC4, Japanese OSCAR GLOBIS CC BY-SA 4.0 ◯ (xsmall, base, large)
JapaneseBigBird BigBird (base) 4,096 Wikipédia en japonais, Japanese CC‑100, Japanese OSCAR Waseda Kawahara Lab CC BY‑SA 4.0
JapaneseLayoutLM LayoutLM (base) 512 Pre-trained on Japanese Wikipedia, initialized with TohokuUniversityBERT The Japan Research Institute, Limited CC BY-SA 3.0

Spécifique à un domaine

Domaine Architecture Données d'entraînement Développeur Licence HuggingFace?
JapaneseBlogELECTRA Langue familière ELECTRA (small) Corpus de blogs en japonais (354M sentences) Université de technologie de Kitami - Laboratoire de Masui-Ptaszynski CC BY‑SA 4.0
JapaneseSpokenLanguageBERT Langue parlée BERT (base) Formation supplémentaire pour TohokuUniversityBERT en utilisant le Corpus of Spontaneous Japanese (CSJ)
(Dans le modèle DAPT, le compte rendu de la diète est également utilisé)
Retrieva Apache 2.0
AcademicRoBERTa Science RoBERTa (base) CiNii Japanese Papers (6.3M sentences) Université d'Ehime Laboratoire IA Apache 2.0
local-politics-BERT Politique BERT (base) Procès-verbaux de la Diète nationale, Procès-verbaux de l'Assemblée locale Projet de Corpus des Procès-Verbaux des Assemblées Locales Japonaises CC BY-SA 4.0 ◯ (SC-min, SC-minwiki, SC-2M-wiki, SC-2M-min, SC-2M-minwiki, FP-min, FP-minwiki) 17
UBKE-LUKE Économie LUKE (base) Wikipédia en japonais, Rapports financiers, Articles de nouvelles économiques Uzabase CC BY-NC
JapaneseFinancialBERT Finance BERT (small, base)18 Wikipédia en japonais, Japanese Financial Corpus (27M sentences/5.2GB) Université de Tokyo Izumi Lab CC BY‑SA 4.0
(small, base)
JapaneseFinancialELECTRA Finance ELECTRA (small) Wikipédia en japonais (20M sentences/2.9GB), Japanese Financial Corpus (27M sentences/5.2GB) Université de Tokyo Izumi Lab CC BY‑SA 4.0
JapaneseNewsBERT Affaires BERT (base) Articles sur l'économie en japonais(3M articles) Stockmark CC BY 4.0
JapaneseNewsXLNet Affaires XLNet (base) Articles sur l'économie en japonais (3M articles) Stockmark
※ Version non officielle
JapaneseNewsALBERT Affaires ALBERT (base) Articles sur l'économie en japonais (3M articles) Stockmark
MinpakuBERT Patrimoine culturel BERT (base) Formation supplémentaire avec les données du patrimoine culturel du Musée national d'ethnologie sur Tohoku University BERT Université de Hyogo Ohshima Lab MIT ◯ (minpaku-v1, minpaku-v3, minpaku-v3-no-additional-token)
UTH-BERT Médecine BERT (base) Dossiers médicaux en japonais (120M lignes) Université de Tokyo Hôpital
Cours de développement en IA pour la médecine
CC BY‑NC‑SA 4.0
medBERTjp Médecine BERT (base) Wikipédia en japonais, Corpus médical en japonais ("今日の診療プレミアム/Today's Care Premium" Web Version) Université d'Osaka Hôpital
Laboratoire d'information médicale
CC BY‑NC‑SA 4.0
JMedRoBERTa Médecine RoBERTa (base) Japanese Medical Papers (11M sentences/1.8GB) NII Aizawa Lab CC BY‑NC‑SA 4.0
(ManbyoWordPiece, SentencePiece)19

Plongement lexical par mots et par documents 20

Bi-Encoders

Single-representation bi-encoders

Longueur Maximale du Contexte Développeur Licence
sbintuitions/sarashina-embedding-v1-1b 8,192 SB Intuitions Sarashina Model NonCommercial License
RoSEtta
(pkshatech/RoSEtta-base-ja)
1,024 PKSHA Technology Apache 2.0
GLuCoSE v2
(pkshatech/GLuCoSE-base-ja-v2)
512 PKSHA Technology Apache 2.0
Ruri
(cl-nagoya/ruri-pt-small, cl-nagoya/ruri-pt-base, cl-nagoya/ruri-pt-large, cl-nagoya/ruri-small, cl-nagoya/ruri-base, cl-nagoya/ruri-large)
512 Université de Nagoya - Sasano Group Apache 2.0
Japanese SimCSE
(cl-nagoya/unsup-simcse-ja-base, cl-nagoya/unsup-simcse-ja-large, cl-nagoya/sup-simcse-ja-base, cl-nagoya/sup-simcse-ja-large)
512 Université de Nagoya - Sasano Group CC BY-SA 4.0
GLuCoSE
(pkshatech/GLuCoSE-base-ja)
512 PKSHA Technology Apache 2.0
colorfulscoop/sbert-base-ja Colorful Scoop CC BY‑SA 4.0
MU-Kindai/SBERT-JSNLI-base
MU-Kindai/SBERT-JSNLI-large
Université de Kindai
MU-Kindai/Japanese-SimCSE-BERT-base-unsup
MU-Kindai/Japanese-SimCSE-BERT-large-unsup
MU-Kindai/Japanese-SimCSE-RoBERTa-base-unsup
MU-Kindai/Japanese-SimCSE-BERT-base-sup
MU-Kindai/Japanese-SimCSE-BERT-large-sup
Université de Kindai MIT
pkshatech/simcse-ja-bert-base-clcmlp PKSHA Technology CC BY‑SA 4.0
MU-Kindai/Japanese-MixCSE-BERT-base
MU-Kindai/Japanese-MixCSE-BERT-large
Université de Kindai MIT
MU-Kindai/Japanese-DiffCSE-BERT-base Université de Kindai MIT
bclavie/fio-base-japanese-v0.1 Individuel (Benjamin Clavié)
cl-nagoya/shioriha-large-pt Université de Nagoya - Sasano Group

Multi-representation bi-encoders

Développeur Licence
JaColBERTv2.5
(JaColBERTv2.4, JaColBERTv2.5)
Answer.AI MIT
JaColBERTv2
(JaColBERTv2)
Individuel (Benjamin Clavié) MIT
JaColBERT
(JaColBERT)
Individuel (Benjamin Clavié) MIT

Cross-Encoders

Développeur Licence
Ruri-Reranker
(cl-nagoya/ruri-reranker-stage1-small, cl-nagoya/ruri-reranker-stage1-base, cl-nagoya/ruri-reranker-stage1-large, cl-nagoya/ruri-reranker-small, cl-nagoya/ruri-reranker-base, cl-nagoya/ruri-reranker-large)
Université de Nagoya - Sasano Group Apache 2.0
hotchpotch/japanese-reranker-cross-encoder-xsmall-v1
hotchpotch/japanese-reranker-cross-encoder-small-v1
hotchpotch/japanese-reranker-cross-encoder-base-v1
hotchpotch/japanese-reranker-cross-encoder-large-v1
hotchpotch/japanese-bge-reranker-v2-m3-v1
Individuel (Yuichi Tateno) MIT

Modèles Vision-Language

Text+Image vers Text

Modèles développés à partir de zéro

D'usage général

Architecture Données d'entraînement Développeur License / Terms of Use
llava-calm2-siglip
(llava-calm2-siglip)
LLaVA-1.5 coversational data generated from MS-COCO and VisualGenome CyberAgent Apache 2.0
LLM-jp-3 VILA 14B
(14b)
LLaVA-1.5 Japanese image text pairs, LLaVA-Pretrain, Japanese interleaved data, coyo (subset), mmc4-core (subset), llava-instruct-ja, japanese-photos-conv, ja-vg-vqa, synthdog-ja, LLaVA-1.5 instruction data (subset) Research and Development Center for Large Language Models Apache 2.0 & OpenAI Terms of Use
Heron
(blip-ja-stablelm-base-7b-v0, blip-ja-stablelm-base-7b-v1, blip-ja-stablelm-base-7b-v1-llava-620k, git-ja-stablelm-base-7b-v0, git-ELYZA-fast-7b-v0, git-ja-stablelm-base-7b-v1)
BLIP-2 / GIT v1: LLaVA-Instruct-150K-JA or LLaVA-Instruct-620K-JA
v0: LLaVA-Instruct-150K-JA, Japanese STAIR Captions, Japanese Visual Genome VQA dataset
Turing CC BY-NC 4.0
Japanese Stable VLM
(japanese-stable-vlm)
LLaVA-1.5 Japanese CC12M, STAIR Captions, jeu de données Japanese Visual Genome VQA Stability AI STABILITY AI JAPANESE STABLE VLM COMMUNITY LICENSE
Japanese InstructBLIP Alpha
(japanese-instructblip-alpha)
InstructBLIP Japanese CC12M, STAIR Captions, jeu de données Japanese Visual Genome VQA Stability AI JAPANESE STABLELM RESEARCH LICENSE
rinna MiniGPT-4
(bilingual-gpt-neox-4b-minigpt4)
MiniGPT-4 CC12M, COCO 2014, Visual Genome, STAIR Captions, Japanese Visual Genome VQA dataset rinna MIT

Spécifique à un domaine

Architecture Domaine Développeur Licence
watashiha/Watashiha-Llama-2-13B-Ogiri-sft-vlm LLaVA Oogiri Watashiha Llama 2 Community License

Modèles développés à partir d'VLM non-japonais

Base du Model Données d'entraînement Développeur Licence
AXCXEPT/EZO-InternVL2-26B InternVL2 -  Axcxept MIT

Modèles fusionnés

Modèles originaux (LLMs japonais en gras) Développeur Licence
Llama-3-EvoVLM-JP-v2
(v2)
Mantis-8B-SigLIP-Llama-3, Llama-3-ELYZA-JP-8B, Bunny-v1.1-Llama-3-8B-V Sakana AI Llama 3 Community License
AXCXEPT/Llama-3-EZO-VLM-1 (trained from Llama-3-EvoVLM-JP-v2) Axcxept Llama 3 Community License
EvoVLM-JP
(v1-7B)
Shisa Gamma 7B (v1), LLaVA-1.6-Mistral-7B Sakana AI Apache 2.0

Text vers Image

D'usage général

Architecture Training Data Développeur License
CommonArt β
(commonart-beta)
PixArt-Σ CommonCatalog-cc-by, Megalith-10M, Smithonian Open Access, ArtBench (CC-0 only) AI Picasso Apache 2.0
EvoSDXL-JP
(v1)
Stable Diffusion - (merged from several diffusion models, including Japanese Stable Diffusion XL) Sakana AI Apache 2.021
Japanese Stable Diffusion XL
(japanese-stable-diffusion-xl)
Stable Diffusion Inconnu Stability AI STABILITY AI JAPANESE STABLE DIFFUSION XL COMMUNITY LICENSE
TohokuUniversity Stable Diffusion
(base, refiner)
Stable Diffusion Corpus parallèle anglais-japonais de la tâche partagée WMT2023, environ 13 millions de légendes de laion2B-multi Université de Tohoku - Groupe TAL CreativeML OpenRAIL-M License
rinna Stable Diffusion
(japanese-stable-diffusion)
Stable Diffusion LAION-5B Japanese Subset (100M images) rinna CreativeML OpenRAIL-M License

Spécifique à un domaine

Architecture Domaine Développeur Licence
Evo-Nishikie
(v1)
Stable Diffusion (ControlNet) Ukiyo-e Sakana AI Apache 2.021
Evo-Ukiyoe
(v1)
Stable Diffusion Ukiyo-e Sakana AI Apache 2.021

Text vers Vidéo

Architecture Training Data Développeur License
AIdeaLab VideoJP
(AIdeaLab-VideoJP)
CogVideoX Pixabay, FineVideo AIdeaLab Apache 2.0

Autres

Architecture Données d'entraînement Développeur Licence
LY CLIP
(clip-japanese-base)
CLIP CommonCrawl, CC12M, YFCC100M LY Corp. Apache 2.0
Recruit CLIP
(japanese-clip-vit-b-32-roberta-base)
CLIP environ 120 millions de légendes de laion2B-multi Recruit Co.,Ltd. CC BY-4.0
Japanese Stable CLIP
(japanese-stable-clip-vit-l-16)
SigLIP CC12M traduit en japonais, STAIR Captions Stability AI STABILITY AI JAPANESE STABLE CLIP COMMUNITY LICENSE
rinna CLIP
(japanese-clip-vit-b-16)
CLIP CC12M traduit en japonais rinna Apache 2.0
rinna CLOOB
(japanese-cloob-vit-b-16)
CLOOB CC12M traduit en japonais rinna Apache 2.0
HAKUHODO Technologies CLIP
(base, deeper, wider)
CLIP about 120 million captions from laion2B-multi HAKUHODO Technologies CC BY-NC-SA 4.0

Modèles Speech-Language

Reconnaissance automatique de la parole

Architecture Données d'entraînement Développeur Licence
Kotoba-Whisper
(v1.0, v1.0-ggml, v1.0-faster, v1.1, bilingual-v1.0, bilingual-v1.0-ggml, bilingual-v1.0-faster, v2.0, v2.0-ggml, v2.0-faster, v2.1, v2.2)
Distil-Whisper ReazonSpeech Kotoba Technologies Apache 2.0
Nue ASR
(nue-asr)
Nue ASR
(HuBERT + LLM)
ReazonSpeech rinna Apache 2.0
ReazonSpeech
(espnet-v1, espnet-next, espnet-v2, nemo-v2)
ESPnet (Conformer-Transducer) / NeMo (FastConformer-RNNT) ReazonSpeech Reazon Holdings Apache 2.0

Autres

Architecture Données d'entraînement Développeur Licence
Kotoba-Speech
(v0.1)
Transformer undisclosed Kotoba Technologies Apache 2.0
UniversityOfTokyoHuBERT
(base-jtube)
HuBERT JTubeSpeech University of Tokyo
Saruwatari & Takamichi Lab
MIT
rinna HuBERT
(base, large)
HuBERT ReazonSpeech rinna Apache 2.0
Reazon wav2vec 2.0
(base, large)
wav2vec 2.0 ReazonSpeech Reazon Holdings Apache 2.0
rinna wav2vec 2.0
(base)
wav2vec 2.0 ReazonSpeech rinna Apache 2.0

Standard d'évaluation pour les LLM en japonais

Benchmarks hybrides

Description Développeur
Nejumi LLM Leaderboard3 Évalue les capacités linguistiques japonaises des LLM sous trois angles : compétence en compréhension linguistique, aptitude à l'application, et alignement (incluant le contrôle et la sécurité). Pour plus de détails, voir cet article. Weights & Biases
Japanese LLM Evaluation Réalise une évaluation complète de divers LLM basés sur trois types de tâches : compréhension et génération du japonais, dialogues japonais multi-tours, et compréhension et génération en anglais. Publie également swallow-evaluation, un script d'évaluation qui intègre et améliore les outils existants d'évaluation des LLM. Swallow Project

Référence traditionnelle basé sur des tâches de Compréhension du langage naturel (NLU)

Description Développeur
Open Japanese LLM Leaderboard Évalue les modèles de langage japonais dans 16 tâches différentes en utilisant llm-jp-eval. LLM-jp, Hugging Face
llm-jp-eval Un outil qui évalue automatiquement les LLM japonais à travers plusieurs jeux de données.
La liste complète des jeux de données pris en charge peut être trouvée ici (qui comprend également des tâches telles que JNLI et JCommonsenseQA de JGLUE).
LLM-jp
JP Language Model Evaluation Harness Un fork par Stability AI de EleutherAI/lm-evaluation-harness. Il s'agit d'un outil pour évaluer automatiquement les LLM japonais à travers plusieurs jeux de données.
La liste complète des jeux de données pris en charge peut être trouvée ici (qui comprend également des tâches telles que JNLI et JCommonsenseQA de JGLUE).
Il y a un résumé détaillé des résultats de l'évaluation par rinna : [rinna] Benchmark de Stability-AI/lm-evaluation-harness
Stability AI
JGLUE Version japonais de GLUE référence suite, avec les tâches MARC-ja, JCoLA, JSTS, JNLI, JSQuAD, et JCommonsenseQA. JCoLA vient du laboratoire d'Oseki de l'université de Tokyo. Voir ici and here (ja only) pour plus d'informations sur chaque tâches. Université de Waseda Laboratoire Kawahara et Yahoo
JMMLU Un benchmark construit comme une version japonaise du MMLU Benchmark, consistant en des questions à choix multiples de divers domaines académiques, y compris les sciences naturelles, les humanités et les sciences sociales. En plus de la traduction du MMLU original, il contient de nouveaux problèmes basés sur le contexte culturel unique du Japon (problèmes spécifiques au Japon). Université de Waseda Laboratoire Kawahara

Standard des tâches génératives ouvertes

Description Développeur
Japanese MT-bench Version japonaise du MT-bench qui interroge sur la capacité à converser en plusieurs tournures. Il inclut 80 questions, 10 de chacune des 8 catégories : écriture, jeu de rôle, raisonnement, maths, codage, extraction, STEM, sciences humaines. Certaines questions ont été modifiées pour s'adapter à la culture japonaise lors de la création de la version japonaise. Il comprend également un script qui réalise une évaluation absolue en 10 niveaux par GPT-4. Stability AI
ELYZA-tasks-100 Classement basé sur les réponses des modèles avec 100 tâches complexes et diverses, y compris les tâches testant la synthèse, la correction, l'abstraction, l'induction et d'autres compétences. Utilise des humains pour noter les réponses du modèle, puis classe les modèles en fonction de leurs scores moyens. ELYZA
Preferred Generation Benchmark
(pfgen-bench)
Un banc d'essai pour mesurer la capacité des LLMs à générer du texte en japonais basé sur 50 questions de bon sens uniques au contexte japonais. Il évalue selon trois axes : fluidité, véracité et utilité. L'évaluation est réalisée sans utiliser LLM-as-a-Judge en calculant des métriques basées sur des n-grammes ou des règles. Preferred Elements (Preferred Networks)
Rakuda Benchmark Classement basé sur les réponses des modèles avec 40 questions ouvertes la géographie, l'histoire, la politique, et la société japonaise. Utilise GPT-4 pour évaluer les résultats du modèle par paires, puis classe les modèles en ajustant le maximum de vraisemblance sur le modèle de probabilité d'Elo/Bradley-Terry avec les préférences de GPT-4. YuzuAI
Japanese Vicuna QA Benchmark Il s'agit de la version japonaise de vicuna-blog-eval, qui est le précurseur de MT-Bench. Il comprend 80 questions sur la connaissance générale, le jeu de rôle, le bon sens, l'estimation de Fermi, la pensée contrefactuelle, le codage, les mathématiques, et l'écriture. Il comprend également un script pour une évaluation automatique par GPT-4 (calcul du taux de victoire). Le tableau de classement peut être trouvé ici. Université de Kyoto Laboratoire de traitement des langues et des médias
Tengu-Bench Comprend 120 questions ouvertes de diverses catégories. Catégories de questions : interprétation des tableaux, puzzles logiques, génération d'idées, appel de fonctions, résumé de longs documents (plus de mille jetons), résumé de conversations, questions fermées sur des longs documents (plus de mille jetons), honorifiques, création de projet, mathématiques, traduction, extraction, contrôle éthique, estimation des coûts, Japon, bavardage, calembours, formatage, construction, affaires, jugement juridique, politique, questions hypothétiques. Lightblue
Shaberi Un cadre qui peut évaluer collectivement le Japanese MT-bench, le Rakuda Benchmark, le ELYZA-tasks-100, et le Tengu-Bench. Il existe également un fork de Shisa.AI. Lightblue

Benchmarks pour mesurer la performance dans des domaines spécifiques

Description Développeur
Japanese Language Model Financial Evaluation Harness Un benchmark pour les LLM japonais dans le secteur financier. Il comprend des tâches telles que l'analyse des sentiments dans la finance (chabsa), des tâches de connaissances de base en analyse de titres (cma_basics), des tâches relatives aux audits dans les examens de comptable public certifié (cpa_audit), des tâches à questions à choix multiple dans les examens de planificateur financier (fp2), et des tâches d'examen blanc pour les examens de vendeurs de titres (security_sales_1). Pour plus de détails, veuillez consulter ici. Preferred Networks
pfmt-bench-fin-ja Un benchmark pour mesurer les capacités de génération des LLM japonais dans le domaine financier. Preferred Networks
Stockmark Business Questions La collection comprend 50 questions qui approfondissent les connaissances sur des sujets tels que les tendances du marché, l'actualité, les problèmes sociaux et les tendances commerciales. Stockmark
JMED-LLM Un ensemble de données pour évaluer les LLM dans le domaine médical japonais. Il compile des tâches de traitement du langage médical japonais développées précédemment pour le benchmarking des LLM. NAIST Social Computing Lab.
JMedBench Un benchmark pour les LLM dans le domaine médical japonais. Il comprend 20 ensembles de données dans 5 types de tâches : questions-réponses à choix multiple, traduction automatique, reconnaissance d'entités nommées, classification de documents, et similarité textuelle sémantique (certains ensembles de données sont empruntés à JMMLU et JMED-LLM). Un outil appelé med-eval est développé pour faciliter l'évaluation sur JMedBench. NII Aizawa Lab
Japanese Medical Language Model Evaluation Harness Un benchmark pour évaluer les LLM japonais dans le domaine médical en japonais et en anglais, exécutable par une seule commande. Individuel (Issey Sukeda)
karakuri-bench Un ensemble de données pour mesurer la performance des LLM japonais dans le support client. KARAKURI

Benchmarks pour mesurer la factualité et la sécurité

Description Développeur
JTruthfulQA La version japonaise du dataset pour évaluer la factualité des LLM TruthfulQA. Il comprend des questions sur les superstitions et d'autres croyances tenues par certaines personnes qui ne sont pas factuelles, ainsi que des questions sur les connaissances spécifiques au Japon, le tout collecté à partir de zéro. Waseda University Kawahara Lab
JCommonsenseMorality Un dataset sur la moralité de sens commun japonaise. Les phrases décrivant des actions sont étiquetées avec des valeurs binaires indiquant si elles sont moralement répréhensibles ou acceptables. Hokkaido University Language Media Lab
JBBQ La version japonaise du dataset de questions-réponses sur les biais sociaux BBQ, développée par la traduction, la révision et l'ajout de questions basées sur la culture et les coutumes japonaises. University of Tokyo Yanaka Lab

Benchmarks pour mesurer les capacités de raisonnement logique

Description Développeur
JFLD (Japanese Formal Logic Deduction) Un dataset pour évaluer les capacités de raisonnement déductif des LLM japonais (la version japonaise de la FLD (Formal Logic Deduction) proposée par les mêmes auteurs). Il se caractérise par le fait qu'il est composé d'exemples contrefactuels pour évaluer indépendamment des connaissances que possède le LLM. Hitachi
JHumanEval Une version japonaise du benchmark HumanEval, qui évalue la capacité à générer du code Python à partir d'instructions en anglais. En créant la version japonaise, le texte a d'abord été traduit automatiquement, puis corrigé manuellement. Université des Femmes du Japon - Laboratoire Kuramitsu

Benchmarks pour la génération de texte contrôlée

Description Développeur
LCTG Bench Un benchmark pour la contrôlabilité des LLM japonais. Il évalue si les LLM peuvent adhérer à des contraintes sur quatre aspects : le format de sortie, le nombre de caractères, les mots-clés et les mots interdits. La qualité du texte généré est également évaluée. CyberAgent

Benchmarks pour modèles d'embeddings

Description Développeur
JMTEB Un benchmark développé comme la version japonaise de MTEB. Il se compose de tâches telles que le regroupement de documents, la classification de textes, la similarité de phrases, la prédiction d'étiquetage de paires de phrases et l'extraction de texte (une tâche de reclassement a été récemment ajoutée). SB Intuitions
JQaRA Un ensemble de données pour évaluer l'extraction de documents japonais et la précision du reclassement. Chacune des 1,667 questions est attribuée à 100 documents candidats, dont au moins un peut répondre à la question. Les questions sont tirées de JAQKET, et les documents candidats proviennent de Wikipédia japonais. Individuel (Yuichi Tateno)
JaCWIR Un ensemble de données créé pour évaluer l'extraction de documents et le reclassement dans des domaines autres que Wikipédia. Chacune des 5,000 questions est attribuée à une page Web servant de source pour la question et à 99 pages Web sans rapport. Individuel (Yuichi Tateno)

Benchmarks pour modèles vision-langage

Description Développeur
JMMMU Un benchmark construit comme la version japonaise du MMMU Benchmark. Il se compose de 720 problèmes traduits du MMMU et de 600 nouveaux problèmes uniques à la culture japonaise. University of Tokyo Aizawa Lab
JDocQA Un jeu de données de questions-réponses basé sur des documents japonais (brochures, diapositives, rapports, sites web), comprenant un total de 11 600 questions. Il inclut divers formats de questions, y compris des questions non répondables. NAIST Watanabe Lab
Heron VLM Leaderboard powered by Nejumi/WandB Résume les résultats d'évaluation de Japanese-Heron-Bench et LLaVA-Bench-In-the-Wild (Japanese). Turing, Weights & Biases
Japanese-Heron-Bench 21 images se voient attribuer un total de 102 questions. Il est caractérisé par des paires image-question qui nécessitent une connaissance liée au Japon. Turing
JA-VLM-Bench-In-the-Wild Un jeu de données préparé indépendamment par Sakana AI pour évaluer EvoVLM-JP-v1-7B. Il se compose de 50 questions attribuées à 42 images. Il se caractérise par des images et des questions qui exigent une connaissance du Japon. Sakana AI
JA-Multi-Image-VQA Un jeu de données pour évaluer la capacité de question-réponse en japonais pour plusieurs images. Sakana AI
LLaVA-Bench-In-the-Wild (Japanese) Ceci est la version japonaise de LLaVA-Bench-In-the-Wild, traduite à l'aide de DeepL. Il se compose de 60 questions attribuées à 24 images. Turing
LLaVA-Bench (COCO) Japonais Il s'agit de la version japonaise, traduite par DeepL, du jeu de données LLaVA-Bench (COCO) utilisé pour évaluer LLaVA. Il se compose de 30 images, chacune avec 3 types de questions qui leur sont attribuées. Turing
Japanese Visual Genome VQA dataset Un jeu de données de questions-réponses annotées basé sur des images du Visual Genome dataset. Un sous-ensemble de ce jeu de données, JA-VG-VQA-500, composé de 500 questions, est parfois utilisé comme benchmark pour évaluer les VLMs. Yahoo

Références pour les modèles et les architectures

Références pour les méthodes d'entraînement

Nos contributeurs

Nous aimons les contributeurs ! N'hésitez pas à contribuer à ce projet.

contributors

Citation

La synthèse de ce répertoire est également publiée sous forme de prépublication: Exploring Open Large Language Models for the Japanese Language: A Practical Guide

Lorsque vous référencez ce répertoire, veuillez le citer comme suit:

@article{awesomeJapanese2024,
    title={{Exploring Open Large Language Models for the Japanese Language: A Practical Guide}},
    author={Kaito Sugimoto},
    doi={10.51094/jxiv.682},
    journal={Jxiv preprint},
    year={2024}
}

Footnotes

  1. Quelques modifications architecturales ont été apportées. Pour plus de détails, référez-vous à : 1,000億パラメータ規模の独自LLM「PLaMo-100B」の事前学習

  2. Référez-vous aux articles suivants: 大規模言語モデルTanuki-8B, 8x8Bの位置づけや開発指針など, 大規模言語モデルを開発するにあたっての事前・事後学習の戦略メモー特に合成データについてー 2

  3. Certaines améliorations de performances ont été apportées au modèle Llama original. Voir ici pour plus détails.

  4. Les détails n'ont pas été rendus publics, mais l'ensemble de données privé comprend des jeux de données de l'équipe japonaise du projet EleutherAI Polyglot et des membres de Stable Community Japan.

  5. Ce projet a mené des recherches d'évaluation sur l'utilisation de la génération de droite à gauche au lieu de la génération habituelle de gauche à droite, en publiant des modèles de gauche à droite et de droite à gauche.

  6. Avant de procéder à l'ajustement des instructions, un vecteur de chat entre Llama 3 Instruct et Llama 3 Base est ajouté. 2

  7. Après avoir effectué un ajustement des instructions, un vecteur de chat entre Llama 3 Instruct et Llama 3 Base est ajouté. 2

  8. Cependant, si une utilisation commerciale de KARAKURI LM est souhaitée, un contact direct avec le développeur, KARAKURI Inc., est requis.

  9. Dans l'ajustement des instructions, comme il utilise des données générées par les modèles d'OpenAI, tels que GPT-3.5, GPT-4, etc. pour l'entraînement, il se peut qu'il viole les termes d'OpenAI. 2 3 4 5 6 7 8 9 10

  10. Avant de procéder à l'ajustement des instructions, un vecteur de chat entre Gemma 2 Instruct et Gemma 2 Base est ajouté.

  11. ○: Le modèle se trouve sur le Model Hub d'HuggingFace et peut être chargé avec la commande AutoModel.from_pretrained() . △: Le modèle ne se trouve pas sur le Model Hub mais peut être chargé manuellement avec la bibliothèque de transformateurs HuggingFace. ✕: Le modèle ne se charge pas avec HuggingFace.

  12. En supprimant l'attention causale de Llama, il est utilisé comme un modèle de type encodeur.

  13. Ce projet a mené des recherches d'évaluation sur l'analyse morphologique avant la tokenisation et a publié son modèle le plus performant, qui utilisait Juman++ et BPE.

  14. Cependant, la longueur de séquence maximale a été étendue à 2048, et diverses modifications architecturales ont été apportées par rapport au BERT d'origine. Voir le README du dépôt HuggingFace pour plus de détails.

  15. nlp-waseda/roberta-base-japanese et nlp-waseda/roberta-large-japanese entrainé avec une longueur de context 128 token, mais nlp-waseda/roberta-large-japanese-seq512 étendu la longueur du contexte à 512.

  16. Étendu la longueur du contexte de 128 à 512.

  17. Pour les détails de chaque modèle, veuillez vous référer au Chapitre 4 de l'article des auteurs. Notez que le modèle SC-2M-wiki n'est strictement pas un modèle spécifique à un domaine car il est pré-entraîné uniquement sur Wikipédia.

  18. Le modèle "Small" s'entraîne sur Wikipédia japonais et le Corpus financier japonais simultanément, tandis que le modèle "Base" prend le TohokuUniversityBERT et dispense un apprentissage supplémentaire sur le Corpus financier japonais.

  19. ManbyoWordPiece lance une étape de prétokenization en utilisant MeCab (IPA+Manbyo dictionaries), puis utilise WordPiece pour la tokenization sous-mots, pendant que le modèle SentencePiece segmente le texte directement en utilisant un modèle unigram.

  20. La classification des modèles d'intégration a été référencée à partir de Dense Text Retrieval based on Pretrained Language Models: A Survey (Zhao+, 2022). L'architecture Bi-Encoder insère deux entrées distinctes dans le modèle et vectorise chacune d'elles, en utilisant leur produit scalaire ou la similarité cosinus comme mesure de leur proximité. En revanche, l'architecture Cross-Encoder insère les entrées combinées dans le modèle pour calculer directement leur proximité en interne. Bien que les Cross-Encoders entraînent des coûts de calcul plus élevés, ils sont souvent utilisés comme rerankers dans l'extraction d'informations en raison de leur capacité à calculer plus précisément la proximité des entrées. Parmi les Bi-Encoders, il existe des types (par exemple, ColBERT) qui représentent l'entrée en tant que multiples vecteurs (comme un par token) plutôt qu'un seul vecteur, d'où une classification supplémentaire en bi-encodeurs à représentation unique et bi-encodeurs à représentation multiple.

  21. Cependant, il appelle à la réflexion pour l'utilisation dans la recherche et l'éducation. De plus, soyez conscient que certaines des licences pour les modèles sources ne sont pas Apache 2.0. 2 3