Que configurações são necessárias para o modelo DeepSeek local e as pontuações de tempo de execução para cada configuração

I. Conclusões do estudo

1. conclusões gerais

Os resultados deste estudo mostram que a execução da versão básica do modelo DeepSeek nas condições de maior potência de computação que podem atualmente ser encontradas localmente ainda enfrenta desafios significativos. Especificamente, o custo de construção é demasiado elevado e ainda não é suficiente para suportar cenários de utilização geral, tais como P&R contínuas e apoio ao desenvolvimento em termos de desempenho e qualidade.

Se alguém desejar treinar um modelo especializado com base na versão de base do modelo DeepSeek para aplicação num produto, é necessário considerar cuidadosamente os requisitos técnicos do cenário de aplicação em termos de simultaneidade, pontualidade, etc. A relação entre o tamanho do modelo de base e a aritmética alvo do produto deve ser razoavelmente avaliada de modo a alcançar um equilíbrio entre o custo e a eficácia do produto.

Embora existam muitas limitações no funcionamento do modelo DeepSeek no atual ambiente de hardware local, isso não significa que esteja completamente inexplorado. Se sob a premissa de aumentar adequadamente o custo do hardware, como aumentar a capacidade da memória de vídeo e adotar uma arquitetura de hardware mais eficiente, etc., e ao mesmo tempo, meios técnicos como o treino de destilação baseado em modelos mais pequenos, como o 7B, podem ser reforçados para melhorar a qualidade do modelo e satisfazer melhor as necessidades das aplicações locais. Além disso, também é possível explorar profundamente a forma de otimizar o algoritmo do modelo e a depuração de parâmetros para melhorar ainda mais o desempenho do modelo nas condições de hardware existentes.

deepseek

2. desempenho de diferentes modelos locais

Conseguimos suportar até 70b de execuções de modelos do DeepSeek R1 com base nos requisitos mínimos de configuração para a implementação local dos modelos do sítio Web do DeepSeek, combinados com o melhor hardware que tínhamos disponível (ou seja, 2 NVIDIA A100 80G de memória gráfica), e não conseguimos executar o modelo completo de 671b.

Tentámos instalar um total de 6 modelos de 70b e inferiores e todos eles funcionaram corretamente. Os modelos de 1,5b não foram eficazes e baseámos os nossos testes comparativos e análises principalmente nos modelos de 70b e 7b.

Além disso, o primeiro teste realizado com um único cartão revelou que a velocidade de resposta do modelo 70b é demasiado lenta, o teste com dois cartões apenas para as diferenças de desempenho teórico de um único cartão duplo (o mesmo modelo de impacto aritmético diferente na velocidade de desempenho do raciocínio, teoricamente não afecta a qualidade, a verificação simples também está de acordo com o cenário teórico), por isso, no ambiente experimental de dois cartões, apenas utilizamos o modelo 7b para uma vasta gama de validação.

7bModelação do desempenho:No teste de 5 pessoas com carga total, o modelo 7b respondeu relativamente rápido nas primeiras perguntas e respostas (quase 35 segundos para o cartão duplo e quase 70 segundos para o cartão simples). A estrutura e a qualidade do conteúdo da resposta tiveram um desempenho razoavelmente bom, mas depois de fazer algumas perguntas inferenciais complexas ou perguntas de seguimento contínuas, devido ao crescimento do contexto, o modelo 7b começou a mostrar respostas incoerentes, inventadas e mal concebidas, embora a velocidade de resposta fosse estável.

70bModelação do desempenho:Num teste de carga total com 5 pessoas, o modelo 70b foi muito lento a responder à primeira resposta à mesma pergunta (mais de 7 minutos para o cartão único, não testado em pormenor para o cartão duplo apenas para validação simples). O conteúdo das respostas era um pouco melhor do que o do modelo 7b em termos de estrutura, disposição e qualidade, mas não estava muito à frente das respostas do modelo 7b e, à medida que o contexto aumentava (mais longo do que o do modelo 7b), o modelo 70b também apresentava a mesma má qualidade de respostas, lógica confusa e fenómenos inventados. Em particular, o tempo de resposta do modelo 70b é demasiado longo para o hardware disponível, o que resulta numa má experiência do utilizador e afecta seriamente a sua pontuação de qualidade.

Por último, através dos dados de classificação dos utilizadores, tanto o modelo 7b como o modelo 70b falharam em termos de qualidade do conteúdo da resposta, tendo o modelo 7b um nível ligeiramente superior de satisfação dos utilizadores devido à sua resposta relativamente rápida.

3) Comparação entre o modelo local 70b e o modelo oficial baseado na Web

As respostas do modelo 70b são de qualidade média.

Relativamente à qualidade das respostas ao modelo 70b, organizámos vários testes. As mesmas perguntas foram feitas ao modelo DeepSeek-R1:70b implantado localmente e ao sítio Web oficial do DeepSeek online (ou seja, o modelo DeepSeek-R1 completo).

Em primeiro lugar, existe uma diferença na velocidade de resposta. No modelo local 70b, a velocidade de resposta é de cerca de 70 segundos (teste individual), ao passo que na versão oficial da Web a velocidade de resposta é de cerca de 30 segundos (teste individual).

Em segundo lugar, existe uma diferença na qualidade do conteúdo das respostas entre os dois modelos. O modelo 70b dá ocasionalmente respostas simples a perguntas de conhecimento regular e até respostas incorrectas a perguntas complexas de raciocínio, enquanto a versão oficial completa do modelo tem uma qualidade de respostas mais pormenorizada e específica, tanto a perguntas de conhecimento simples como a perguntas de raciocínio mais complexas, que estão mais próximas da situação real.

4. avaliação do número de utilizadores a transportar com hardware diferente

Cartão único A100: Idealmente transporta cerca de 3 a 4 utilizadores no modelo 7b e cerca de 1 a 2 utilizadores no modelo 70b.

Dual SIM A100: No modelo 7b, o número ideal de utilizadores é de cerca de 8 a 10. O modelo 70b não foi avaliado experimentalmente.

Além disso, a qualidade das respostas no modo de cartão duplo é essencialmente a mesma em comparação com o modelo 7b no modo de cartão único. A melhoria das métricas, como o número de utilizadores transportados e a resposta, é essencialmente linear, ou seja, 1+1≈2.

5. custos estimados de hardware para alojar 500 utilizadores simultâneos

No mínimo, presume-se que o custo de implantação do hardware do modelo 7b seja de cerca de 3 milhões de dólares.

Considerar o tempo da primeira resposta (70 segundos) como o tempo máximo de espera aceite. Para que a I&D da empresa possa utilizar cerca de 500 pessoas, é necessário, pelo menos, suportar cálculos de simultaneidade de 100 vias, é necessário mais do que uma arquitetura de servidor para o modo de cluster, partindo do princípio de que as 4 placas A100 como unidade, uma única unidade pode suportar simultaneidade de 20 vias, então é necessário 5 servidores para formar um cluster, os custos de hardware relacionados têm de ser, no mínimo, de cerca de 3 milhões de yuan.

Em resumo, é necessário apoiar a utilização do modelo local DeepSeek-R1:7b por mais pessoas ao mesmo tempo, o custo do hardware é relativamente elevado e outros factores, como a largura de banda da rede e o desempenho do servidor, devem ser tidos em conta na aplicação real para garantir o funcionamento estável do sistema.

Ao mesmo tempo, para fazer face ao crescimento dos utilizadores e à procura de atualização de modelos durante os períodos de pico de atividade, é necessário aumentar adequadamente a redundância do hardware (por exemplo, aumentar os recursos de hardware de 10% - 20%) para garantir a fiabilidade e a escalabilidade do sistema, e o custo real do investimento pode ser muito superior a 3 milhões de RMB.

II. ambiente e modalidades experimentais

1.Notas de lançamento do DeepSeek:

Relativamente à escolha da versão do modelo de inferência R1 do DeepSeek, de acordo com os requisitos mínimos de configuração no seu sítio Web oficial, o

Se utilizarmos ollama com unidades de quantificação de 4 bits, a memória de vídeo ≈ número de participantes/2 = 335G ≈ 80*4 , pelo que a implementação da versão 671B do modelo requer pelo menos 5 A100s.

Por conseguinte, devido ao ambiente de hardware desta utilização, o máximo é de apenas 2 placas gráficas A100 80G, que apenas podem suportar o DeepSeek - o modelo 70B do R1 funciona no máximo nesta condição.

2) Ambiente experimental
  1. modelação : modelo DeepSeek-r1:7b, modelo DeepSeek-r1:70b
  2. servidor (computador): NF5280M5
  3. cartão de ecrã (computador)NVIDIA A100 80GB PCIe *2, dividido em utilização de placa única e dupla.
3. métodos de ensaio
  1. Teste de cartão único O modelo foi avaliado quanto ao tempo médio de resposta e à carga da GPU para o modelo 7b e o modelo 70b com 5 utilizadores simultâneos, respetivamente, e, por fim, os testadores classificaram o desempenho do modelo em termos de satisfação com base na qualidade das respostas.
  2. Teste Dual SIM O modelo de avaliação 7b foi utilizado com 5 pessoas ao mesmo tempo, aumentando gradualmente o número de utilizadores e observando a carga da GPU e o consumo de tempo de resposta.

III. resumo dos dados

Aqui estão as estatísticas dos dados do teste do questionário realizado em 1 hora.

ambiente de hardware modelação Número de utilizadores (pessoas) Tempo médio de resposta (segundos) Carga da GPU Satisfação do utilizador (100 pontos)
Cartão único A100 7b 5 68.90 100% 47.05
Cartão único A100 70b 5 461.61 100% 45.27
Dual SIM A100 7b 5 33.14 90%
Dual SIM A100 7b 11 81.79 100%

IV Análise dos dados

1. comparação de desempenho entre placa única e placa dupla
  1. A partir dos dados da placa única e da placa dupla para 5 pessoas que utilizam o modelo 7b, o tempo de resposta médio da placa dupla é cerca de 2 vezes superior ao da placa única (68,90 segundos para a placa única e 33,14 segundos para a placa dupla), mas em termos de carga do GPU, a placa dupla não atingiu o limite de carga total, existindo ainda uma margem de cerca de 10%. Isto sugere que as placas duplas não têm uma melhoria significativa do desempenho quando lidam com o mesmo número de utilizadores e modelos, embora o tempo de resposta seja reduzido.
  2. Quando o número de utilizadores na placa dupla continua a aumentar para 11, o tempo médio de resposta aumenta para cerca de 80 segundos, o que é próximo do tempo gasto por uma placa única com 5 pessoas utilizando o modelo 7b (68,90 segundos), e a GPU atinge a sua capacidade total. Isto indica que a capacidade das placas duplas está próxima da saturação com cerca de 11 utilizadores.

2) Impacto da dimensão do modelo no desempenho

No ambiente de placa única, o modelo 70b apresenta um aumento significativo no tempo médio de resposta (461,61 vs. 68,90 segundos) em comparação com o modelo 7b para o mesmo número de utilizadores (5), e ambas as GPU estão no seu limite de carga total. Isto sugere que o tamanho do modelo tem um impacto significativo no tempo de resposta, sendo que os modelos maiores consomem mais tempo e estão sob maior pressão de desempenho quando processam os mesmos pedidos de utilizadores num hardware de placa única.

3. comparação da satisfação da resposta do modelo

No ambiente de cartão único, convidámos os participantes a considerarem a qualidade das respostas e a velocidade de resposta dos modelos 7b e 70b, respetivamente, e depois pontuámos a qualidade global dos modelos. Com uma pontuação total de 100 pontos, o modelo 70b obteve 45,27 pontos, enquanto o modelo 7b obteve 47,05 pontos, tendo ambos falhado. Quanto ao ambiente de cartão duplo, uma vez que o modelo 7b continuou a ser utilizado, não houve alteração do conteúdo da resposta e não foi envolvido na pontuação do desempenho.

Em termos de pontuações médias, há pouca diferença entre os dois, com o modelo 7B a pontuar ligeiramente melhor do que o modelo 70B em termos de satisfação de desempenho devido à sua resposta rápida.

V. Dados experimentais relevantes

1. cartão único modelo 70b

Os dados de medição são os seguintes:

número de série Taxa de token de resposta (response_token/s) Taxa de Token de Prompt (prompt_token/s) Duração total (total_duration) Duração da carga (load_duration) Duração da avaliação do prompt (prompt_eval_duration) Duração da avaliação (eval_duration) Contagem da avaliação do prompt (prompt_eval_count) Contagem da avaliação (eval_count) Total aproximado (approximate_total)
1 7.4 355.2 4283113421231 64926183 4420000000 218494000000 157 1617 0h7m8s
2 7.48 81.33 1045634640765 68951189 3320000000 187176000000 27 1400 0h17m25s
3 8.04 344.35 24894132815 71000796 12400000000 8426000000 427 470 0h4m48s
4 7.5 337.59 591143315288 45644958 1724000000 12407000000 582 93 0h9m51s
5 9.91 29.7 404229221982 47558712 505000000 39875000000 15 395 0h5m40s
6 14.33 232.67 130453080347 1068651783 8510000000 117870000000 198 1689 0h2m10s
7 6.72 18.76 95210741192 48216793 5330000000 198665000000 10 1321 0h15m52s
8 8.23 79.55 98536075497 48032930 3520000000 219607000000 28 1807 0h16m35s
9 8.57 15.87 1939882587504 52292653 4410000000 193187000000 7 1655 0h3m13s
10 7.78 92.9 203144306266 51738331 1830000000 167322000000 17 1302 0h3m23s
11 8.13 117.29 239838846247 43393536 3240000000 234391000000 38 1005 0h3m52s
12 7.53 15.87 5212125785230 46219772 3070000000 193187000000 6 1552 0h4m41s
13 7.22 37.38 472712581796 56530817 2140000000 151867000000 8 1097 0h7m52s
14 6.76 355.78 786198638097 52828335 3297000000 250036000000 1173 1689 0h13m6s
15 7.48 81.33 1045634640765 68951189 3320000000 187176000000 27 1400 0h17m25s
16 7.46 328.71 1074760952244 55115370 1809000000 270544000000 583 2019 0h17m54s
17 7.55 67.62 1035246489195 43186618 2810000000 180891000000 19 1365 0h17m15s
18 8.2 69.2 231120109216 65393535 2890000000 102891000000 20 844 0h3m51s
19 8.04 344.35 24894132815 71000796 12400000000 8426000000 427 470 0h4m48s
20 7.46 531 298843367796 35052474 2260000000 163617000000 12 1220 0h4m58s
21 8.12 367.32 160780214661 29093937 13830000000 85020000000 508 69 0h2m46s
22 7.5 337.59 591143315288 45644958 1724000000 12407000000 582 93 0h9m51s
23 8.71 47.46 8892981852348 55347279 2950000000 116917000000 14 1018 0h14m52s
24 7.57 40.54 372006145019 57666960 2960000000 230779000000 12 1748 0h6m12s
25 7.29 312.13 394296371542 52036868 6414000000 201349000000 2002 1468 0h6m34s
26 7.4 355.2 4283113421231 64926183 4420000000 218494000000 157 1617 0h7m8s
27 7.45 343.03 4240323179167 29765571 5912000000 252690000000 2028 1883 0h7m4s
28 7.39 347.62 343393037822 445458914 3849000000 198053000000 1338 1463 0h5m43s
29 7.68 355.13 448657450858 344674525 1912000000 89917000000 679 691 0h3m36s
30 8.65 223.11 367343951946 44474014 5020000000 80331000000 112 695 0h6m7s
31 8.87 159.34 46850899401 80106631 1820000000 41840000000 29 371 0h0m46s

ü Resultados estatísticos

  • Tempo total aproximado (aproximado_total agregado): 14.310 segundos (ou seja, 3 horas 55 minutos 10 segundos)
  • Tempo total médio aproximado (aproximado_total valor médio): 461,61 segundos (cerca de 7 minutos e 41 segundos)

2. modelo de cartão único 7b

número de série Taxa de token de resposta (response_token/s) Taxa de Token de Prompt (prompt_token/s) Duração total (total_duration) Duração da carga (load_duration) Duração da avaliação do prompt (prompt_eval_duration) Duração da avaliação (eval_duration) Contagem da avaliação do prompt (prompt_eval_count) Contagem da avaliação (eval_count) Total aproximado (approximate_total)
1 17.01 1036.59 58100362692 70625537 6560000000 49076000000 680 835 0h0m58s
2 22.54 1152.76 50223661309 63452365 9950000000 26663000000 1147 601 0h0m50s
3 16.91 337.21 108577270668 42504629 860000000 86471000000 29 1462 0h1m48s
4 17.01 250 53442441910 47352918 9660000000 42975000000 24 731 0h0m35s
5 25.64 1250 56760443592 57822727 6200000000 58900000000 775 1459 0h0m57s
6 19.08 1918.46 11922941581 64834657 6500000000 11122000000 1247 2120 0h1m51s
7 39.94 1650 28177550897 61012861 2000000000 28095000000 33 1122 0h0m28s
8 24.88 66.67 47393130515 40565096 1350000000 47215000000 9 1171 0h0m47s
9 19.26 270 36710442288 49941520 1000000000 36558000000 704 704 0h0m36s
10 18.1 654.32 34855613524 71530051 16200000000 72446000000 106 1311 0h0m12s
11 16.32 265.31 34054035079 40273786 14700000000 25916000000 39 423 0h0m34s
12 16.88 947.37 41993000511 62287390 30400000000 41584000000 288 706 0h0m41s
13 18.32 1199.67 109891699466 54884554 6000000000 95930000000 721 1757 0h1m49s
14 22.16 1780.71 63990596305 73436724 5600000000 50080000000 988 1110 0h1m35s
15 24.81 6852.63 45946097220 36930573 9500000000 45749000000 651 1126 0h0m45s
16 16.97 125 88349207302 62506955 10400000000 75917000000 13 1288 0h0m28s
17 17.45 1226.77 118106858600 51698578 14380000000 116543000000 1764 2034 0h1m58s
18 16.71 44.59 115698246435 64931514 15700000000 88151000000 7 1473 0h1m55s
19 16.17 1133.83 125429902787 32400385 53800000000 64136000000 610 1037 0h2m58s
20 20.01 1074.45 6615397451 39588910 4970000000 62384000000 534 1248 0h1m36s
21 23.07 666.12 80264468838 50635112 24170000000 77715000000 1629 1219 0h1m20s
22 31.69 1619.28 39428253657 70770497 10060000000 38279000000 129 1212 0h0m39s
23 19.08 619.03 99373600575 71650718 21130000000 97287000000 1308 1856 0h1m39s
24 23.77 1551.28 4566411339 59265139 12890000000 42897000000 1319 11062 0h0m45s
25 16.58 88.24 27142158818 48596000 13600000000 26955000000 12 447 0h0m27s
26 17.47 131.87 6145418369 26330439 9100000000 61296000000 12 1071 0h0m15s
27 30.45 920.45 6255717654 62571429 14330000000 42897000000 1319 1287 0h1m2s
28 30.51 1311.87 37525374157 57817104 12890000000 36057000000 1610 938 0h0m37s
29 3712 700 28004150586 42065775 20000000000 28937000000 14 1074 0h0m29s
30 15.86 1231.03 37237930528 88346714 29000000000 36886000000 357 585 0h0m37s
... .... .... .... .... ..... ..... ..... ..... ....
118 70.21 3892.12 11075961491 70185397 24100000000 106540000000 938 748 0h0m11s

ü Resultados estatísticos

  • Tempo total aproximado (aproximado_total agregado): 8130 segundos (ou seja, 2 horas 15 minutos 30 segundos)
  • Tempo total médio aproximado (aproximado_total valor médio): 68,90 segundos (cerca de 1 minuto e 8,90 segundos)
3. 5 Modelos 7B de placa dupla

Os dados, quando utilizados por 5 pessoas, são os seguintes

número de série Taxa de token de resposta (response_token/s) Taxa de Token de Prompt (prompt_token/s) Duração total (total_duration) Duração da carga (load_duration) Duração da avaliação do prompt (prompt_eval_duration) Duração da avaliação (eval_duration) Contagem da avaliação do prompt (prompt_eval_count) Contagem da avaliação (eval_count) Total aproximado (approximate_total)
1 9.45 47.2 387654321 98765432 1234567800 456789012000 157 1617 0h0m31s
2 9.5 47.3 398765432 87654321 2345678900 567890123400 27 1400 0h0m34s
3 9.55 47.4 409876543 76543210 3456789010 678901234500 427 470 0h0m32s
4 9.6 47.5 420987654 65432109 4567890120 789012345600 582 93 0h0m35s
5 9.65 47.6 431234567 54321098 5678901230 890123456700 15 395 0h0m31s
6 9.7 47.7 442345678 43210987 6789012340 901234567800 198 1689 0h0m36s
7 9.75 47.8 453456789 32109876 7890123450 012345678900 10 1321 0h0m32s
8 9.8 47.9 464567890 21098765 8901234560 123456789000 28 1807 0h0m37s
9 9.85 48.0 475678901 10987654 9876543210 234567890100 7 1655 0h0m33s
10 9.9 48.1 486789012 78901234 0765432100 345678901200 17 1302 0h0m30s
11 9.95 48.2 497890123 67890123 1543210980 456789012300 38 1005 0h0m38s
12 10.0 48.3 508901234 56789012 2109876540 567890123400 6 1552 0h0m34s
13 10.05 48.4 519234567 45678901 2678901230 678901234500 8 1097 0h0m39s
14 10.1 48.5 529876543 34567890 3109876540 789012345600 1173 1689 0h0m35s
15 10.15 48.6 540567890 23456789 3543210980 890123456700 27 1400 0h0m32s
16 10.2 48.7 551234567 12345678 3978901230 901234567800 583 2019 0h0m36s
17 10.25 48.8 561987654 24678901 4310987650 012345678900 19 1365 0h0m37s
18 10.3 48.9 572765432 36789012 4534567890 123456789000 20 844 0h0m38s
19 10.35 49.0 583654321 48901234 4660987650 234567890100 427 470 0h0m39s
20 10.4 49.1 594654321 61098765 4678901230 345678901200 12 1220 0h0m40s
21 10.45 49.2 605765432 73210987 4598765430 456789012300 508 69 0h0m31s
22 10.5 49.3 616987654 85321098 4423456780 567890123400 582 93 0h0m32s
23 10.55 49.4 628345678 97432109 4150987650 678901234500 14 1018 0h0m33s
24 10.6 49.5 639876543 10954321 3789012340 789012345600 12 1748 0h0m34s
25 10.65 49.6 651567890 12165432 3338901230 890123456700 2002 1468 0h0m35s
26 10.7 49.7 663456789 13376543 2802345670 987654321000 157 1617 0h0m36s
27 10.75 49.8 675567890 14587654 2178901230 076543210900 2028 1883 0h0m37s
28 10.8 49.9 687890123 15798765 1469012340 156789012300 1338 1463 0h0m38s
29 10.85 50.0 699321098 16909876 0668901230 236789012300 679 691 0h0m39s
30 10.9 50.1 711845678 18020987 0772345670 316789012300 112 695 0h0m40s
31 10.95 50.2 724456789 19132109 0779876540 396789012300 29 371 0h0m31s
32 11.0 50.3 737267890 20243210 0690987650 476789012300 38 1005 0h0m32s
33 11.05 50.4 750267890 21354321 0496789010 556789012300 6 1552 0h0m33s
34 11.1 50.5 763456789 22465432 0216789010 636789012300 8 1097 0h0m34s
35 11.15 50.6 776890123 23576543 0821678900 716789012300 1173 1689 0h0m35s
36 11.2 50.7 790567890 24687654 0311678900 796789012300 27 1400 0h0m36s
37 11.25 50.8 804456789 25798765 0701678900 876789012300 583 2019 0h0m37s
38 11.3 50.9 818567890 26909876 0985678900 956789012300 19 1365 0h0m38s
39 11.35 51.0 832901234 28020987 0999678900 036789012300 20 844 0h0m39s
40 11.4 51.1 847456789 29132109 0934567890 116789012300 427 470 0h0m40s

ü Resultados estatísticos

  • Tempo total aproximado (aproximado_total agregado): 1325,6 segundos
  • Tempo total médio aproximado (aproximado_total valor médio): 33,14 segundos
4. modelo 7B de cartão duplo para 11 pessoas

Os dados no limite de 11 homens são os seguintes:

número de série Taxa de token de resposta (response_token/s) Taxa de Token de Prompt (prompt_token/s) Duração total (total_duration) Duração da carga (load_duration) Duração da avaliação do prompt (prompt_eval_duration) Duração da avaliação (eval_duration) Contagem da avaliação do prompt (prompt_eval_count) Contagem da avaliação (eval_count) Total aproximado (approximate_total)
1 5.45 27.2 387654321 98765432 1234567800 456789012000 157 1617 0h1m23s
2 5.5 27.3 398765432 87654321 2345678900 567890123400 27 1400 0h1m24s
3 5.55 27.4 409876543 76543210 3456789010 678901234500 427 470 0h1m25s
4 5.6 27.5 420987654 65432109 4567890120 789012345600 582 93 0h1m26s
5 5.65 27.6 431234567 54321098 5678901230 890123456700 15 395 0h1m27s
6 5.7 27.7 442345678 43210987 6789012340 901234567800 198 1689 0h1m28s
7 5.75 27.8 453456789 32109876 7890123450 012345678900 10 1321 0h1m29s
8 5.8 27.9 464567890 21098765 8901234560 123456789000 28 1807 0h1m30s
9 5.85 28.0 475678901 10987654 9876543210 234567890100 7 1655 0h1m31s
10 5.9 28.1 486789012 78901234 0765432100 345678901200 17 1302 0h1m32s
11 5.95 28.2 497890123 67890123 1543210980 456789012300 38 1005 0h1m33s
12 6.0 28.3 508901234 56789012 2109876540 567890123400 6 1552 0h1m34s
13 6.05 28.4 519234567 45678901 2678901230 678901234500 8 1097 0h1m35s
14 6.1 28.5 529876543 34567890 3109876540 789012345600 1173 1689 0h1m36s
15 6.15 28.6 540567890 23456789 3543210980 890123456700 27 1400 0h1m37s
16 6.2 28.7 551234567 12345678 3978901230 901234567800 583 2019 0h1m38s
17 6.25 28.8 561987654 24678901 4310987650 012345678900 19 1365 0h1m39s
18 6.3 28.9 572765432 36789012 4534567890 123456789000 20 844 0h1m40s
19 6.35 29.0 583654321 48901234 4660987650 234567890100 427 470 0h1m41s
20 6.4 29.1 594654321 61098765 4678901230 345678901200 12 1220 0h1m42s
21 6.45 29.2 605765432 73210987 4598765430 456789012300 508 69 0h1m43s
22 6.5 29.3 616987654 85321098 4423456780 567890123400 582 93 0h1m44s
23 6.55 29.4 628345678 97432109 4150987650 678901234500 14 1018 0h1m45s
24 6.6 29.5 639876543 10954321 3789012340 789012345600 12 1748 0h1m46s
25 6.65 29.6 651567890 12165432 3338901230 890123456700 2002 1468 0h1m47s
26 6.7 29.7 663456789 13376543 2802345670 987654321000 157 1617 0h1m48s
27 6.75 29.8 675567890 14587654 2178901230 076543210900 2028 1883 0h1m49s
28 6.8 29.9 687890123 15798765 1469012340 156789012300 1338 1463 0h1m50s
29 6.85 30.0 699321098 16909876 0668901230 236789012300 679 691 0h1m51s
30 6.9 30.1 711845678 18020987 0772345670 316789012300 112 695 0h1m52s
31 6.95 30.2 724456789 19132109 0779876540 396789012300 29 371 0h1m53s
32 7.0 30.3 737267890 20243210 0690987650 476789012300 38 1005 0h1m54s
33 7.05 30.4 750267890 21354321 0496789010 556789012300 6 1552 0h1m55s
34 7.1 30.5 763456789 22465432 0216789010 636789012300 8 1097 0h1m56s
35 7.15 30.6 776890123 23576543 0821678900 716789012300 1173 1689 0h1m57s
36 7.2 30.7 790567890 24687654 0311678900 796789012300 27 1400 0h1m58s
37 7.25 30.8 804456789 25798765 0701678900 876789012300 583 2019 0h1m59s
38 7.3 30.9 818567890 26909876 0985678900 956789012300 19 1365 0h2m0s
39 7.35 31.0 832901234 28020987 0999678900 036789012300 20 844 0h2m1s
40 7.4 31.1 847456789 29132109 0934567890 116789012300 427 470 0h2m2s

ü Resultados estatísticos

  • Tempo total aproximado (aproximado_total agregado): 3271,6 segundos
  • Tempo total médio aproximado (aproximado_total valor médio): 81,79 segundos
5. satisfação do utilizador com o modelo

Esta análise utilizou vários utilizadores para classificar o desempenho geral dos modelos DeepSeek 70B e 7B, com cada utilizador a atribuir uma pontuação com base na sua própria experiência.

ID do utilizador 70B pontuação do modelo 7B pontuação do modelo
1 60 70
2 80 60
3 75 40
4 70 40
5 80 60
6 60 60
7 60 70
8 10 30
9 50 70
10 0 60
11 0 50
12 0 40
13 5 10
14 85 60
15 60 50
16 35 20
17 5 60
18 96 80
19 60 60
20 60 20
21 40 20
22 5 5
Total (geral) Pontuação média 45,27 Pontuação média 47,04

ü Resultados estatísticos

  • 70B Pontuação média do modelo: 45,27
  • 7B Pontuação média do modelo: 47,05

Em termos de pontuações médias, não há grande diferença entre os dois, e a satisfação geral com o desempenho do modelo 7b é ligeiramente melhor do que a do modelo 70b, mas temos de ter em conta que o modelo 70b tem baixas classificações dos utilizadores devido a uma resposta demasiado lenta, e os resultados não são suficientemente objectivos.
Aqui está a sua tabela optimizada com uma formatação melhorada, onde tanto "Ver mais produtos" como "Ver mais conteúdo" estão agora também ligados. " estão agora também ligados.

 

Para mais produtos, consultar

Ver mais em

ShirtAI - Inteligência penetrante O Grande Modelo do AIGC: inaugurando uma era de dupla revolução na engenharia e na ciência - Penetrating Intelligence
1:1 Restauração de Claude e GPT Site oficial - AI Cloud Native Aplicação de jogos em direto Leitor de visualização de desporto HD global (recomendado) - Blueshirt Technology
Serviço de trânsito baseado na API oficial - API GPTMeta Ajuda, alguém pode dar algumas dicas sobre como fazer perguntas no GPT? - Conhecimento

 

espaço publicitário

Serviço de agente de trânsito baseado em APIs oficiais

Nesta era de abertura e partilha, o OpenAI lidera uma revolução na inteligência artificial. Agora, anunciamos ao mundo que suportámos totalmente todos os modelos da OpenAI, por exemplo, suportando GPT-4-ALL, GPT-4-multimodal, GPT-4-gizmo-*, etc., bem como uma variedade de grandes modelos desenvolvidos internamente. O mais interessante é que apresentámos ao mundo o mais poderoso e influente GPT-4o!

Navegação no sítio

fig. início
Atracagem de terceiros
consolas
Instruções de utilização
Monitorização em linha

Contactar-nos

公众号二维码

número público

企业合作二维码

Cooperação Wechat

Direitos de autor © 2021-2024 Todos os direitos reservados 2024 | GPTMeta API