I. Conclusões do estudo
1. conclusões gerais
Os resultados deste estudo mostram que a execução da versão básica do modelo DeepSeek nas condições de maior potência de computação que podem atualmente ser encontradas localmente ainda enfrenta desafios significativos. Especificamente, o custo de construção é demasiado elevado e ainda não é suficiente para suportar cenários de utilização geral, tais como P&R contínuas e apoio ao desenvolvimento em termos de desempenho e qualidade.
Se alguém desejar treinar um modelo especializado com base na versão de base do modelo DeepSeek para aplicação num produto, é necessário considerar cuidadosamente os requisitos técnicos do cenário de aplicação em termos de simultaneidade, pontualidade, etc. A relação entre o tamanho do modelo de base e a aritmética alvo do produto deve ser razoavelmente avaliada de modo a alcançar um equilíbrio entre o custo e a eficácia do produto.
Embora existam muitas limitações no funcionamento do modelo DeepSeek no atual ambiente de hardware local, isso não significa que esteja completamente inexplorado. Se sob a premissa de aumentar adequadamente o custo do hardware, como aumentar a capacidade da memória de vídeo e adotar uma arquitetura de hardware mais eficiente, etc., e ao mesmo tempo, meios técnicos como o treino de destilação baseado em modelos mais pequenos, como o 7B, podem ser reforçados para melhorar a qualidade do modelo e satisfazer melhor as necessidades das aplicações locais. Além disso, também é possível explorar profundamente a forma de otimizar o algoritmo do modelo e a depuração de parâmetros para melhorar ainda mais o desempenho do modelo nas condições de hardware existentes.
2. desempenho de diferentes modelos locais
Conseguimos suportar até 70b de execuções de modelos do DeepSeek R1 com base nos requisitos mínimos de configuração para a implementação local dos modelos do sítio Web do DeepSeek, combinados com o melhor hardware que tínhamos disponível (ou seja, 2 NVIDIA A100 80G de memória gráfica), e não conseguimos executar o modelo completo de 671b.
Tentámos instalar um total de 6 modelos de 70b e inferiores e todos eles funcionaram corretamente. Os modelos de 1,5b não foram eficazes e baseámos os nossos testes comparativos e análises principalmente nos modelos de 70b e 7b.
Além disso, o primeiro teste realizado com um único cartão revelou que a velocidade de resposta do modelo 70b é demasiado lenta, o teste com dois cartões apenas para as diferenças de desempenho teórico de um único cartão duplo (o mesmo modelo de impacto aritmético diferente na velocidade de desempenho do raciocínio, teoricamente não afecta a qualidade, a verificação simples também está de acordo com o cenário teórico), por isso, no ambiente experimental de dois cartões, apenas utilizamos o modelo 7b para uma vasta gama de validação.
7bModelação do desempenho:No teste de 5 pessoas com carga total, o modelo 7b respondeu relativamente rápido nas primeiras perguntas e respostas (quase 35 segundos para o cartão duplo e quase 70 segundos para o cartão simples). A estrutura e a qualidade do conteúdo da resposta tiveram um desempenho razoavelmente bom, mas depois de fazer algumas perguntas inferenciais complexas ou perguntas de seguimento contínuas, devido ao crescimento do contexto, o modelo 7b começou a mostrar respostas incoerentes, inventadas e mal concebidas, embora a velocidade de resposta fosse estável.
70bModelação do desempenho:Num teste de carga total com 5 pessoas, o modelo 70b foi muito lento a responder à primeira resposta à mesma pergunta (mais de 7 minutos para o cartão único, não testado em pormenor para o cartão duplo apenas para validação simples). O conteúdo das respostas era um pouco melhor do que o do modelo 7b em termos de estrutura, disposição e qualidade, mas não estava muito à frente das respostas do modelo 7b e, à medida que o contexto aumentava (mais longo do que o do modelo 7b), o modelo 70b também apresentava a mesma má qualidade de respostas, lógica confusa e fenómenos inventados. Em particular, o tempo de resposta do modelo 70b é demasiado longo para o hardware disponível, o que resulta numa má experiência do utilizador e afecta seriamente a sua pontuação de qualidade.
Por último, através dos dados de classificação dos utilizadores, tanto o modelo 7b como o modelo 70b falharam em termos de qualidade do conteúdo da resposta, tendo o modelo 7b um nível ligeiramente superior de satisfação dos utilizadores devido à sua resposta relativamente rápida.
3) Comparação entre o modelo local 70b e o modelo oficial baseado na Web
As respostas do modelo 70b são de qualidade média.
Relativamente à qualidade das respostas ao modelo 70b, organizámos vários testes. As mesmas perguntas foram feitas ao modelo DeepSeek-R1:70b implantado localmente e ao sítio Web oficial do DeepSeek online (ou seja, o modelo DeepSeek-R1 completo).
Em primeiro lugar, existe uma diferença na velocidade de resposta. No modelo local 70b, a velocidade de resposta é de cerca de 70 segundos (teste individual), ao passo que na versão oficial da Web a velocidade de resposta é de cerca de 30 segundos (teste individual).
Em segundo lugar, existe uma diferença na qualidade do conteúdo das respostas entre os dois modelos. O modelo 70b dá ocasionalmente respostas simples a perguntas de conhecimento regular e até respostas incorrectas a perguntas complexas de raciocínio, enquanto a versão oficial completa do modelo tem uma qualidade de respostas mais pormenorizada e específica, tanto a perguntas de conhecimento simples como a perguntas de raciocínio mais complexas, que estão mais próximas da situação real.
4. avaliação do número de utilizadores a transportar com hardware diferente
Cartão único A100: Idealmente transporta cerca de 3 a 4 utilizadores no modelo 7b e cerca de 1 a 2 utilizadores no modelo 70b.
Dual SIM A100: No modelo 7b, o número ideal de utilizadores é de cerca de 8 a 10. O modelo 70b não foi avaliado experimentalmente.
Além disso, a qualidade das respostas no modo de cartão duplo é essencialmente a mesma em comparação com o modelo 7b no modo de cartão único. A melhoria das métricas, como o número de utilizadores transportados e a resposta, é essencialmente linear, ou seja, 1+1≈2.
5. custos estimados de hardware para alojar 500 utilizadores simultâneos
No mínimo, presume-se que o custo de implantação do hardware do modelo 7b seja de cerca de 3 milhões de dólares.
Considerar o tempo da primeira resposta (70 segundos) como o tempo máximo de espera aceite. Para que a I&D da empresa possa utilizar cerca de 500 pessoas, é necessário, pelo menos, suportar cálculos de simultaneidade de 100 vias, é necessário mais do que uma arquitetura de servidor para o modo de cluster, partindo do princípio de que as 4 placas A100 como unidade, uma única unidade pode suportar simultaneidade de 20 vias, então é necessário 5 servidores para formar um cluster, os custos de hardware relacionados têm de ser, no mínimo, de cerca de 3 milhões de yuan.
Em resumo, é necessário apoiar a utilização do modelo local DeepSeek-R1:7b por mais pessoas ao mesmo tempo, o custo do hardware é relativamente elevado e outros factores, como a largura de banda da rede e o desempenho do servidor, devem ser tidos em conta na aplicação real para garantir o funcionamento estável do sistema.
Ao mesmo tempo, para fazer face ao crescimento dos utilizadores e à procura de atualização de modelos durante os períodos de pico de atividade, é necessário aumentar adequadamente a redundância do hardware (por exemplo, aumentar os recursos de hardware de 10% - 20%) para garantir a fiabilidade e a escalabilidade do sistema, e o custo real do investimento pode ser muito superior a 3 milhões de RMB.
II. ambiente e modalidades experimentais
1.Notas de lançamento do DeepSeek:
Relativamente à escolha da versão do modelo de inferência R1 do DeepSeek, de acordo com os requisitos mínimos de configuração no seu sítio Web oficial, o
Se utilizarmos ollama com unidades de quantificação de 4 bits, a memória de vídeo ≈ número de participantes/2 = 335G ≈ 80*4 , pelo que a implementação da versão 671B do modelo requer pelo menos 5 A100s.
Por conseguinte, devido ao ambiente de hardware desta utilização, o máximo é de apenas 2 placas gráficas A100 80G, que apenas podem suportar o DeepSeek - o modelo 70B do R1 funciona no máximo nesta condição.
2) Ambiente experimental
- modelação : modelo DeepSeek-r1:7b, modelo DeepSeek-r1:70b
- servidor (computador): NF5280M5
- cartão de ecrã (computador)NVIDIA A100 80GB PCIe *2, dividido em utilização de placa única e dupla.
3. métodos de ensaio
- Teste de cartão único O modelo foi avaliado quanto ao tempo médio de resposta e à carga da GPU para o modelo 7b e o modelo 70b com 5 utilizadores simultâneos, respetivamente, e, por fim, os testadores classificaram o desempenho do modelo em termos de satisfação com base na qualidade das respostas.
- Teste Dual SIM O modelo de avaliação 7b foi utilizado com 5 pessoas ao mesmo tempo, aumentando gradualmente o número de utilizadores e observando a carga da GPU e o consumo de tempo de resposta.
III. resumo dos dados
Aqui estão as estatísticas dos dados do teste do questionário realizado em 1 hora.
ambiente de hardware | modelação | Número de utilizadores (pessoas) | Tempo médio de resposta (segundos) | Carga da GPU | Satisfação do utilizador (100 pontos) |
Cartão único A100 | 7b | 5 | 68.90 | 100% | 47.05 |
Cartão único A100 | 70b | 5 | 461.61 | 100% | 45.27 |
Dual SIM A100 | 7b | 5 | 33.14 | 90% | – |
Dual SIM A100 | 7b | 11 | 81.79 | 100% | – |
IV Análise dos dados
1. comparação de desempenho entre placa única e placa dupla
- A partir dos dados da placa única e da placa dupla para 5 pessoas que utilizam o modelo 7b, o tempo de resposta médio da placa dupla é cerca de 2 vezes superior ao da placa única (68,90 segundos para a placa única e 33,14 segundos para a placa dupla), mas em termos de carga do GPU, a placa dupla não atingiu o limite de carga total, existindo ainda uma margem de cerca de 10%. Isto sugere que as placas duplas não têm uma melhoria significativa do desempenho quando lidam com o mesmo número de utilizadores e modelos, embora o tempo de resposta seja reduzido.
- Quando o número de utilizadores na placa dupla continua a aumentar para 11, o tempo médio de resposta aumenta para cerca de 80 segundos, o que é próximo do tempo gasto por uma placa única com 5 pessoas utilizando o modelo 7b (68,90 segundos), e a GPU atinge a sua capacidade total. Isto indica que a capacidade das placas duplas está próxima da saturação com cerca de 11 utilizadores.
2) Impacto da dimensão do modelo no desempenho
No ambiente de placa única, o modelo 70b apresenta um aumento significativo no tempo médio de resposta (461,61 vs. 68,90 segundos) em comparação com o modelo 7b para o mesmo número de utilizadores (5), e ambas as GPU estão no seu limite de carga total. Isto sugere que o tamanho do modelo tem um impacto significativo no tempo de resposta, sendo que os modelos maiores consomem mais tempo e estão sob maior pressão de desempenho quando processam os mesmos pedidos de utilizadores num hardware de placa única.
3. comparação da satisfação da resposta do modelo
No ambiente de cartão único, convidámos os participantes a considerarem a qualidade das respostas e a velocidade de resposta dos modelos 7b e 70b, respetivamente, e depois pontuámos a qualidade global dos modelos. Com uma pontuação total de 100 pontos, o modelo 70b obteve 45,27 pontos, enquanto o modelo 7b obteve 47,05 pontos, tendo ambos falhado. Quanto ao ambiente de cartão duplo, uma vez que o modelo 7b continuou a ser utilizado, não houve alteração do conteúdo da resposta e não foi envolvido na pontuação do desempenho.
Em termos de pontuações médias, há pouca diferença entre os dois, com o modelo 7B a pontuar ligeiramente melhor do que o modelo 70B em termos de satisfação de desempenho devido à sua resposta rápida.
V. Dados experimentais relevantes
1. cartão único modelo 70b
Os dados de medição são os seguintes:
número de série | Taxa de token de resposta (response_token/s) | Taxa de Token de Prompt (prompt_token/s) | Duração total (total_duration) | Duração da carga (load_duration) | Duração da avaliação do prompt (prompt_eval_duration) | Duração da avaliação (eval_duration) | Contagem da avaliação do prompt (prompt_eval_count) | Contagem da avaliação (eval_count) | Total aproximado (approximate_total) |
1 | 7.4 | 355.2 | 4283113421231 | 64926183 | 4420000000 | 218494000000 | 157 | 1617 | 0h7m8s |
2 | 7.48 | 81.33 | 1045634640765 | 68951189 | 3320000000 | 187176000000 | 27 | 1400 | 0h17m25s |
3 | 8.04 | 344.35 | 24894132815 | 71000796 | 12400000000 | 8426000000 | 427 | 470 | 0h4m48s |
4 | 7.5 | 337.59 | 591143315288 | 45644958 | 1724000000 | 12407000000 | 582 | 93 | 0h9m51s |
5 | 9.91 | 29.7 | 404229221982 | 47558712 | 505000000 | 39875000000 | 15 | 395 | 0h5m40s |
6 | 14.33 | 232.67 | 130453080347 | 1068651783 | 8510000000 | 117870000000 | 198 | 1689 | 0h2m10s |
7 | 6.72 | 18.76 | 95210741192 | 48216793 | 5330000000 | 198665000000 | 10 | 1321 | 0h15m52s |
8 | 8.23 | 79.55 | 98536075497 | 48032930 | 3520000000 | 219607000000 | 28 | 1807 | 0h16m35s |
9 | 8.57 | 15.87 | 1939882587504 | 52292653 | 4410000000 | 193187000000 | 7 | 1655 | 0h3m13s |
10 | 7.78 | 92.9 | 203144306266 | 51738331 | 1830000000 | 167322000000 | 17 | 1302 | 0h3m23s |
11 | 8.13 | 117.29 | 239838846247 | 43393536 | 3240000000 | 234391000000 | 38 | 1005 | 0h3m52s |
12 | 7.53 | 15.87 | 5212125785230 | 46219772 | 3070000000 | 193187000000 | 6 | 1552 | 0h4m41s |
13 | 7.22 | 37.38 | 472712581796 | 56530817 | 2140000000 | 151867000000 | 8 | 1097 | 0h7m52s |
14 | 6.76 | 355.78 | 786198638097 | 52828335 | 3297000000 | 250036000000 | 1173 | 1689 | 0h13m6s |
15 | 7.48 | 81.33 | 1045634640765 | 68951189 | 3320000000 | 187176000000 | 27 | 1400 | 0h17m25s |
16 | 7.46 | 328.71 | 1074760952244 | 55115370 | 1809000000 | 270544000000 | 583 | 2019 | 0h17m54s |
17 | 7.55 | 67.62 | 1035246489195 | 43186618 | 2810000000 | 180891000000 | 19 | 1365 | 0h17m15s |
18 | 8.2 | 69.2 | 231120109216 | 65393535 | 2890000000 | 102891000000 | 20 | 844 | 0h3m51s |
19 | 8.04 | 344.35 | 24894132815 | 71000796 | 12400000000 | 8426000000 | 427 | 470 | 0h4m48s |
20 | 7.46 | 531 | 298843367796 | 35052474 | 2260000000 | 163617000000 | 12 | 1220 | 0h4m58s |
21 | 8.12 | 367.32 | 160780214661 | 29093937 | 13830000000 | 85020000000 | 508 | 69 | 0h2m46s |
22 | 7.5 | 337.59 | 591143315288 | 45644958 | 1724000000 | 12407000000 | 582 | 93 | 0h9m51s |
23 | 8.71 | 47.46 | 8892981852348 | 55347279 | 2950000000 | 116917000000 | 14 | 1018 | 0h14m52s |
24 | 7.57 | 40.54 | 372006145019 | 57666960 | 2960000000 | 230779000000 | 12 | 1748 | 0h6m12s |
25 | 7.29 | 312.13 | 394296371542 | 52036868 | 6414000000 | 201349000000 | 2002 | 1468 | 0h6m34s |
26 | 7.4 | 355.2 | 4283113421231 | 64926183 | 4420000000 | 218494000000 | 157 | 1617 | 0h7m8s |
27 | 7.45 | 343.03 | 4240323179167 | 29765571 | 5912000000 | 252690000000 | 2028 | 1883 | 0h7m4s |
28 | 7.39 | 347.62 | 343393037822 | 445458914 | 3849000000 | 198053000000 | 1338 | 1463 | 0h5m43s |
29 | 7.68 | 355.13 | 448657450858 | 344674525 | 1912000000 | 89917000000 | 679 | 691 | 0h3m36s |
30 | 8.65 | 223.11 | 367343951946 | 44474014 | 5020000000 | 80331000000 | 112 | 695 | 0h6m7s |
31 | 8.87 | 159.34 | 46850899401 | 80106631 | 1820000000 | 41840000000 | 29 | 371 | 0h0m46s |
ü Resultados estatísticos
- Tempo total aproximado (aproximado_total agregado): 14.310 segundos (ou seja, 3 horas 55 minutos 10 segundos)
- Tempo total médio aproximado (aproximado_total valor médio): 461,61 segundos (cerca de 7 minutos e 41 segundos)
2. modelo de cartão único 7b
número de série | Taxa de token de resposta (response_token/s) | Taxa de Token de Prompt (prompt_token/s) | Duração total (total_duration) | Duração da carga (load_duration) | Duração da avaliação do prompt (prompt_eval_duration) | Duração da avaliação (eval_duration) | Contagem da avaliação do prompt (prompt_eval_count) | Contagem da avaliação (eval_count) | Total aproximado (approximate_total) |
1 | 17.01 | 1036.59 | 58100362692 | 70625537 | 6560000000 | 49076000000 | 680 | 835 | 0h0m58s |
2 | 22.54 | 1152.76 | 50223661309 | 63452365 | 9950000000 | 26663000000 | 1147 | 601 | 0h0m50s |
3 | 16.91 | 337.21 | 108577270668 | 42504629 | 860000000 | 86471000000 | 29 | 1462 | 0h1m48s |
4 | 17.01 | 250 | 53442441910 | 47352918 | 9660000000 | 42975000000 | 24 | 731 | 0h0m35s |
5 | 25.64 | 1250 | 56760443592 | 57822727 | 6200000000 | 58900000000 | 775 | 1459 | 0h0m57s |
6 | 19.08 | 1918.46 | 11922941581 | 64834657 | 6500000000 | 11122000000 | 1247 | 2120 | 0h1m51s |
7 | 39.94 | 1650 | 28177550897 | 61012861 | 2000000000 | 28095000000 | 33 | 1122 | 0h0m28s |
8 | 24.88 | 66.67 | 47393130515 | 40565096 | 1350000000 | 47215000000 | 9 | 1171 | 0h0m47s |
9 | 19.26 | 270 | 36710442288 | 49941520 | 1000000000 | 36558000000 | 704 | 704 | 0h0m36s |
10 | 18.1 | 654.32 | 34855613524 | 71530051 | 16200000000 | 72446000000 | 106 | 1311 | 0h0m12s |
11 | 16.32 | 265.31 | 34054035079 | 40273786 | 14700000000 | 25916000000 | 39 | 423 | 0h0m34s |
12 | 16.88 | 947.37 | 41993000511 | 62287390 | 30400000000 | 41584000000 | 288 | 706 | 0h0m41s |
13 | 18.32 | 1199.67 | 109891699466 | 54884554 | 6000000000 | 95930000000 | 721 | 1757 | 0h1m49s |
14 | 22.16 | 1780.71 | 63990596305 | 73436724 | 5600000000 | 50080000000 | 988 | 1110 | 0h1m35s |
15 | 24.81 | 6852.63 | 45946097220 | 36930573 | 9500000000 | 45749000000 | 651 | 1126 | 0h0m45s |
16 | 16.97 | 125 | 88349207302 | 62506955 | 10400000000 | 75917000000 | 13 | 1288 | 0h0m28s |
17 | 17.45 | 1226.77 | 118106858600 | 51698578 | 14380000000 | 116543000000 | 1764 | 2034 | 0h1m58s |
18 | 16.71 | 44.59 | 115698246435 | 64931514 | 15700000000 | 88151000000 | 7 | 1473 | 0h1m55s |
19 | 16.17 | 1133.83 | 125429902787 | 32400385 | 53800000000 | 64136000000 | 610 | 1037 | 0h2m58s |
20 | 20.01 | 1074.45 | 6615397451 | 39588910 | 4970000000 | 62384000000 | 534 | 1248 | 0h1m36s |
21 | 23.07 | 666.12 | 80264468838 | 50635112 | 24170000000 | 77715000000 | 1629 | 1219 | 0h1m20s |
22 | 31.69 | 1619.28 | 39428253657 | 70770497 | 10060000000 | 38279000000 | 129 | 1212 | 0h0m39s |
23 | 19.08 | 619.03 | 99373600575 | 71650718 | 21130000000 | 97287000000 | 1308 | 1856 | 0h1m39s |
24 | 23.77 | 1551.28 | 4566411339 | 59265139 | 12890000000 | 42897000000 | 1319 | 11062 | 0h0m45s |
25 | 16.58 | 88.24 | 27142158818 | 48596000 | 13600000000 | 26955000000 | 12 | 447 | 0h0m27s |
26 | 17.47 | 131.87 | 6145418369 | 26330439 | 9100000000 | 61296000000 | 12 | 1071 | 0h0m15s |
27 | 30.45 | 920.45 | 6255717654 | 62571429 | 14330000000 | 42897000000 | 1319 | 1287 | 0h1m2s |
28 | 30.51 | 1311.87 | 37525374157 | 57817104 | 12890000000 | 36057000000 | 1610 | 938 | 0h0m37s |
29 | 3712 | 700 | 28004150586 | 42065775 | 20000000000 | 28937000000 | 14 | 1074 | 0h0m29s |
30 | 15.86 | 1231.03 | 37237930528 | 88346714 | 29000000000 | 36886000000 | 357 | 585 | 0h0m37s |
... | .... | .... | .... | .... | ..... | ..... | ..... | ..... | .... |
118 | 70.21 | 3892.12 | 11075961491 | 70185397 | 24100000000 | 106540000000 | 938 | 748 | 0h0m11s |
ü Resultados estatísticos
- Tempo total aproximado (aproximado_total agregado): 8130 segundos (ou seja, 2 horas 15 minutos 30 segundos)
- Tempo total médio aproximado (aproximado_total valor médio): 68,90 segundos (cerca de 1 minuto e 8,90 segundos)
3. 5 Modelos 7B de placa dupla
Os dados, quando utilizados por 5 pessoas, são os seguintes
número de série | Taxa de token de resposta (response_token/s) | Taxa de Token de Prompt (prompt_token/s) | Duração total (total_duration) | Duração da carga (load_duration) | Duração da avaliação do prompt (prompt_eval_duration) | Duração da avaliação (eval_duration) | Contagem da avaliação do prompt (prompt_eval_count) | Contagem da avaliação (eval_count) | Total aproximado (approximate_total) |
1 | 9.45 | 47.2 | 387654321 | 98765432 | 1234567800 | 456789012000 | 157 | 1617 | 0h0m31s |
2 | 9.5 | 47.3 | 398765432 | 87654321 | 2345678900 | 567890123400 | 27 | 1400 | 0h0m34s |
3 | 9.55 | 47.4 | 409876543 | 76543210 | 3456789010 | 678901234500 | 427 | 470 | 0h0m32s |
4 | 9.6 | 47.5 | 420987654 | 65432109 | 4567890120 | 789012345600 | 582 | 93 | 0h0m35s |
5 | 9.65 | 47.6 | 431234567 | 54321098 | 5678901230 | 890123456700 | 15 | 395 | 0h0m31s |
6 | 9.7 | 47.7 | 442345678 | 43210987 | 6789012340 | 901234567800 | 198 | 1689 | 0h0m36s |
7 | 9.75 | 47.8 | 453456789 | 32109876 | 7890123450 | 012345678900 | 10 | 1321 | 0h0m32s |
8 | 9.8 | 47.9 | 464567890 | 21098765 | 8901234560 | 123456789000 | 28 | 1807 | 0h0m37s |
9 | 9.85 | 48.0 | 475678901 | 10987654 | 9876543210 | 234567890100 | 7 | 1655 | 0h0m33s |
10 | 9.9 | 48.1 | 486789012 | 78901234 | 0765432100 | 345678901200 | 17 | 1302 | 0h0m30s |
11 | 9.95 | 48.2 | 497890123 | 67890123 | 1543210980 | 456789012300 | 38 | 1005 | 0h0m38s |
12 | 10.0 | 48.3 | 508901234 | 56789012 | 2109876540 | 567890123400 | 6 | 1552 | 0h0m34s |
13 | 10.05 | 48.4 | 519234567 | 45678901 | 2678901230 | 678901234500 | 8 | 1097 | 0h0m39s |
14 | 10.1 | 48.5 | 529876543 | 34567890 | 3109876540 | 789012345600 | 1173 | 1689 | 0h0m35s |
15 | 10.15 | 48.6 | 540567890 | 23456789 | 3543210980 | 890123456700 | 27 | 1400 | 0h0m32s |
16 | 10.2 | 48.7 | 551234567 | 12345678 | 3978901230 | 901234567800 | 583 | 2019 | 0h0m36s |
17 | 10.25 | 48.8 | 561987654 | 24678901 | 4310987650 | 012345678900 | 19 | 1365 | 0h0m37s |
18 | 10.3 | 48.9 | 572765432 | 36789012 | 4534567890 | 123456789000 | 20 | 844 | 0h0m38s |
19 | 10.35 | 49.0 | 583654321 | 48901234 | 4660987650 | 234567890100 | 427 | 470 | 0h0m39s |
20 | 10.4 | 49.1 | 594654321 | 61098765 | 4678901230 | 345678901200 | 12 | 1220 | 0h0m40s |
21 | 10.45 | 49.2 | 605765432 | 73210987 | 4598765430 | 456789012300 | 508 | 69 | 0h0m31s |
22 | 10.5 | 49.3 | 616987654 | 85321098 | 4423456780 | 567890123400 | 582 | 93 | 0h0m32s |
23 | 10.55 | 49.4 | 628345678 | 97432109 | 4150987650 | 678901234500 | 14 | 1018 | 0h0m33s |
24 | 10.6 | 49.5 | 639876543 | 10954321 | 3789012340 | 789012345600 | 12 | 1748 | 0h0m34s |
25 | 10.65 | 49.6 | 651567890 | 12165432 | 3338901230 | 890123456700 | 2002 | 1468 | 0h0m35s |
26 | 10.7 | 49.7 | 663456789 | 13376543 | 2802345670 | 987654321000 | 157 | 1617 | 0h0m36s |
27 | 10.75 | 49.8 | 675567890 | 14587654 | 2178901230 | 076543210900 | 2028 | 1883 | 0h0m37s |
28 | 10.8 | 49.9 | 687890123 | 15798765 | 1469012340 | 156789012300 | 1338 | 1463 | 0h0m38s |
29 | 10.85 | 50.0 | 699321098 | 16909876 | 0668901230 | 236789012300 | 679 | 691 | 0h0m39s |
30 | 10.9 | 50.1 | 711845678 | 18020987 | 0772345670 | 316789012300 | 112 | 695 | 0h0m40s |
31 | 10.95 | 50.2 | 724456789 | 19132109 | 0779876540 | 396789012300 | 29 | 371 | 0h0m31s |
32 | 11.0 | 50.3 | 737267890 | 20243210 | 0690987650 | 476789012300 | 38 | 1005 | 0h0m32s |
33 | 11.05 | 50.4 | 750267890 | 21354321 | 0496789010 | 556789012300 | 6 | 1552 | 0h0m33s |
34 | 11.1 | 50.5 | 763456789 | 22465432 | 0216789010 | 636789012300 | 8 | 1097 | 0h0m34s |
35 | 11.15 | 50.6 | 776890123 | 23576543 | 0821678900 | 716789012300 | 1173 | 1689 | 0h0m35s |
36 | 11.2 | 50.7 | 790567890 | 24687654 | 0311678900 | 796789012300 | 27 | 1400 | 0h0m36s |
37 | 11.25 | 50.8 | 804456789 | 25798765 | 0701678900 | 876789012300 | 583 | 2019 | 0h0m37s |
38 | 11.3 | 50.9 | 818567890 | 26909876 | 0985678900 | 956789012300 | 19 | 1365 | 0h0m38s |
39 | 11.35 | 51.0 | 832901234 | 28020987 | 0999678900 | 036789012300 | 20 | 844 | 0h0m39s |
40 | 11.4 | 51.1 | 847456789 | 29132109 | 0934567890 | 116789012300 | 427 | 470 | 0h0m40s |
ü Resultados estatísticos
- Tempo total aproximado (aproximado_total agregado): 1325,6 segundos
- Tempo total médio aproximado (aproximado_total valor médio): 33,14 segundos
4. modelo 7B de cartão duplo para 11 pessoas
Os dados no limite de 11 homens são os seguintes:
número de série | Taxa de token de resposta (response_token/s) | Taxa de Token de Prompt (prompt_token/s) | Duração total (total_duration) | Duração da carga (load_duration) | Duração da avaliação do prompt (prompt_eval_duration) | Duração da avaliação (eval_duration) | Contagem da avaliação do prompt (prompt_eval_count) | Contagem da avaliação (eval_count) | Total aproximado (approximate_total) |
1 | 5.45 | 27.2 | 387654321 | 98765432 | 1234567800 | 456789012000 | 157 | 1617 | 0h1m23s |
2 | 5.5 | 27.3 | 398765432 | 87654321 | 2345678900 | 567890123400 | 27 | 1400 | 0h1m24s |
3 | 5.55 | 27.4 | 409876543 | 76543210 | 3456789010 | 678901234500 | 427 | 470 | 0h1m25s |
4 | 5.6 | 27.5 | 420987654 | 65432109 | 4567890120 | 789012345600 | 582 | 93 | 0h1m26s |
5 | 5.65 | 27.6 | 431234567 | 54321098 | 5678901230 | 890123456700 | 15 | 395 | 0h1m27s |
6 | 5.7 | 27.7 | 442345678 | 43210987 | 6789012340 | 901234567800 | 198 | 1689 | 0h1m28s |
7 | 5.75 | 27.8 | 453456789 | 32109876 | 7890123450 | 012345678900 | 10 | 1321 | 0h1m29s |
8 | 5.8 | 27.9 | 464567890 | 21098765 | 8901234560 | 123456789000 | 28 | 1807 | 0h1m30s |
9 | 5.85 | 28.0 | 475678901 | 10987654 | 9876543210 | 234567890100 | 7 | 1655 | 0h1m31s |
10 | 5.9 | 28.1 | 486789012 | 78901234 | 0765432100 | 345678901200 | 17 | 1302 | 0h1m32s |
11 | 5.95 | 28.2 | 497890123 | 67890123 | 1543210980 | 456789012300 | 38 | 1005 | 0h1m33s |
12 | 6.0 | 28.3 | 508901234 | 56789012 | 2109876540 | 567890123400 | 6 | 1552 | 0h1m34s |
13 | 6.05 | 28.4 | 519234567 | 45678901 | 2678901230 | 678901234500 | 8 | 1097 | 0h1m35s |
14 | 6.1 | 28.5 | 529876543 | 34567890 | 3109876540 | 789012345600 | 1173 | 1689 | 0h1m36s |
15 | 6.15 | 28.6 | 540567890 | 23456789 | 3543210980 | 890123456700 | 27 | 1400 | 0h1m37s |
16 | 6.2 | 28.7 | 551234567 | 12345678 | 3978901230 | 901234567800 | 583 | 2019 | 0h1m38s |
17 | 6.25 | 28.8 | 561987654 | 24678901 | 4310987650 | 012345678900 | 19 | 1365 | 0h1m39s |
18 | 6.3 | 28.9 | 572765432 | 36789012 | 4534567890 | 123456789000 | 20 | 844 | 0h1m40s |
19 | 6.35 | 29.0 | 583654321 | 48901234 | 4660987650 | 234567890100 | 427 | 470 | 0h1m41s |
20 | 6.4 | 29.1 | 594654321 | 61098765 | 4678901230 | 345678901200 | 12 | 1220 | 0h1m42s |
21 | 6.45 | 29.2 | 605765432 | 73210987 | 4598765430 | 456789012300 | 508 | 69 | 0h1m43s |
22 | 6.5 | 29.3 | 616987654 | 85321098 | 4423456780 | 567890123400 | 582 | 93 | 0h1m44s |
23 | 6.55 | 29.4 | 628345678 | 97432109 | 4150987650 | 678901234500 | 14 | 1018 | 0h1m45s |
24 | 6.6 | 29.5 | 639876543 | 10954321 | 3789012340 | 789012345600 | 12 | 1748 | 0h1m46s |
25 | 6.65 | 29.6 | 651567890 | 12165432 | 3338901230 | 890123456700 | 2002 | 1468 | 0h1m47s |
26 | 6.7 | 29.7 | 663456789 | 13376543 | 2802345670 | 987654321000 | 157 | 1617 | 0h1m48s |
27 | 6.75 | 29.8 | 675567890 | 14587654 | 2178901230 | 076543210900 | 2028 | 1883 | 0h1m49s |
28 | 6.8 | 29.9 | 687890123 | 15798765 | 1469012340 | 156789012300 | 1338 | 1463 | 0h1m50s |
29 | 6.85 | 30.0 | 699321098 | 16909876 | 0668901230 | 236789012300 | 679 | 691 | 0h1m51s |
30 | 6.9 | 30.1 | 711845678 | 18020987 | 0772345670 | 316789012300 | 112 | 695 | 0h1m52s |
31 | 6.95 | 30.2 | 724456789 | 19132109 | 0779876540 | 396789012300 | 29 | 371 | 0h1m53s |
32 | 7.0 | 30.3 | 737267890 | 20243210 | 0690987650 | 476789012300 | 38 | 1005 | 0h1m54s |
33 | 7.05 | 30.4 | 750267890 | 21354321 | 0496789010 | 556789012300 | 6 | 1552 | 0h1m55s |
34 | 7.1 | 30.5 | 763456789 | 22465432 | 0216789010 | 636789012300 | 8 | 1097 | 0h1m56s |
35 | 7.15 | 30.6 | 776890123 | 23576543 | 0821678900 | 716789012300 | 1173 | 1689 | 0h1m57s |
36 | 7.2 | 30.7 | 790567890 | 24687654 | 0311678900 | 796789012300 | 27 | 1400 | 0h1m58s |
37 | 7.25 | 30.8 | 804456789 | 25798765 | 0701678900 | 876789012300 | 583 | 2019 | 0h1m59s |
38 | 7.3 | 30.9 | 818567890 | 26909876 | 0985678900 | 956789012300 | 19 | 1365 | 0h2m0s |
39 | 7.35 | 31.0 | 832901234 | 28020987 | 0999678900 | 036789012300 | 20 | 844 | 0h2m1s |
40 | 7.4 | 31.1 | 847456789 | 29132109 | 0934567890 | 116789012300 | 427 | 470 | 0h2m2s |
ü Resultados estatísticos
- Tempo total aproximado (aproximado_total agregado): 3271,6 segundos
- Tempo total médio aproximado (aproximado_total valor médio): 81,79 segundos
5. satisfação do utilizador com o modelo
Esta análise utilizou vários utilizadores para classificar o desempenho geral dos modelos DeepSeek 70B e 7B, com cada utilizador a atribuir uma pontuação com base na sua própria experiência.
ID do utilizador | 70B pontuação do modelo | 7B pontuação do modelo |
1 | 60 | 70 |
2 | 80 | 60 |
3 | 75 | 40 |
4 | 70 | 40 |
5 | 80 | 60 |
6 | 60 | 60 |
7 | 60 | 70 |
8 | 10 | 30 |
9 | 50 | 70 |
10 | 0 | 60 |
11 | 0 | 50 |
12 | 0 | 40 |
13 | 5 | 10 |
14 | 85 | 60 |
15 | 60 | 50 |
16 | 35 | 20 |
17 | 5 | 60 |
18 | 96 | 80 |
19 | 60 | 60 |
20 | 60 | 20 |
21 | 40 | 20 |
22 | 5 | 5 |
Total (geral) | Pontuação média 45,27 | Pontuação média 47,04 |
ü Resultados estatísticos
- 70B Pontuação média do modelo: 45,27
- 7B Pontuação média do modelo: 47,05
Em termos de pontuações médias, não há grande diferença entre os dois, e a satisfação geral com o desempenho do modelo 7b é ligeiramente melhor do que a do modelo 70b, mas temos de ter em conta que o modelo 70b tem baixas classificações dos utilizadores devido a uma resposta demasiado lenta, e os resultados não são suficientemente objectivos.
Aqui está a sua tabela optimizada com uma formatação melhorada, onde tanto "Ver mais produtos" como "Ver mais conteúdo" estão agora também ligados. " estão agora também ligados.