Node. Testen

Tests die je kunt uitvoeren om te controleren of de configuratie correct is.

Algemene informatie

Het is erg vervelend wanneer het lijkt alsof je alles goed hebt gedaan, en je toch niet in de epoch kunt komen.

Het is beter alles meerdere keren te controleren.

Let op! In de tekst kunnen fouten staan, omdat ik niet heel goed thuis ben in serverconfiguratie. Beter gezegd: ik ben er "zeer slecht" in, maar deze tests hebben me geholpen.

Controleer of de sleutels correct zijn geïnstalleerd

Het komt voor dat, doordat meerdere mensen de nodes hebben ingesteld of je per ongeluk de opdracht voor het toewijzen van de Consensus Public Key verwisseld hebt, je verschillende sleutels op de Node en in het netwerk hebt.

Dan kom je zeker niet in de epoch. Controleer het!

Controle Consensus Key

🔎 STAP 1. Vind de Consensus Public Key op de node

Let op! De controle gebeurt op de server waar de ML Node zich bevindt (of de Network Node, ik weet het zelf nog niet precies, omdat bij mij beide nodes voorlopig op één server staan).

docker exec node wget -qO- "http://127.0.0.1:26657/status" | jq -r '.result.validator_info.pub_key.value'

je krijgt ongeveer:

{
  "value": "AD+NQncKPBzqw0u8KcSmlIMqogg7i4nhDfLIgIkGYiY="
}

👉 Kopieer het veld "value".+

🔎 STAP 2. Vind de Consensus Public Key in het netwerk

Let op! De controle gebeurt op die server waar je de sleutels hebt aangemaakt. Dus niet op de Network Node en niet op de ML Node.

Nu kijken we wat het netwerk als jouw sleutel beschouwt:

curl -s http://node2.gonka.ai:8000/chain-api/productscience/inference/inference/participant/gonka1yplcem8kfe6vm06t4sl8fskm0we2zslxxu90ta | jq

Let op! Vervang hetgeen vetgedrukt is door het adres van je Hot Key.

Je krijgt:

"AD+NQncKPBzqw0u8KcSmlIMqogg7i4nhDfLIgIkGYiY="

Als resultaat ontvang je zo'n antwoord:

{ "participant": { "index": "gonka1yplcem8kfe6vm06t4sl8fskm0we2zslxxu90ta", "address": "gonka1yplcem8kfe6vm06t4sl8fskm0we2zslxxu90ta", "weight": -1, "join_time": "1771876365572", "join_height": "2792955", "last_inference_time": "0", "inference_url": "http://203.168.252.195:8000", "status": "ACTIVE", "coin_balance": "0", "validator_key": "7GEr4jV5GjCv+C+jKOq3Eh4bwxMVs7kafm7tcWP0EOo=", "consecutive_invalid_inferences": "0", "worker_public_key": "", "epochs_completed": 0, "current_epoch_stats": { "inference_count": "0", "missed_requests": "0", "earned_coins": "0", "rewarded_coins": "0", "burned_coins": "0", "validated_inferences": "0", "invalidated_inferences": "0", "invalidLLR": { "value": "0", "exponent": 0 }, "inactiveLLR": { "value": "0", "exponent": 0 }, "confirmationPoCRatio": null }

We zijn geïnteresseerd in de waarde "validator_key".

🔎 STAP 3. Vergelijk ze. Ze moeten gelijk zijn

Ze moeten overeenkomen. Bij ons - komen ze niet overeen. Het is niet verwonderlijk dat we niet in de epoch terechtkomen ))

Redenen voor deze mismatch kunnen verschillend zijn. Ik denk dat je zelf uitvindt hoe dit te verhelpen.

Hoe te repareren: Ik denk dat je er zelf uitkomt. Het is niet moeilijk.

---------------------------------------------------------------------------

Vind het model op jouw node

curl http://localhost:5000/v1/models

Let op! Als er niets wordt weergegeven, dan staat je ML Node mogelijk op een andere poort. Mogelijke opties:

5000
8000
8080
9200

d.w.z. vervang dit cijfer gewoon in de code.

Verwacht antwoord:

root@mlnode-308:/app# curl http://localhost:5000/v1/models {"object":"list","data":[{"id":"Qwen/Qwen3-235B-A22B-Instruct-2507-FP8","object":"model","created":1772106402,"owned_by":"vllm","root":"/root/models/Qwen3-235B-A22B-Instruct-2507-FP8","parent":null,"max_model_len":240000,"permission":[{"id":"modelperm-f9056e19f4b1494c9854c8df9887394b","object":"model_permission","created":1772106402,"allow_create_engine":false,"allow_sampling":true,"allow_logprobs":true,"allow_search_indices":false,"allow_view":true,"allow_fine_tuning":false,"organization":"*","group":null,"is_blocking":false}]}]}root@mlnode-308:/app#

Let op! Na het uitvoeren van deze opdracht kom je in de Dockercontainer. Om verder in de commandoregel op de server te werken, moet je de container verlaten met de opdracht: exit

Ontdek de configuratie van de node

docker exec -it mlnode-308 cat /proc/238/cmdline | tr '\0' ' '

Verwacht antwoord:

/usr/bin/python3.12 -m vllm.entrypoints.openai.api_server --model Qwen/Qwen3-235B-A22B-Instruct-2507-FP8 --dtype float16 --port 5001 --host 0.0.0.0 --max-model-len 240000 --enable-auto-tool-choice --tool-call-parser hermes --tensor-parallel-size 4 --pipeline-parallel-size 2 --enable-expert-parallel --quantization fp8 --gpu-memory-utilization 0.846 --kv-cache-dtype fp8 --swap-space 4 --enforce-eager --cpu-offload-gb 4 --model /root/models/Qwen3-235B-A22B-Instruct-2507-FP8 --served-model-name Qwen/Qwen3-235B-A22B-Instruct-2507-FP8 root@ecs-99605001-024:~#

Let op! Je moet in plaats van mlnode-308 de naam van jouw node invullen. Als je het vergeten bent, kun je het opvragen met de opdracht:

docker compose ps

Verwacht antwoord- een van de volgende:

Je kunt alle containernamen weergeven:

docker ps --format '{{.Names}}'

Verwacht antwoord

GPU-status

curl http://localhost:8080/api/v1/gpu/devices | jq

Verwacht antwoord:

Controleer de opgegeven configuratie

We controleren of de node correct is ingesteld:

Toont met welke instellingen jouw ML Node draait. Wordt waarschijnlijk uitgevoerd op de ML Node-server (als ze apart zijn).

Let op! Deze parameters zijn ter voorbeeld. Ze zijn zeker verouderd. Bij jou zal het anders zijn.

Controle van de node met stoppen

Stop de node

curl -sS -X POST "http://127.0.0.1:8080/api/v1/stop" -H "Content-Type: application/json"
sleep 3

Verwacht antwoord:

{"status":"OK"}

Controleer de status van de node

curl -sS "http://127.0.0.1:8080/api/v1/state"

Verwacht antwoord:

{"state":"STOPPED"}root@submodel-sxA100-19-14:~/gonka/deploy/join#

Als je iets anders ziet - voer de stap om de node te stoppen nogmaals uit.

Start een gedwongen test van de node

BLOCK_HEIGHT=$(curl -s "http://node1.gonka.ai:8000/chain-rpc/status" | jq -r '.result.sync_info.latest_block_height')
BLOCK_HASH=$(curl -s "http://node1.gonka.ai:8000/chain-rpc/status" | jq -r '.result.sync_info.latest_block_hash')

curl -sS -X POST "http://127.0.0.1:8080/api/v1/pow/init/generate" \
  -H "Content-Type: application/json" \
  -d "{
  \"node_id\": 0,
  \"node_count\": 1,
  \"block_hash\": \"D3470A4DDA3D4173BE7C7A55AF52323C19CAC8307DB492CFD004D0C83561068B\",
  \"block_height\": 2753612,
  \"public_key\": \"7GEr4jV5GjCv+C+jK0q3Eh4bwxMVs7kafm7tcWP0E0O=\",
  \"batch_size\": 1,
  \"r_target\": 10.0,
  \"fraud_threshold\": 0.01,
  \"params\": {
    \"dim\": 1792,
    \"n_layers\": 64,
    \"n_heads\": 64,
    \"n_kv_heads\": 64,
    \"vocab_size\": 8196,
    \"ffn_dim_multiplier\": 10.0,
    \"multiple_of\": 8192,
    \"norm_eps\": 1e-5,
    \"rope_theta\": 10000.0,
    \"use_scaled_rope\": false,
    \"seq_len\": 256
  },
  \"url\": \"http://api:9100/v1/poc-batches\"
}"
echo

Verwacht antwoord

Bekijk de voortgang van de test via de logs

docker logs mlnode-308 --tail 50 -f

Na een paar minuten (meestal 5–15) zou het definitieve resultaat moeten verschijnen. Na voltooiing van de PoC:

Verwacht antwoord:

Het is belangrijk dat CUDA voor 100% geladen is

Om de test te verlaten, druk op de toetscombinatie CTRL+C

Node inschakelen

curl -sS -X POST "http://127.0.0.1:9200/admin/v1/nodes/node1/enable" -H "Content-Type: application/json"

Verwacht antwoord

{"message":"node enabled successfully","node_id":"node1"} root@submodel-sxA100-19-14:~/gonka/deploy/join#

Controleer de status van jouw node:

curl http://localhost:8080/api/v1/state

Verwacht antwoord:

root@ecs-99605001-024:# curl http://localhost:8080/api/v1/state {"state":"INFERENCE"}root@ecs-99605001-024:#

Ontdek de PoV-status van jouw node:

curl http://localhost:8080/api/v1/pow/status

Niet verwacht antwoord:

"detail":"Cannot run POW because MLNode is currently in ServiceState.INFERENCE mode. Please stop ServiceState.INFERENCE first."}root@ecs-99605001-024:~#

Welk "verwacht antwoord" is weet ik nog niet ))

Controleren van containers

Na het opstarten moet je allereerst controleren of de parameters die je voor je node-config.json hebt gekozen in de mlnode werken

Start de containerlogs mlnode

docker logs -f --tail=200 mlnode-308

Als we zien dat het model geladen is zoals op de screenshot, kunnen we over het algemeen de container verlaten met de toetscombinatie CTRL+C

Start de containerlogs node

docker logs -f --tail=200 node

Draait op de Network Node.

Als de node niet gesynchroniseerd was, zouden we het binnenhalen van blockchain "chunks" moeten zien

625 - totaal aantal, 160 - laatst geladen

verlaat de container met de toetscombinatie CTRL+C

Controleer de synchronisatie van de node met het netwerk

curl -s "http://127.0.0.1:9200/admin/v1/setup/report" | jq '.checks[] | select(.id == "block_sync")'

Verwacht antwoord

Dus hier moet het getal klein zijn. Dit is de tijd in seconden sinds de creatie van het laatste blok.

Controleer het actuele blok van het netwerk

curl -sS http://node1.gonka.ai:8000/chain-rpc/status | jq -r '.result.sync_info.latest_block_height'

Controleer het blok waarop onze node zit

Dat weet ik nog niet hoe )

En vergelijk. Ze moeten dicht bij elkaar liggen.

Checklist om in de epoch te komen

Helpt begrijpen in welke richting je naar het probleem moet zoeken.

curl -s http://localhost:9200/admin/v1/setup/report | jq '.checks[] | {id,status,message}'

Verwacht antwoord:

Het met de rode pijl aangegeven veld is de controle die FAIL absoluut bij iedereen voorkomt. Deze parameter PASS alleen bij de Gonka master-nodes (denk ik).

Het met de blauwe pijl aangegeven veld kan bij jou FAIL - als je nog nooit in een epoch bent gekomen.

hashtagAlgemene informatie

hashtagControleer of de sleutels correct zijn geïnstalleerd

hashtagControle Consensus Key

hashtag🔎 STAP 1. Vind de Consensus Public Key op de node

hashtag🔎 STAP 2. Vind de Consensus Public Key in het netwerk

hashtag🔎 STAP 3. Vergelijk ze. Ze moeten gelijk zijn

hashtagVind het model op jouw node

hashtagOntdek de configuratie van de node

hashtagGPU-status

hashtagControleer de opgegeven configuratie

hashtagControle van de node met stoppen

hashtagStop de node

hashtagControleer de status van de node

hashtagStart een gedwongen test van de node

hashtagBekijk de voortgang van de test via de logs

hashtagNode inschakelen

hashtagControleer de status van jouw node:

hashtagControleren van containers

hashtagStart de containerlogs mlnode

hashtagStart de containerlogs node

hashtagControleer de synchronisatie van de node met het netwerk

hashtagControleer het actuele blok van het netwerk

hashtagControleer het blok waarop onze node zit

hashtagChecklist om in de epoch te komen

hashtagLinks

Algemene informatie

Controleer of de sleutels correct zijn geïnstalleerd

Controle Consensus Key

🔎 STAP 1. Vind de Consensus Public Key op de node

🔎 STAP 2. Vind de Consensus Public Key in het netwerk

🔎 STAP 3. Vergelijk ze. Ze moeten gelijk zijn

Vind het model op jouw node

Ontdek de configuratie van de node

GPU-status

Controleer de opgegeven configuratie

Controle van de node met stoppen

Stop de node

Controleer de status van de node

Start een gedwongen test van de node

Bekijk de voortgang van de test via de logs

Node inschakelen

Controleer de status van jouw node:

Controleren van containers

Start de containerlogs mlnode

Start de containerlogs node

Controleer de synchronisatie van de node met het netwerk

Controleer het actuele blok van het netwerk

Controleer het blok waarop onze node zit

Checklist om in de epoch te komen

Links