- This topic has 6 replies, 2 voices, and was last updated 6 years, 4 months ago by sergiomso.
-
AuthorPosts
-
10 de julho de 2018 at 11:57 pm #109321sergiomsoParticipant
Pessoal
Precisaria da ajuda de vocês. Alguém já viu ou deparou com este problema?Estou com um problema onde no diretorio /u01/app/11.2.0/grid/log/prod2/ctssd em um dos nós do cluster onde existe um arquivo de log que não para de crescer. Parece ser log do daemon. Ja está com quase 7 GB.
Há algum procedimento? Posso dar o comando > octssd.log e recriar outro?
pwd
/u01/app/11.2.0/grid/log/prod1/ctssd[grid@prod1 ctssd]$ ls -lrt
total 6469784-rw-r–r– 1 grid oinstall 6519556537 Jul 10 16:48 octssd.log
Obrigado a todos.
11 de julho de 2018 at 2:04 am #109325José Laurindo ChiappaModeratorBlz ? Então, OCTSSd.log é o log de alertas do Oracle Cluster Time Synchronization Service : primeiro de tudo, abra ele e veja qual mg de erro tá sendo infinitamente repetida e fazendo ele crescer tanto assim : SE FOR “NS 12535 (“TNS:operation timed out”) e/ou NS 12606 (“TNS: Application timeout occurred”), vc tá caindo no Bug “10400667 – CRS-2406 from ctssd process appears continuously in CRS alert.log” (Doc ID 10400667.8) – veja no site de Suporte Oracle o bugfix existente pra ele….
NEM PRECISO DIZER que o correto é vc PRA ONTEM aplicar o bugfix necessário, mas como WORK-AROUND a nota indicada sugere que vc RESTARTE o ctssd usando os comandos crsctl adequados, ou simplesmente mate o daemon : ao que parece, não basta vc zerar o log, enquanto vc não parar ou matar o daemon o log VAI continuar enchendo rapidamente…[]s
Chiappa
11 de julho de 2018 at 6:58 pm #109326sergiomsoParticipantCHIAPPA
Obrigado pela ajuda.Então chiappa se você copiar e colar a mensagem abaixo no notepad vai notar que a cada segundo gerar essas informações. E nao aparece as informações TNS no log.
Se eu matar o processo do daemon do OCTSSd tem alguma implicação?
2018-07-11 11:43:39.019: [ CTSS][2212488960]ctsscomm_recv_cb2: Receive incoming message event. Msgtype [2].
2018-07-11 11:43:39.019: [ CTSS][2212488960]ctssslave_msg_handler4_1: Waiting for slave_sync_with_master to finish sync process. sync_state[3].
2018-07-11 11:43:39.019: [ CTSS][2208286464]ctssslave_swm2_3: Received time sync message from master.
2018-07-11 11:43:39.019: [ CTSS][2208286464]ctssslave_swm: The magnitude [13961754] of the offset [13961754 usec] is detected to be too larger.
2018-07-11 11:43:39.019: [ CTSS][2208286464]ctssslave_swm17: LT [1531320219sec 19290usec], MT [1531320205sec 140711718609088usec], Delta [1031usec]
2018-07-11 11:43:39.019: [ CTSS][2208286464]ctssslave_swm19: The offset is [13961754 usec] and sync interval set to [4]
2018-07-11 11:43:39.019: [ CTSS][2208286464]ctssslave_swm: Received from master (mode [0xae] nodenum [1] hostname [servmvbd01] )
2018-07-11 11:43:39.019: [ CTSS][2208286464]ctsselect_msm: Sync interval returned in [4]
2018-07-11 11:43:39.019: [ CTSS][2212488960]ctssslave_msg_handler4_3: slave_sync_with_master finished sync process. Exiting clsctssslave_msg_handler
2018-07-11 11:43:40.019: [ CTSS][2208286464]ctsselect_msm: CTSS mode is [0xa6]
2018-07-11 11:43:40.019: [ CTSS][2208286464]ctssslave_swm1_2: Ready to initiate new time sync process.
2018-07-11 11:43:40.019: [ CTSS][2208286464]ctssslave_swm2_1: Waiting for time sync message from master. sync_state[2].2018-07-11 11:43:40.020: [ CTSS][2212488960]ctsscomm_recv_cb2: Receive incoming message event. Msgtype [2].
2018-07-11 11:43:40.020: [ CTSS][2212488960]ctssslave_msg_handler4_1: Waiting for slave_sync_with_master to finish sync process. sync_state[3].
2018-07-11 11:43:40.020: [ CTSS][2208286464]ctssslave_swm2_3: Received time sync message from master.
2018-07-11 11:43:40.020: [ CTSS][2208286464]ctssslave_swm: The magnitude [13961753] of the offset [13961753 usec] is detected to be too larger.
2018-07-11 11:43:40.020: [ CTSS][2208286464]ctssslave_swm17: LT [1531320220sec 20289usec], MT [1531320206sec 140711718610088usec], Delta [878usec]
2018-07-11 11:43:40.020: [ CTSS][2208286464]ctssslave_swm19: The offset is [13961753 usec] and sync interval set to [4]
2018-07-11 11:43:40.020: [ CTSS][2208286464]ctssslave_swm: Received from master (mode [0xae] nodenum [1] hostname [servmvbd01] )
2018-07-11 11:43:40.020: [ CTSS][2208286464]ctsselect_msm: Sync interval returned in [4]
2018-07-11 11:43:40.020: [ CTSS][2212488960]ctssslave_msg_handler4_3: slave_sync_with_master finished sync process. Exiting clsctssslave_msg_handler
2018-07-11 11:43:41.020: [ CTSS][2208286464]ctsselect_msm: CTSS mode is [0xa6]
2018-07-11 11:43:41.020: [ CTSS][2208286464]ctssslave_swm1_2: Ready to initiate new time sync process.
2018-07-11 11:43:41.020: [ CTSS][2208286464]ctssslave_swm2_1: Waiting for time sync message from master. sync_state[2].2018-07-11 11:43:41.021: [ CTSS][2212488960]ctsscomm_recv_cb2: Receive incoming message event. Msgtype [2].
2018-07-11 11:43:41.021: [ CTSS][2212488960]ctssslave_msg_handler4_1: Waiting for slave_sync_with_master to finish sync process. sync_state[3].
2018-07-11 11:43:41.021: [ CTSS][2208286464]ctssslave_swm2_3: Received time sync message from master.
2018-07-11 11:43:41.021: [ CTSS][2208286464]ctssslave_swm: The magnitude [13961791] of the offset [13961791 usec] is detected to be too larger.
2018-07-11 11:43:41.021: [ CTSS][2208286464]ctssslave_swm17: LT [1531320221sec 21552usec], MT [1531320207sec 140711718611313usec], Delta [1112usec]
2018-07-11 11:43:41.021: [ CTSS][2208286464]ctssslave_swm19: The offset is [13961791 usec] and sync interval set to [4]
2018-07-11 11:43:41.021: [ CTSS][2208286464]ctssslave_swm: Received from master (mode [0xae] nodenum [1] hostname [servmvbd01] )
2018-07-11 11:43:41.021: [ CTSS][2208286464]ctsselect_msm: Sync interval returned in [4]
2018-07-11 11:43:41.021: [ CTSS][2212488960]ctssslave_msg_handler4_3: slave_sync_with_master finished sync process. Exiting clsctssslave_msg_handler
2018-07-11 11:43:42.021: [ CTSS][2208286464]ctsselect_msm: CTSS mode is [0xa6]
2018-07-11 11:43:42.021: [ CTSS][2208286464]ctssslave_swm1_2: Ready to initiate new time sync process.11 de julho de 2018 at 7:58 pm #109327José Laurindo ChiappaModeratorBlz ? Em princípio não há problema algum em vc matar o daemon, o crs sempre starta ele sozinho se ele não estiver startado…
O que me causa espécie é essas repetidas msgs de “Ready to initiate new time sync process.” E esses offsets diferentes :2018-07-11 11:43:39.019: [ CTSS][2208286464]ctssslave_swm19: The offset is [13961754 usec] and sync interval set to [4]
….
2018-07-11 11:43:40.020: [ CTSS][2208286464]ctssslave_swm19: The offset is [13961753 usec] and sync interval set to [4]
….2018-07-11 11:43:41.021: [ CTSS][2208286464]ctssslave_swm19: The offset is [13961791 usec] and sync interval set to [4]
…Além da possibilidade de BUG (que vc DEVERIA SIM checar com o Suporte Oracle), me parece que está tendo DIFERENÇA de clock entre as máquinas… Vc tem ABSOLUTA certeza que o timezone/codepage/calendário em todas as máquinas do cluster está RIGOROSAMENTE IDÊNTICO ??? Outra coisa : normalmente OU vc desabilita completamente o NTP e deixa o ctssd se encarregar da sincronização de clock OU vc Habilita E Configura um ntp server e assim desabilita o ctssd – o que Não Dá Certo é deixar as duas coisas AO MESMO TEMPO, sim sim ?? http://www.lab128.com/rac_installation_using_vb/article_text.html exemplifica a opção de desabilitar ntp, e https://oracle-base.com/articles/11g/oracle-db-11gr2-rac-installation-on-oel5-using-virtualbox mostra as duas, INCLUSIVE frisando que se vc optar por ter um ntp vc TEM QUE TER algumas configs extras no /etc/sysconfig/ntpd….
[]s
Chiappa
11 de julho de 2018 at 9:18 pm #109328sergiomsoParticipantCHIAPPA,
Como faço para desabilitar ctssd tem algum procedimento? Esta com diferenca de 15 segundos de uma maquina para outra.
O arquivo /etc/sysconfig/ntpd esta com esta configuracao.cat /etc/sysconfig/ntpd
Drop root to id ‘ntp:ntp’ by default.
OPTIONS=”-x -u ntp:ntp -p /var/run/ntpd.pid -g”
ssh serv01 date
Wed Jul 11 13:38:14 BRT 2018ssh serv02 date
Wed Jul 11 13:38:29 BRT 2018
ssh serv01-vip date
Wed Jul 11 13:38:23 BRT 2018ssh serv02-vip date
Wed Jul 11 13:38:38 BRT 2018
ssh serv01-priv date
Wed Jul 11 13:38:35 BRT 2018ssh serv02-priv date
Wed Jul 11 13:38:49 BRT 201812 de julho de 2018 at 6:23 pm #109334José Laurindo ChiappaModeratorVeja bem : o cluster RAC *** exige *** que o system timing esteja o mais idêntico tecnicamente possível em TODOS os nós, e quem faz essa checagem é o ctssd, Rodando ele sempre tem que estar…. O que ocorre é que se vc tem um NTP Server ativo e corretamente configurado, vc vai querer que o ctssd rode em modo OBSERVADOR, ie, ele deixa pro NTP a sincronização de data/hora entre as máquinas e só fica OBSERVANDO, MONITORANDO, CONFIRMANDO que esse trabalho tá sendo feito, okdoc ??? https://community.toadworld.com/platforms/oracle/b/weblog/archive/2015/03/12/switching-ctssd-from-active-mode-to-observer-mode e https://community.oracle.com/blogs/valeh/2016/05/03/enable-cluster-time-synchronization-service-on-oracle-11gr2-rac exemplificam, mas a dica é : via de regra, TUDO de config que vc faz no RAC é com crsctl ou srvctl, não foge disso…
Nem preciso dizer, também, mas pra ficar Claro : vc Só Pode ‘desabilitar’ o ctssd (ou pra usar a nomenclatura correta, ter ele rodando em Observer mode) SE e APENAS SE vc tiver NTP server ativo e funcional e acessível por TODOS OS NÓS, com os nós TODOS tendo o NTP client também totalmente funcional… E VOU REPISAR DE NOVO : é crucial que vc tenha Calendário, Time Zone, region e todos os detalhes envolvidos com NLS / Localização completamente IGUAIS em TODOS OS NÓS DO RAC!!!IMPORTANTE : pra vc ter NTP, entenda que Não BASTA vc configurar o arquivo de init correspondente : vc TEM que ter um servidor de NTP ativo e preciso (como muita gente não tem isso usa um servidor de NTP público como os do ntp.org), tal servidor VAI ser acessado pelos nós pra fazer a sincronização então TEM que estar liberado tal acesso no firewall, mais ou menos como https://www.hhutzler.de/blog/415-2/ indica… OU SEJA,
[]s
Chiappa
OBS :
fiquei ARREPIADO quando vc falou que tem diff de 15 segundos entre um nó e outro : PRO RAC que DEPENDE de votação e contato entre os nós, diferenças de tempo são INACEITÁVEIS…. No caso, é importante frisar que SE vc está implementado RAC em máquinas virtuais, é CRUCIAL vc ter um mecanismo de sincronização de tempo ativo quando a máquina virtual starta : https://www.virtualbox.org/ticket/15179 , https://stackoverflow.com/questions/19490652/how-to-sync-time-on-host-wake-up-within-virtualbox e https://vilimpoc.org/blog/2014/02/09/better-time-synchronization-with-virtualbox-guest-additions/ discutem algumas possibilidades no Virtualbox (normalmente envolvendo instalação dos Adicionais), mas PLZ veja lá na documentação e nos sites do TEU sistema de virtualização Exatamente o Que vc pode obter nesse sentido
12 de julho de 2018 at 7:15 pm #109336sergiomsoParticipantCHIAPPA
Bom dia
Vou conversar com pessoal de S.O a respeito do servidor NTP.
Muito obrigado pelo apoio e esclarecimentos referente ao assunto.
-
AuthorPosts
- You must be logged in to reply to this topic.