La manutenzione industriale e le sue declinazioni

Cosa significa “fare manutenzione” in azienda? Quando faccio questa domanda, in occasione di sopralluoghi, corsi e seminari, la risposta prevalente è la seguente: “vuol dire riparare ciò che si è rotto”.

Asserire che il nostro contesto industriale è ancora culturalmente ancorato alla reattività dell’agire manutentivo non credo, peraltro, stupisca nessuno. E questo è a tutti gli effetti un “ancoraggio” molto difficile da rimuovere.

Fare manutenzione vuol dire “anche” riparare. Ma significa anche molto, molto altro.

La manutenzione rappresenta la “nuova frontiera” sia della produttività sia della sicurezza sul lavoro ed è per questo che, ancora una volta, vorrei qui discutere degli impatti profondi che l’introduzione di politiche manutentive orientate all’affidabilità producono in azienda.

Qualsiasi azienda.

Manifatturiera o di processo.

A rischio convenzionale o di incidente rilevante.

Seguitemi ora ancora per un po’, va bene?

Il termine manutenzione orientata all’affidabilità (=Reliability Centered Maintenance, RCM) fu introdotto nel 1978 a partire da uno studio specialistico del settore aeronautico elaborato da due ingegneri della United Airlines  di San Francisco. Tale studio rappresentò un momento chiave nell’ambito degli approfondimenti in tema di affidabilità e manutenzione, creando un nuovo paradigma nel settore, soprattutto nell’ambito aeronautico dell’epoca. Infatti, in tale contesto, nel corso dei trent’anni successivi al secondo conflitto mondiale, era invalsa la consuetudine di operare negli aeromobili con politiche di manutenzione preventiva ciclica che si concretizzavano, in molti casi, nella revisione con sostituzione periodica dei componenti dei sistemi. Tuttavia, analisi retrospettive dimostrarono che:

  • tali politiche non aumentavano l’affidabilità dei sistemi;
  • gli intervalli di revisione non risultavano determinati in modo analitico;
  • la revisione e sostituzione era molto costosa a fronte di minimi benefici affidabilistici.

In particolare, si evidenziò che molti modi di guasto non potevano essere esclusi con le politiche di sostituzione periodica vista l’assenza, in tali componenti, delle fasi di usura (cfr. fase finale della curva bathtub). A questo proposito si rileva che il tasso di guasto, per una percentuale compresa tra il 70% e l’80% dei sistemi ed apparecchi, non evidenzia proprio la fase di usura. Inoltre la sostituzione periodica senza determinazione analitica degli intervalli causava:

  • la sostituzione di componenti che potevano possedere una vita residua ancora molto elevata;
  • l’introduzione di un aumento dei tassi di guasto dovuti alla mortalità infantile dei componenti.

Tali considerazioni hanno spinto l’industria aeronautica prima, e poi a seguire l’industria nucleare e chimica, a dotarsi di politiche di manutenzione che avessero come obiettivo principale l’ottenimento di elevati livelli di affidabilità degli impianti. Tale approccio faticosamente si sta trasferendo sia a luoghi di lavoro con rischio convenzionale (es. presenza di rischio chimico, cancerogeno, ATEX, ecc.) sia ai settori della costruzione di prodotti (es. direttiva macchine, ATEX, PED). Non scordiamoci, infatti, che l’ambito della marcatura CE dei prodotti risulta particolarmente ricco di normativa tecnica armonizzata volta a suggerire le soluzioni per il soddisfacimento dei requisiti essenziali di sicurezza fissati dalle direttive comunitarie. Purtroppo, però, tali norme indicano gli standard di sicurezza relativi al solo prodotto nuovo, demandando al costruttore l’individuazione delle opportune strategie di manutenzione. Un approccio RCM permette, anche in questo caso, di raggiungere con maggiore facilità gli scopi di sicurezza imposti dalla normativa cogente anche se, più in generale, gli obiettivi della filosofia RCM sono connessi alla riduzione delle conseguenze dei guasti non necessariamente finalizzate ad evitare gli stessi.

La Reliability Centered Maintenance (RCM) è quindi una valutazione sistematica delle funzioni di un sistema (più o meno complesso) e dei relativi modi di guasto, volta a individuare le più efficaci azioni di manutenzione preventiva aventi come priorità la sicurezza del sistema e delle persone.

Essa si basa sull’assunzione che l’affidabilità intrinseca di un sistema è una funzione del progetto e della qualità di produzione. Un efficace programma di manutenzione preventiva assicura che l’affidabilità intrinseca del sistema venga mantenuta. E’ tuttavia necessario fin da subito specificare che un’ottima RCM non potrà mai sostituirsi a tecniche di progettazione scadenti, a limitate qualità di produzione e a pratiche manutentive scorrette . Questo è vero per l’implementazione dell’RCM sia sul luogo di lavoro, sotto la responsabilità del datore di lavoro, sia sul prodotto, sotto la responsabilità del costruttore.

Una RCM correttamente sviluppata consente di rispondere alle seguenti sette domande (Moubray, 1997; SAE JA 1011):

  1. determinare il contesto operativo delle funzioni del sistema e gli standard di prestazione ad esse associate;
  2. determinare in che modo il sistema può non svolgere le sue funzioni (guasti funzionali);
  3. determinare le cause di ogni guasto funzionale (modi di guasto);
  4. determinare cosa avviene quando il guasto si manifesta (effetti del guasto);
  5. classificare le conseguenze del guasto (conseguenze del guasto);
  6. determinare cosa dovrebbe essere implementato per prevedere o prevenire il guasto (attività di manutenzione e frequenze relative);
  7. determinare se altre strategie di gestione del guasto possono essere più efficaci.

L’esperienza evidenzia che, nell’ambito applicativo dell’RCM, una buona parte delle risorse è finalizzata a creare fondamenta stabili sulle quali costruire l’analisi. Circa il 30% del tempo totale risulta infatti assorbito dal primo punto (contesto operativo, funzioni del sistema e standard di prestazione).

Come ho già avuto modo di dire in interventi precedenti sia la sicurezza sul lavoro che la sicurezza dei prodotti si “nutrono” di manutenzione preventiva.

Non siamo stanchi, come addetti del Servizio di Prevenzione e Protezione, di essere coinvolti nel processo di manutenzione solo per prevedere le misure di sicurezza del cantiere?

Rivoluzioniamo l’SPP allacciandolo alla manutenzione. La ripartenza post-COVID potrebbe essere l’occasione giusta!

La sicurezza, ricordiamolo, si realizza anche attraverso la funzione aziendale dedicata alla manutenzione non “nonostante” essa.

Ok?

Share

Del rischio, della 31000/45001 e dell’incertezza

Discuto oggi di un argomento particolare per chi svolge la nostra professione: “Il rischio”. Fino a qualche tempo fa il termine “rischio” e “valutazione del rischio” era cosa apparentemente consolidata, conosciuta, praticata.

Tutta la moderna tecnologia, da quella militare più di frontiera all’individuazione dei requisiti di sicurezza per una pressopiegratrice, presupponeva una preliminare “valutazione del rischio”.

Una “valutazione del rischio” positivista, capace di pesare o di stimare con precisione i parametri in gioco, è da sempre stato il paradigma dal quale partire.

conosco la probabilità di accadimento

conosco il danno potenziale

ERGO

conosco il rischio

Tutto bene, quindi.

Abbiamo la coperta che ci protegge dalle intemperie.

Tutte le intemperie.

Uno strumento invulnerabile e cognitivamente abbastanza comprensibile.

Poi arrivò Nassim Nicholas Taleb

E poi, ancora, Gerd Gigerenzer

E poi Charles Perrow

E poi molti altri, a seconda della traiettoria di studio di ciascuno di noi.

E l’enorme coperta invulnerabile che pensavo di possedere divenne una copertina di Linus.

Arrivò infatti il colpo di grazia, dato alle mie personali certezze, dalla ISO 31000 (il rischio è “l’effetto dell’incertezza sugli obiettivi”) e dalla ISO 45001 (il rischio è “l’effetto dell’incertezza”).

Che diamine vuol dire “effetto dell’incertezza sugli obiettivi” e come si incastra questa nuova prospettiva con tutto il background precedente?

In effetti Gigerenzer già nel 2002 aveva avvertito[1]: “[…] chiamo rischio un’incertezza quando è possibile esprimerla numericamente, come probabilità o frequenza, sulla base di certi dati empirici; il numero in questione non è necessariamente fisso, ma può essere aggiornato alla luce dell’esperienza. Quando, mancando dati empirici, è invece impossibile o sconsigliabile assegnare dei valori numerici alle alternative possibili, uso invece di “rischio” il termine incertezza […]”. Questo passaggio, dal significato un po’ oscuro con gli strumenti che avevo all’epoca, mi tornò utile in seguito.

Molto utile.

L’incertezza non è quindi il rischio, lo diviene quando si ha la capacità di dare un valore numerico ai parametri in gioco. E non sempre accade, in effetti.

Pensandoci bene, quasi mai.

L’idea di conoscere la probabilità di accadimento su base frequentista è un’illusione, probabilmente. Un effetto ottico, di parallasse, al quale danno credito gli analisti di rischio industriale e chi costruisce analisi affidabilistiche basate su alberi di guasto.

Pochi altri, per fortuna.

Nel mio girovagare “per dare un senso a ciò che senso non ha”, per citare il Kom, mi imbattei successivamente in un articolo illuminante di Andy Stirling[2] (molto citato) nel quale, finalmente, si forniva un quadro di insieme che collegava la conoscenza delle probabilità di accadimento, delle conseguenze, l’incertezza, il rischio.

E molto altro.

La sintesi la riporto nella figura seguente.

La comfort zone nella quale mi sono cullato per quasi due decenni era sono una parte del quadro complessivo di insieme ed era solo quella del rischio propriamente detto.

Poi c’è l’area dell’incertezza, nella quale non sia possiedono le conoscenze in tema di probabilità di accadimento di un dato evento.

E l’area dell’ambiguità, nella quale non si riesce a definire la/le conseguenza/e di uno specifico fattore.

E infine l’area dell’ignoranza, dove probabilità e danni sono ignoti.

Molto altro ci sarebbe da dire, magari ci ritornerò.

Riprendendo i concetti esposti da N.N. Taleb nel suo “Cigno Nero”, ho vissuto in Mediocristan per molto tempo ma è da un po’ che mi sto avventurando nell’Estremistan.

Vedremo che accadrà.

[1] Gigerenzer G. (2002). Quando i numeri ingannano. Imparare a vivere con l’incertezza. Raffaello Cortina, 34

[2] Stirling, A. (2003). Risk, uncertainty and precaution: some instrumental implications from the social sciences. Negotiating environmental change, 33-76

Share

11 SETTEMBRE 2001, TEOREMA DI BAYES E AFFIDABILITÀ DEI SISTEMI

Vorrei commemorare l’11 settembre di quest’anno in modo un po’ particolare, mettendo insieme gli argomenti citati nel titolo in un post che definirei “ostico”. I miei tre lettori sono tuttavia abituati a ben altro… armiamoci quindi di pazienza e partiamo.

Preliminarmente facciamo una breve digressione.

Su Manhattan, prima dell’11 settembre 2001, solo due volte degli aeromobili colpirono grattacieli. In un caso, peraltro, l’impatto ebbe luogo coinvolgendo gli ultimi piani dell’Empire State Building. Si annota che gli aeroplani cominciarono a sorvolare New York a partire dalla metà degli anni ’30 (circa 25000 giorni fino al 2001).

Detto in altri termini, la probabilità giornaliera non condizionata di un impatto accidentale di un aeroplano (Accidental Plane Crash, APC) su un grattacielo di Manhattan, prima dell’11 settembre, era valutabile non inferiore a [1]:

P(APC) = 2/25000 = 0,00008 = 0,008%

Prima dell’11 settembre 2001, peraltro, la stima di un attacco aereo sulla città con le modalità immaginate da Al Qaida era, verosimilmente, molto bassa. Bassa al limite della credibilità certo, ma comunque leggermente superiore all’ipotesi accidentale. La chiameremo Terrorist Plane Attack (TPA) e si può quantificare, in prima ipotesi, pari ad un evento ogni 20000 giorni. Si ha, quindi:

P(TPA) = 1/20000 = 0,00005 = 0,005%

Stimiamo, infine, quale sia la probabilità di un incidente aereo su un grattacielo (Plane Crash, PC) nell’ipotesi di un piano terroristico che preveda proprio questa eventualità (TPA). Ovviamente unitaria, giusto? In termini statistici verrà quindi detto che la probabilità di PC dato TPA sarà uguale a:

P(PC|TPA) = 100% = 1

Il problema che ci poniamo, giunti a questo punto, è però oppostoAssunti i dati precedenti, qual era la probabilità che esistesse un piano di attacco terroristico una volta avvenuto il primo impatto sulle Twin Tower? Qual era, cioè, la probabilità di TPA dato PC [2]?

Il teorema di Bayes ci viene in aiuto e ci dice che, successivamente al primo impatto sulla torre NORD, la probabilità giornaliera, stimata inizialmente allo 0,005%, collassa e si trasforma nel ben più cospicuo 38,5%. Infatti [3]:

Tale risultato non fornisce, tuttavia, la prova incontrovertibile fosse in atto un attacco terroristico. Intendiamoci, circa 40% rende sicuramente credibile lo scenario TPA ma non lo trasforma in certezza statistica.

Gli aerei in gioco l’11 settembre, però, furono due e non uno soltanto. Dopo il primo attacco abbiamo detto che:

P(TPA) = 0,005%   diventa   P(TPA) = 38,5%

Con il secondo schianto la possibilità diventa certezza statistica. Facendo fare al teorema di Bayes un ulteriore giro di valzer, si ottiene infatti:

La reale percezione di attacco terroristico che avemmo dopo il secondo impatto sulla torre SUD risulta, quindi, perfettamente allineata con quanto il teorema di Bayes prevede.

Come si vede, il teorema di Bayes è uno strumento potentissimo che consente di discriminare ciò che è credibile da eventi solo astrattamente possibili.

Questo strumento, mi riferisco al teorema di Bayes, si rivela efficientissimmo anche (forse soprattutto) in ambito affidabilistico/tecnologico poiché i dati di tasso di guasto degli apparecchi presenti nelle più diffuse banche dati sono non condizionati.

Constato tuttavia come sia ancora molto poco praticata la contestualizzazione bayesiana in ambito affidabilistico (operazione che, in ambito medico, è invece molto studiata).

Concludo dicendo che sarebbe sempre importante aggiornare i dati in senso bayesiano. Ciò consentirebbe di  inquadrarli in base alle conoscenze che si possiedono in relazione all’evento che si vuole modellare.

[1] L’esempio presentato così come le probabilità calcolate sono tratte da: Silver N. (2013). Il segnale e il rumore. Arte e scienza della previsione. Fandango Ed.

[2]  In ambito sanitario l’equivalenza è molto più comprensibile e si può risolvere con una domanda: “Poiché tutti i malati di vaiolo hanno il viso con macchie rosse diffuse, un bimbo che ha macchie rosse diffuse sul viso è ammalato di vaiolo?”

[3] Facendo le assunzioni di Nate Silver, e cioè che APC e TPA siano eventi tra loro indipendenti e che , si può concludere che 

UPDATE DEL 15/09/2019

Un caro amico, Andrea Rotella, mi fa notare che le ipotesi APC e TPA di Nate Silver sono equivalenti  e conducono a risposte identiche.

Per rispondere a lui e cercare di risolvere la questione devio dalla visione argentea.

Riporto quindi un approccio differente che tiene conto dell’accoppiamento tra i piani d’attacco 1 e 2 (nell’ipotesi TPA), a cui assegno una correlazione 0,9 (potrebbe pure essere unitaria), e della totale indipendenza della frequenza nel caso accidentale (caso APC): in quest’ultimo caso la frequenza n+1, dato l’incidente n, sarà sempre uguale e pari 0,00008 [1/giorni].

Devo ancora chiarirmi alcune cose, non tutto è ancora completamente cristallino, ma il risultato di questo approccio lo riporto nella figura seguente.

Alla fine Bayes, implementando un secondo giro, risponde e dirà che:

  • l’ipotesi di due incidenti nel medesimo giorno causati da un piano d’attacco terroristico è pari al 100%;
  • l’ipotesi di due incidenti nel medesimo giorno generati dal puro caso è dello 0%.

 

Share