Paper accepted at Jornadas SARTECO 2024 (III)

April 15, 2024 | | Comments Off on Paper accepted at Jornadas SARTECO 2024 (III)

The paper entitled “Tolerancia a fallos múltiples en redes convolucionales en coma flotante de 16 bits
utilizando códigos correctores de errores” written by J.C. Ruiz-García, D. Andrés-Martínez, L.J. Saiz-Adalid, and J. Gracia-Morán has been accepted at Jornadas SARTECO 2024.

Abstract

Multitud de sistemas utilizan redes convolucionales para identificar objetos en las imágenes que analizan. Este análisis conlleva millones de operaciones con parámetros que, por cuestiones de eficiencia, se almacenan en los aceleradores que los utilizan. Reducir la precisión de estos parámetros sin cambiar la de la red permite procesar modelos de inferencia más complejos usando el mismo almacenamiento. Si estos parámetros se alteraran durante el análisis de una imagen, la identificación realizada podría ser incorrecta, lo que podría tener consecuencias inaceptables en ámbitos aplicativos críticos. Este artículo propone tolerar estas alteraciones utilizando códigos correctores de errores en redes que trabajen con coma flotante de 16 bits. Para ello nos serviremos de los bits no significativos e invariantes existentes en los parámetros de la red. Los primeros, se determinarán mediante inyección de fallos, y son aquellos cuya alteración no afecta significativamente a la precisión de la red. Los segundos, se identificarán analizando los valores de los pesos existentes, y son aquellos cuyo valor es constante. Al no tener que ser protegidos, estos bits pueden albergar los bits de paridad de los códigos a utilizar. Como caso de estudio se trabajará con las versiones BF16 de las redes convolucionales LeNet-5 y GoogLe-Net que requieren de la protección de más de 45 mil, y 6.5 millones, de parámetros, respectivamente. Los resultados muestran que la propuesta permite proteger estas redes sin modificar su huella de memoria, sin requerir su reentrenamiento, alterando mínimamente su precisión y minimizando el uso de recursos.

Paper accepted at Jornadas SARTECO 2024 (II)

April 15, 2024 | | Comments Off on Paper accepted at Jornadas SARTECO 2024 (II)

The paper entitled “Estudio de la confiabilidad de una red neuronal convolucional cuantizada” written by J. Gracia-Morán, L.J. Saiz-Adalid, J.C. Ruiz-García, and D. Andrés-Martínez has been accepted at Jornadas SARTECO 2024.

Abstract

A medida que el uso de las redes neuronales se generaliza, el interés por su confiabilidad también aumenta. En concreto, las redes neuronales convolucionales (CNN) se han convertido en un estándar de facto para multitud de sistemas de inteligencia artificial. Las CNN requieren de una gran cantidad de memoria para almacenar sus parámetros, que inicialmente se generan como números reales de coma flotante de 32 bits. Sin embargo, con la agresiva escala de integración de la tecnología CMOS, este almacenamiento puede sufrir fallos accidentales, o se pueden provocar fallos maliciosos que consiguen afectar al proceso de inferencia de la red. Uno de los métodos para reducir el tiempo de procesamiento y el espacio ocupado en memoria por las CNN es el proceso de cuantización. Los parámetros utilizados por la red neuronal para el proceso de inferencia se transforman de un número en coma flotante de 32 bits a un número entero de 8 bits. Sin embargo, si se quiere utilizar este tipo de red en entornos críticos, ¿la red cuantizada sería lo suficientemente confiable o habría que añadir algún mecanismo de tolerancia a fallos? En este trabajo vamos a responder a esta pregunta, estudiando la confiabilidad de la cuantización de una CNN.

Paper accepted at Jornadas SARTECO 2024 (I)

April 15, 2024 | | Comments Off on Paper accepted at Jornadas SARTECO 2024 (I)

The paper entitled “Protección mediante Códigos de Corrección de Errores de los pesos de una Red Neuronal implementada en Arduino” written by J. Gracia-Morán and L.J. Saiz-Adalid has been accepted at Jornadas SARTECO 2024.

Abstract

Últimamente, el amplio uso de las redes neuronales ha provocado que éstas estén presentes en multitud de entornos, como pueden ser dispositivos industriales, espaciales, automotrices o médicos. En todos ellos, se requiere equilibrar objetivos contradictorios, como el rendimiento de la Red Neuronal, el consumo de energía y el área de silicio ocupada. Si además, estos sistemas se van a ejecutar en entornos críticos, también es de suma importancia garantizar altos niveles de tolerancia a fallos. Las soluciones tradicionales basadas en redundancia hardware proporcionan una alta cobertura de detección y/o corrección de errores a costa de elevadas sobrecargas, que pueden ser no asumibles en soluciones con recursos limitados, como son los sistemas empotrados. En este trabajo se propone el uso de Códigos de Corrección de Errores (ECC) para proteger los pesos de una Red Neuronal implementada en un sistema basado en Arduino. En primer lugar, y mediante la técnica de inyección de fallos, se hace un estudio de cómo afecta el error en uno o varios bits al comportamiento del sistema. A continuación, se ha estudiado cómo influye tanto al comportamiento de la Red Neuronal como a la sobrecarga del sistema la introducción de diferentes ECC. Para ello, hemos utilizado ECC ya existentes, así como hemos diseñado un ECC nuevo específico para este trabajo.

Paper available at IEEE Latin American Transactions

April 13, 2024 | | Comments Off on Paper available at IEEE Latin American Transactions

The paper entitled “A Proposal of an ECC-based Adaptive Fault-Tolerant Mechanism for 16-bit data words”, written by J. Gracia-Morán (ORCID), L. J. Saiz-Adalid (ORCID), J. C. Baraza-Calvo (ORCID), D. Gil-Tomás (ORCID) and P. J. Gil-Vicente (ORCID), can be accessed at IEEE Latin American Transactions.

Video abstract here.

Graphical abstract:

Abstract

Actual memory systems provide large storage capacity thanks to the integration scale level achieved in CMOS technology. This increment in storage capacity comes with an augment on their fault rate. In this way, the probability of experiencing Single or Multiple Cell Upsets has risen. Error Correction Codes (ECC) are a fault-tolerant mechanism broadly employed to protect memory systems. Usually, an ECC-based fault tolerance mechanism is designed with fixed correction and detection capabilities. However, in some contexts, current memory systems can suffer a variable fault rate during their operation. Thus, it seems very interesting that this fault-tolerant mechanism would be able to adapt to these variable fault conditions.

This work proposes an Adaptive Fault-Tolerant mechanism based on ECC. This mechanism can adapt to different fault conditions, being able to correct and/or detect single and multiple bits in error. The Adaptive Fault-Tolerant mechanism proposed uses a unique encoder and various decoders. Therefore, there is no need to re-encode the data to change the error coverage since the unique encoder and the equal redundancy are the same regardless of the fault tolerance required. In addition, we have studied the area, delay, and power consumption overheads produced by the inclusion of the redundant bits, the encoder, and the decoders of the ECC in a computer system.

Programm Committee Members of the VIII Jornadas de Computación Empotrada y Reconfigurable (JCER’24)

March 22, 2024 | | Comments Off on Programm Committee Members of the VIII Jornadas de Computación Empotrada y Reconfigurable (JCER’24)

Joaquín Gracia-Morán and Juan C. Ruiz-García will serve as members of the Programm Committee of the VIII Jornadas de Computación Empotrada y Reconfigurable (JCER’24), that will be held in A Coruña next June.

Paper accepted at IEEE Latin American Transactions

March 7, 2024 | | Comments Off on Paper accepted at IEEE Latin American Transactions

The paper entitled “A Proposal of an ECC-based Adaptive Fault-Tolerant Mechanism for 16-bit data words”, written by J. Gracia-Morán (ORCID), L. J. Saiz-Adalid (ORCID), J. C. Baraza-Calvo (ORCID), D. Gil-Tomás (ORCID) and P. J. Gil-Vicente (ORCID), has been accepted at IEEE Latin American Transactions.

Video Summary here

Abstract

Actual memory systems provide large storage capacity thanks to the integration scale level achieved in CMOS technology. This increment in storage capacity comes with an augment on their fault rate. In this way, the probability of experiencing Single or Multiple Cell Upsets has risen. Error Correction Codes (ECC) are a fault-tolerant mechanism broadly employed to protect memory systems. Usually, an ECC-based fault tolerance mechanism is designed with fixed correction and detection capabilities. However, in some contexts, current memory systems can suffer a variable fault rate during their operation. Thus, it seems very interesting that this fault-tolerant mechanism would be able to adapt to these variable fault conditions.
This work proposes an Adaptive Fault-Tolerant mechanism based on ECC. This mechanism can adapt to different fault conditions, being able to correct and/or detect single and multiple bits in error. The Adaptive Fault-Tolerant mechanism proposed uses a unique encoder and various decoders. Therefore, there is no need to re-encode the data to change the error coverage since the unique encoder and the equal redundancy are the same regardless of the fault tolerance required. In addition, we have studied the area, delay, and power consumption overheads produced by the inclusion of the redundant bits, the encoder, and the decoders of the ECC in a computer system.

Paper accepted at EDCC 2024

January 31, 2024 | | Comments Off on Paper accepted at EDCC 2024

The paper entitled “Zero-Space In-Weight and In-Bias Protection for Floating-Point-based CNNs”, written by Juan Carlos Ruiz, David de Andrés, Luis José Saiz-Adalid and Joaquín Gracia-Morán has been accepted at 19th European Dependable Computing Conference (EDCC), that will be held in Leuven (Belgium) next april.

Abstract

Deploying convolutional neural networks (CNNs) in image classification systems requires balancing conflicting goals, like throughput, power consumption, and silicon area. In safety-critical environments, ensuring acceptable levels of robustness against faults is also of utmost importance. The robustness gains promoted by quantised CNNs entail a loss of accuracy that may be problematic for some applications. Traditional redundancy-based solutions provide high error coverage at the cost of high, and sometimes unaffordable, overheads, especially for resource constrained solutions. This paper proposes using error correction codes (ECC) to protect the tensors of CNNs from potential inadvertent corruption. Fault injection is used to locate all bits in tensors that, even if corrupted, do not affect the network inference process. These bits are then replaced by computed parity bits. By exploiting the intrinsic robustness of CNNs, no additional memory bits are required to store the parity bits while preserving both the ECC protection guarantees and the CNN inference accuracy. The proposal applies conventional, conservative, and aggressive policies depending on the required degree of protection and the overhead the system can afford. The usefulness of these alternatives is exemplified through a floating-point-based CNN that is prototyped on a programmable logic device. Unlike existing solutions, the approach can be deployed without retraining, using well-known and proven ECCs and at an in-memory zero-space cost.

Presentation at Jornadas SARTECO 2023 (II)

September 25, 2023 | | Comments Off on Presentation at Jornadas SARTECO 2023 (II)

J.C. Ruiz-Garcia has presented the paper entitled “Evaluación de la robustez de una red neuronal desarrollada para generar un acelerador HW” written by J.C. Ruiz-García, D. Andrés-Martínez and J. Gracia-Morán at Jornadas SARTECO 2023.

Presentation at Jornadas SARTECO 2023 (I)

September 25, 2023 | | Comments Off on Presentation at Jornadas SARTECO 2023 (I)

During the Jornadas SARTECO 2023, J. Gracia-Morán has presented the papers entitled “Protección de comunicaciones entre vehículos autónomos mediante el uso de códigos de corrección de errores” written by J. Gracia-Morán, A. Vicente-García and L.J. Saiz-Adalid; and “Uso de códigos de corrección de errores asimétricos en un sistema empotrado” written by J. Gracia-Morán, J.C. Ruiz-García and L.J. Saiz-Adalid.

Welcome Day at Master’s Degree in Computer and Network Engineering

September 19, 2023 | | Comments Off on Welcome Day at Master’s Degree in Computer and Network Engineering

Juan Carlos Ruiz, academic director of the Master’s Degree in Computer and Network Engineering, has welcomed the new students of our master.