전체 글 86

[논문 리뷰] An Energy-Efficient 3D Point Neural Network Accelerator with Fine-grained LiDAR-SoC Pipeline Structure

자율주행 차량이 도로 위에서 차량, 보행자, 장애물을 실시간으로 파악하려면 강력한 기술이 필요하다. LiDAR 센서가 생성하는 3D point cloud는 주변 환경을 {x, y, z} 좌표로 나타내어 정확한 인식을 가능하게 한다. 하지만 이 데이터를 실시간으로 처리하려면 엄청난 계산량과 효율적인 하드웨어가 필요하다. L-PNPU(LiDAR-Point Neural Network Processing Unit)는 이런 문제를 해결하기 위해 설계된 하드웨어 가속기다. L-PNPU는 azimuthal bin partitioning, modified PNN algorithm, fine-grained LiDAR-SoC pipeline structure라는 세 가지 key technologies를 통해 데이터를 효율..

카테고리 없음 2025.06.27

3D Point Cloud Processing and Learning for Autonomous Driving

일반적으로 autonomous system은 위 이미지와 같이 sensing, map 생성, localization, perception, prediction, routing, planning, 그리고 control module들로 구성된다. High-definition(HD) map은 offline에서 만들어지고, runtime 동안에는 online system에 목적지가 주어진다. 그러면 system은 자신의 환경을 감지하고, 자신을 map에 위치시키고, 주변을 인식하며 주변 물체들의 미래 움짐임을 예측한다. motion planner는 이러한 예측을 사용하여 AV(autonomous vehicle)가 목적지까지의 경로를 안전하게 따라갈 수 있는 궤적(trajectory)을 계획한다. Sensing ..

카테고리 없음 2025.06.03

[논문리뷰] A Survey of Repair Analysis Algorithms for Memories(4)

6. BIRA Techniques for 3D Memory6.1 Redundancy Scheme for 3D Memory3D memory에서는 KGD(Known-Good-Die)를 사용하며 이는 자체 포함된 Redundancy 요소로 수리된다. RA(Redundancy Analysis) 알고리즘의 성능에 따라 fixed redundancy scheme은 pre-bond와 post-bond 단계를 나누어 리던던시를 관리하지만, 사용되지 않은 리던던시가 낭비될 수 있다. 3D 메모리의 수율은 KGD에 부분적으로 의존하며, 자체 리던던시로 수리할 수 없는 메모리는 post-stacking redundancy-sharing 전략을 통해 KGD로 전환될 수 있다. pre-bond 테스트와 repair 이후 메모리..

[논문리뷰] A Survey of Repair Analysis Algorithms for Memories(3)

5. BIRA Algorithms Using HardwareExternal ATE(자동 테스트 장비)는 SOC(System on Chip) 내의 embedded memories에 쉽게 접근할 수 없다. 대신, SOC 메모리는 BISR(Built-In Self-Repair)을 통해 수리되며 BISR은 BIST(Built-In Self-Test)와 BIRA(Built-In Redundancy Analysis)를 결합한 방식이다. BISR은 추가적인 하드웨어를 필요로 하므로 BIRA 알고리즘은 external ATE에서 소프트웨어로 동작하는 RA 알고리즘보다 더 큰 area overhead를 요구한다.5.1 BIRA Algorithms with Non-Optimal Repair RateNon-optimal r..

[논문리뷰] A Survey of Repair Analysis Algorithms for Memories(2)

3. Repair Process and Spare Architectures3.1 Memory Repair ProcessMemory test and repair process는 hybrid RA 접근법을 통해 일반적으로 진행된다.테스트 중에 test pattern을 적용하면서 fault cell이 발견되면 해당 fault information은 나중에 수리를 위해 저장된다.Test time과 repair time을 줄이기 위해 preprocessing/filter algorithm이 적용된다. 이는 early-abort condition을 충족하는 메모리를 irreparable memory로 분류해 필터링하고 불필요한 추가 절차를 피하며 프로세스를 종료한다.Memory test가 끝난 후 RA algori..

[논문 리뷰] A Survey of Repair Analysis Algorithms for Memories(1)

2. Background2.1. Performance CriteriaRA와 BIRA 알고리즘의 성능을 평가하는 기준은 analysis speed, repair rate, area overhead이다.Repair rate는 수리된 메모리 수를 테스트된 전체 메모리 수로 나눈 값으로 정의 Repair rate = number of repaired memories / number of total tested memoriesNormalized repair rate는 수리된 메모리 수를 reparable 메모리 수로 나눈 값Normalized repair rate = number of repaired memories / number of reparable memoriesRepair rate는 memory yiel..

[논문 리뷰] An Overview of Processing-in-Memory Circuits for Artificial Intelligence and Machine Learning(DRAM PIM)

PIM 관련 논문인 An Overview of Processing-in-Memory Circuits for Artificial Intelligence and Machine Learning에서 DRAM에 관한 부분을 정리해보자. https://ieeexplore.ieee.org/document/9737485   MAC (Multiple-and-Accumulate) 연산은 신경망에서 핵심적인 산술 함수이다. von-Neumann architecture로 불리는 전형적인 computing architecture는 처리 요소와 메모리가 분리되어 있다. MAC 연산을 실행하려면 처리 요소와 메모리 사이에서 많은 양의 데이터를 전송해야 한다. 빈번한 데이터 통신은  높은 전력을 소비하고 에너지 효율적인 edge c..

PIM(Processing-in-Memory의 배경

1. PIM이 등장한 배경: Von-Neumann의 한계컴퓨터를 생각하면 Von-Neumann 아키텍처가 떠오른다. 이 구조는 메모리에서 데이터를 가져와 연산 유닛에서 처리한다. 결과를 I/O 장치로 보여주는 방식이다. 수십 년간 효율적이었던 모델이다. 현대 컴퓨터 아키텍처의 기본 틀이 됐다.하지만 새로운 애플리케이션으로 문제가 생겼다. 데이터 이동이 시간과 에너지를 많이 소모한다. 메모리 집약적인 작업에서 병목현상이 발생한다. 마지막 레벨 캐시 미스가 잦은 경우가 그렇다. DRAM에서 연산 유닛으로 데이터를 옮기는 비용이 크다. 논문에 따르면 이 에너지는 연산보다 100배 더 소모된다. DRAM 모듈은 연산 유닛보다 낮은 주파수로 작동한다. 애플리케이션마다 메모리 요구와 접근 패턴이 다르다.PIM은 데..

DFT(Design for Testability)

1. DFT(Desing for Testability)Design for Testability(DFT)란 Logic의 Physical Defect를 찾기 위한 Test를 하기 위한 Test 회로를 설계하는 것을 의미한다. Logic의 경우 단순히 입력 놓고 출력 pattern을 보면 Test가 될 거아니냐고 생각하기 쉽지만 그렇게 하면 너무 많은 경우의 수가 나오기 때문에 적절한 방법이 아니다. 게다가 수많은 Logic PIN을 다 체크하기에는 쉽지 않고 Pin, Pad 수의 제약이 따른다. 따라서 Logic의 경우 SCAN Test를 진행하게 된다.Logic Test의 경우 정형화된 규격하에 Test 회로등이 정의 되는데 IEEE std(Standard) 1499.1 이나 IEEE std 1500이 그..

Memory Test(MBIST, LBIST, SCAN)

Built In Self Test (BIST)주로 Logic에서 많이 사용하는 것인데 앞서 2번의 Test 알고리즘은 외부 장비를 통해서 진행하는 것인데 시간과 돈이 많이 든다. 만약 Test 알고리즘 회로를 Chip 내부에 넣는 경우 외부 장비는 Pass/Fail이냐만 따지면 되기 때문에 테스트 비용이 절약된다. 하지만 Test 회로를 Chip안에 넣는 것은 면적을 차지하므로 이또한 비용인데 당연히 테스트 비용보다 Chip 안에서 면적을 사용하는 것이 더 비싸다. 이것을 쓰는경우는 크게 2가지 인데 하나는 고신뢰성인(고장나면 인명피해 발생) 경우 동작중 혹은 중간 중간 쉬는 시간에 메모리의 이상 유무를 확인하는 것이다.고신뢰성 어플리케이션은(항공, 우주) 칩 가격보다 신뢰성 우선이기에 문제가 되지 않느..