Papers Reading

A collection of 15 posts
InfoNeRF: Ray Entropy Minimization for Few-Shot Neural Volume Rendering
Papers Reading

InfoNeRF: Ray Entropy Minimization for Few-Shot Neural Volume Rendering

InfoNeRF: Ray Entropy Minimization for Few-Shot Neural Volume Rendering https://arxiv.org/abs/2112.15399 https://cv.snu.ac.kr/research/InfoNeRF/ Shannon Entropy에 기반해 광선의 entropy를 minimze하고 여기에 KL divergence loss term을 더해 오직 4개의 이미지를 이용한 Few-shot NeRF에 좋은 성능을 낸다. entropy minimization은 "가장 덜 noisy"한, 또는
6 min read
Papers Reading

Scalable Interpretability via Polynomials

https://twitter.com/MetaAI/status/1536728499846688768?s=20&t=Sy6-wF8Jaxq1f6FSjrTBGg https://arxiv.org/abs/2205.14108 이번에 Meta AI에서 재밌어 보이는 논문이 나와 바로 읽어보고 리뷰한다. 다만, 내가 본래 아는 분야가 아니고 흥미 위주로 가볍게 읽고 해설하는 것이기에 오류가 있을 수 있다. 일단, 저자들의 설명에 따르면 Scalable Polynomial Additive Models(
5 min read
RETHINKING NETWORK DESIGN AND LOCAL GEOMETRY IN POINT CLOUD: A SIMPLE RESIDUAL MLP FRAMEWORK
Papers Reading

RETHINKING NETWORK DESIGN AND LOCAL GEOMETRY IN POINT CLOUD: A SIMPLE RESIDUAL MLP FRAMEWORK

오늘 조금 놀라운 논문과 실험 결과를 접해서 관련 논문을 리뷰하려고 한다. PointMLP라는 모델인데, Point Cloud 입력에 대해 residual connection이 존재하는 단순한 MLP(residual MLP)만으로 ModelNet40에서 SOTA인 CurveNet을 뛰어넘어 새로운 SOTA를 달성했다. 좀 특이한 건 저자가 익명이다. ConvMixer도 그렇고 익명 논문이 많은데 무슨 영문인지 모르겠다. 저렇게 써둬도 알만한 사람은 다
10 min read
Pretrained Transformers as Universal Computation Engines
Papers Reading

Pretrained Transformers as Universal Computation Engines

2021 3월 9일에 나온 Pretrained Transformers as Universal Computation Engines에 대한 간략한 리뷰를 다룬다. Yannic Kilcher과 이진원님의 영상을 보고 리뷰를 적어본다. 소개 이 논문은 pretrained Transformer가 처음부터 훈련하는 transformer보다 더 나은 성능을 보이고 수렴이 빨랐다는 내용이다. 특히, pretrain task는 다른 task가 아니라 NLP가 효과적이었다는 내용이다. Frozen Pretrained Transformer가 Full Transformer보다
9 min read
PointNet: Deep Learning on Point Sets for 3D Classification and Segmentation
Papers Reading

PointNet: Deep Learning on Point Sets for 3D Classification and Segmentation

요약 내가 알기로 Point Cloud를 다루는 시초 격에 해당하는 논문으로, 이후 PointNet++에서 PointNet을 기반으로 개선된 네트워크를 제시한다. 이 논문에서는, permutation invariance에 기반해, 3D voxel grids나 collections of image 없이 point cloud를 직접 다루는 네트워크를 제시한다. Classification, Part Segmentation, Semantic Segmentation에 모두 사용 가능하다. 1줄 요약: $f(x_1,x_
3 min read
Perceiver IO: A General Architecture for Structured Inputs & Outputs
Papers Reading

Perceiver IO: A General Architecture for Structured Inputs & Outputs

내가 이전에 올린 Perceiver [https://milkclouds.work/perceiver-general-perception-with-iterative-attention/] 에 대한 게시물을 참고하자. 솔직히 말하면 Perceiver에서 크게 달라진 게 있는지는 잘... 모르겠다. 그야 달라지긴 했는데 음.. 1. Introduction Perceiver IO의 선행모델인 Perceiver에서는 하나의 모델에 다양한 종류의 입력을 입력으로 받을 수 있는, modality-specific details 없이도 학습이 되는 모델을 구현했다. 그러나 Perceiver은 classification과
2 min read
Perceiver: General Perception with Iterative Attention
Papers Reading

Perceiver: General Perception with Iterative Attention

Abstract 생물학적 시스템에서는 시각, 청각, 촉각, 자기수용감각 등 다양한 양상의 고차원 입력을 받아 동시에 처리해 세계를 인지한다. 그러나 딥러닝의 인지 모델은 각각의 양상을 위해 디자인되었으며 vision model의 local grid structure과 같은 domain-specific assumptions에 자주 의존한다. 이러한 전제는 유용한 inductive bias를 만들어 내지만 각각의 모델들을 각각의 양상에 한정시킨다. 본 논문에서는 Transformer
10 min read
Patches Are All You Need
Papers Reading

Patches Are All You Need

쓰고 보니 인칭이 좀 이상한데, '우리'는 내가 아니라 이 논문 저자를 이른다고 보면 된다. Abstract ViT는 성공적이었으나, 이것의 성공은 Transformer Architecture 덕분이었을까 patches 덕분이었을까? 본 논문에서는 후자에 무게를 둬 MLP-Mixer과 비슷한 Conv-Mixer을 제시한다. 여기에서 mixing steps에는 standard convolution만을 사용했다. 결과적으로 ViT, MLP-Mixer, ResNet 등을 뛰어넘는 성능을 보였다. 1. Introduction 2020년
9 min read
CoAtNet: Marrying Convolution and Attention for All Data Sizes
Papers Reading

CoAtNet: Marrying Convolution and Attention for All Data Sizes

요약 이 논문에서는 convolution과 relative attention(의 변형)를 적절히 섞고 JFT에서 pre-training해 ImageNet-1K에서 90.88%로 SOTA를 차지하고 있는 CoAtNet(코트넷)에 대해 소개한다. 2. Model 2.1 Merging Convolution and Self-Attention 이 논문에서는 depthwise convolution을 이용한 MBConv와 Transformer을 합치는 방법을 고안한다. MBConv를 고른 이유는 Transformer의 FFN에서도 channel 개수가
6 min read
AN IMAGE IS WORTH 16X16 WORDS:
TRANSFORMERS FOR IMAGE RECOGNITION AT SCALE
Papers Reading

AN IMAGE IS WORTH 16X16 WORDS: TRANSFORMERS FOR IMAGE RECOGNITION AT SCALE

요약 하나의 단어를 $W$개의 스칼라를 가진 벡터로 나타낼 때, 하나의 문장은 이 벡터를 $N$ 개 가진 행렬로 나타낼 수 있다. 이미지는 patch로 나눈 후 $N*N$개의 특징벡터를 가진 "문장"으로 취급할 수 있다. 즉, NLP에서 Transformer의 analogy를 그대로 Image Processing에 적용할 수 있다. 이 아이디어를 이용해 Transformer의 구조를
7 min read
DETR: End-to-End Object Detection with Transformers(ECCV 2020)
Papers Reading

DETR: End-to-End Object Detection with Transformers(ECCV 2020)

요약 정해진 개수의 bounding box를 구하고, bipartite matching을 통해 ground truth box와 매칭시킨다. 이후 loss를 구한다. 이런 과정을 통해 NMS(Non-maximum Suppression) 등과 같은 작업 없이 End-to-End로 Object Detection을 수행할 수 있다. (정해진 개수보다 적은 bounding box가 이미지 내에 존재한다면 'no object' class에 적절히 대응시킨다.) 또한 Encoding, Decoding 과정에서 Transformer을
8 min read
Attention Is All You Need(NIPS 2017)
Papers Reading

Attention Is All You Need(NIPS 2017)

Google Research의 논문이다. 요약 무려 3만회나 인용된, 가히 혁신적이라고 할 수 있는 논문이다. Attention Mechanism만을 이용한 모델 Transformer을 처음으로 제안하였으며, NLP에 쓰이다 나중에 DETR, ViT, Point Transformer, Perceiver 등 Transformer을 이용한 논문이 수많은 영역에서 우후죽순 생겨나며 간혹 SOTA도 차지하고 있다. 1. Introduction RNN, LSTM, GRU가 language modeling, machine translation 같은
9 min read
Feature Pyramid Networks for Object Detection
Papers Reading

Feature Pyramid Networks for Object Detection

이 포스트는 논문 내용을 전체적으로 다루되 간략하게만 정리합니다. 구성도 논문과 다릅니다. 1. Preview 원본 이미지의 해상도를 낮추되 high-level feature을 추출하는 bottom-up pathway(좌측)과 botton-up pathway에서 역방향으로 feature을 합쳐나가는 top-down pathway를 이용해 scale에 덜 영향을 받는 object detection 모델을 설계한다. 2. CNN에서 resolution↔feature CNN에서 망을 따라 연산이 시행될수록 보통
5 min read
Training data-efficient image transformers & distillation through attention
Papers Reading

Training data-efficient image transformers & distillation through attention

Training data-efficient image transformers & distillation through attention Recently, neural networks purely based on attention were shown to addressimage understanding tasks such as image classification. However, these visualtransformers are pre-trained with hundreds of millions of images using anexpensive infrastructure, thereby limiting their adoption. In this work,… arXiv.orgHugo Touvron [https://arxiv.
11 min read