PR [Faster R-CNN:Towards Real-Time Object Detection with Region Proposal Networks]
Faster R-CNN: Towards Real-Time Object
Detection with Region Proposal Networks
๐ก Faster R-CNN : Towards Real-Time Object Detection with Region Proposal Networks (2016, Jan, 06)
์ ์ : SHaoqing Ren, Kaiming He, Ross Girshick, Jian Sun
Abstract
- ๊ทธ ๋น์์ ๊ฐ์ฒด ํ์ง ๊ธฐ์ : Region Proposal Algorithms๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ๋ฌผ์ฒด์ ์์น๋ฅผ ์์ธกํ๊ณค ํ์๋ค.
- Region Proposal (์์ญ ์ ์) ์ด๋?
- ๊ฐ์ฒด๊ฐ ์์ ๋งํ ํ๋ณด ์์ญ๋ค์ ์ฐพ์์ฃผ๋ ๊ณผ์
- ์ด๋ฏธ์ง์ ํฝ์ ์ ๋ชจ๋ ํ์ธํ๋ ๊ฒ์ด ์๋๋ผ, ๊ฐ์ฒด๊ฐ ์์๋งํ ํ๋ณด ์์ญ์ ๋จผ์ ์ ์ํ๊ณ , ๊ทธ ๋ถ๋ถ๋ง CNN์ด ์ธ์ํ๊ฒ ๋ง๋๋ ๊ตฌ์กฐ
- ํ๋ณด ์์ญ๋ง๋ค CNN์ ๊ฐ๊ฐ ๋ฐ๋ก ์ ์ฉ
- ์ฐ์ฐ๋์ ์ค์ผ ์ ์๋ค.
- Region Proposal (์์ญ ์ ์) ์ด๋?
- SPPnet, Fast R-CNN
- CNN ์ฐ์ฐ์ ๊ณตํต feature map์ผ๋ก ๊ณต์ ํ๊ฒ ํด์ ์๋๋ฅผ ํฅ์
- feature map
- CNN์ด ์ถ์ถํ ์๊ฐ์ ์ ๋ณด์ ์์ฝ
- feature map ์ ROI๋ฅผ ์ ์ฉํ์ฌ ์์ญ ์ ์
- feature map
- CNN ์ฐ์ฐ์ ๋ง์ด ์งํ X
- CNN ์ฐ์ฐ์ ๊ณตํต feature map์ผ๋ก ๊ณต์ ํ๊ฒ ํด์ ์๋๋ฅผ ํฅ์
ํด๋น ๋ ผ๋ฌธ์์๋ Region Proposal Network (RPN) ์ ์๊ฐํ๊ณ ์ ํ๋ค.
- full - image convolutional features๋ฅผ ํ์ง ๋คํธ์ํฌ์ ๊ณต์ ํ๋ฉฐ, cost-free regional proposal ์ด ๊ฐ๋ฅํ๋ค.
- full-image convolutional features
- ์ ์ฒด ์ด๋ฏธ์ง์ ๋ํด ํ ๋ฒ ์ถ์ถํ convolutional feature map
- ์ถ๊ฐ์ ์ธ ๊ณ์ฐ ๋น์ฉ ์์ด ์์ญ ์ ์์ ์ป์ ์ ์๋ค.
- full-image convolutional features
- ์ด๋ฏธ์ง ์ ์ฒด์ ๋ํด CNN์ ํ๋ฒ ์ ์ฉํ์ฌ feature map์ ์ฐ์ถํ๊ณ , RPN์ ์ ์ฉํ์ฌ ์์ญ์
- Region Proposal Network (RPN)
- Fully convolutional network
- ๊ฐ ์์น๋ง๋ค ๊ฐ์ฒด์ ๊ฒฝ๊ณ์ ๊ฐ์ฒด์ผ ํ๋ฅ ์ ๋์์ ์์ธก
- end-to-end ๋ฐฉ์์ผ๋ก ํ์ต
- ์ ๋ ฅ๋ถํฐ ์ต์ข ์ถ๋ ฅ๊น์ง ์ ์ฒด ๋คํธ์ํฌ๋ฅผ ํ๋์ ๊ทธ๋๋์ธํธ ํ๋ฆ์ผ๋ก ์ฐ๊ฒฐํ์ฌ ์ค์ฐจ๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ๋ชจ๋ ํ๋ผ๋ฏธํฐ๋ฅผ ๋์์ ํ์ต
RPN + Fast R-CNN ์ด๋ ๊ฒ 2๊ฐ์ง๋ฅผ ํ๋์ ๋คํธ์ํฌ๋ก ํฉ์น๋ค.
โ convolutional features ๊ณต์ !
- Convolutional Features ๋?
- CNN์ด ์ ๋ ฅ ์ด๋ฏธ์ง์ ํฉ์ฑ๊ณฑ ์ฐ์ฐ์ ์ ์ฉํ์ฌ ์ถ์ถํ ์ถ๋ ฅ๊ฐ
- โattentionsโ์ ๊ดํด์๋ RPN ๊ตฌ์ฑ์์๋ค์ด ํตํฉ๋ ๋คํธ์ํฌ ( RPN + Fast R-CNN )์ ์ด๋์ ์ง์คํ ์ง ์๋ ค์ค๋ค.
- Frame rate : 5fps (GPU)
| ๋จ๊ณ | Fast R-CNN | Faster R-CNN |
|---|---|---|
| 1. CNN (feature map ์์ฑ) | โ | โ |
| 2. Region Proposal | โ ์ธ๋ถ Selective Search | โ CNN ๊ธฐ๋ฐ RPN |
| 3. RoI Pooling | โ ์ฌ์ฉ | โ ์ฌ์ฉ (๋์ผ) |
| 4. Classification + bbox regression | โ | โ |
| 5. ํ์ต ๋ฐฉ์ | โ๏ธ๋ถ๋ถ๋ง end-to-end | โ ์ ์ฒด end-to-end |
1 Introduction
๊ฐ์ฒด ํ์ง (Object Detection)์ ๊ธฐ๋ณธ
โ Region Proposal Algorithm(์์ญ์ ์) + CNN
๊ธฐ์กด์ Fast R-CNN
- Region Proposal (์์ญ์ ์) ์๊ฐ์ ์ ์ธํ๋ค๋ฉด, ์์ฃผ ๊น์ ์ ๊ฒฝ๋ง์ ์ฌ์ฉํด๋ ๊ฑฐ์ ์ค์๊ฐ ์๋๋ฅผ ์ด๋ฃฌ๋ค.
- CNN์ ๋ฐฑ๋ณธ(BackBone)์ ๋ค๋ฅด๊ฒ ์ฌ์ฉํ ์ ์๋ค. (๋ ผ๋ฌธ์์ VGG-16)
๊ฐ์ฒด ํ์ง ์์คํ โ ์์ญ ์ ์ ๊ณผ์ ์ด ํ ์คํธ ๋จ๊ณ์์ ์๋๋ฅผ ๊ฐ์ฅ ๋๋ฆฌ๊ฒ ๋ง๋๋ ๋ณ๋ชฉ์ด ๋์๋ค.
๊ธฐ์กด ์์ญ ์ ์ ๊ธฐ๋ฒ
- ๋น ๋ฅด์ง๋ง ๋จ์ํ ํน์ง์ ์์กด, ํ์ต ๋ถ๊ฐ๋ฅํ ๊ณ์ฐ ํจ์จ ์์ฃผ์ ๋ฐฉ์ (์ฌ๋์ด ์ ํด๋์ ๊ท์น์๋ง ์์กด)
Selective Search
- ๋ง์ด ์ฐ์ด๋ ์์ญ ์ ์ ์๊ณ ๋ฆฌ์ฆ
- Greedy Merge (๋น์ทํด๋ณด์ด๋ superpixel๋ผ๋ฆฌ ํ๋์ฉ ์ฐจ๋ก๋ก ๊ณ์ ํฉ์นจ)
- ํฝ์ ๋ค์ ํ๋์ฉ ํฉ์น๋ฉด์ ์์ญ์ ์์ฑ
- superpixel
- ์๊ณ ๋น์ทํ ์/ํ ์ค์ฒ ๋ฉ์ด๋ฆฌ๋ก ๋ถํ
- ์ฌ๋์ด ์ค๊ณํ ์ ์์ค ํน์ง๋ค (์์, ์ง๊ฐ ๋ฑ)์ ๊ธฐ๋ฐํ๋ค.
โ ํจ์จ์ ์ธ ๊ฐ์ฒด ํ์ง ์ ๊ฒฝ๋ง์ ๋นํ๋ฉด, Selective Search ๋ CPU ๊ตฌํํ๊ฒฝ์์ ์ด๋ฏธ์ง ๋น 2์ด๊ฐ ๊ฑธ๋ฆฌ๋ ์์ฒญ ๋๋ฆฐ ์๋๋ฅผ ๊ฐ์ง๊ณ ์๋ค.
Edge Boxes
- ํ์ฌ๋ก์จ ์ต๊ณ ์ ๊ท ํ์ ๋ณด์ฌ์ค (์์ญ ์ ์์ ์ง๊ณผ ์๋)
- ์ด๋ฏธ์ง๋น 0.2์ด
- ๊ทธ๋๋ ๊ฐ์ฒด ํ์ง ์ ๊ฒฝ๋ง์ ์ ์ฒด ์๊ฐ๋งํผ์ ์๊ฐ์ด ๊ฑธ๋ฆฐ๋ค.
๊ฐ์ฒด ํ์ง ๋คํธ์ํฌ๋ GPU ๊ตฌํ์ธ๋ฐ, Region Proposal์ CPU ๊ตฌํํ๊ฒฝ์ด๋๊น ๋น๊ต๊ฐ ๋ถ๊ณตํํ์ง ์๋?
Region Proposal ์ GPU ํ๊ฒฝ์์๋ ์๋๋ ์ ์๋๋ก ๊ตฌํ
โ GPU ํ๊ฒฝ์ผ๋ก ์ฎ๊ธฐ๋ ๊ฒ์ ํจ๊ณผ์ ์ผ ์ ์์ง๋ง, ํ์ ํ์ง ๋คํธ์ํฌ๋ฅผ ๊ณ ๋ คํ์ง ์๊ธฐ ๋๋ฌธ์ ๊ณ์ฐ์ ๊ณต์ ํ๋ ๊ธฐํ๋ฅผ ๋์น๊ฒ ๋๋ค.
RPN๊ณผ Detection Network๊ฐ ๊ฐ์ด ๊ณ์ฐ์ ๊ณต์ ํ๋ ๋ฐฉ์์ด ๋ ์ข๋ค.
๋ฐ๋ผ์ Faster R-CNN : ์ ์ฒด ์ด๋ฏธ์ง์ ๋ํด CNN ํ, ์ป์ feature map์ RPN๊ณผ Detection Network๊ฐ ๊ณ์ฐ์ ๊ณต์
๋ฐ๋ผ์ ์ด ๋ ผ๋ฌธ์์๋, ๊น์ CNN๋ฅผ ์ฌ์ฉํด ์์ญ ์ ์์ ์ํํ๋ ๋ฐฉ์์ด ํจ์จ์ ์ธ ํด๊ฒฐ์ ์ ๊ณตํ๊ณ , cost-freeํ๊ฒ ๊ฐ๋ฅํ๋ค๋ ์ ์ ๋ณด์ฌ์ค๋ค.
CNN ์ผ๋ก Region Proposal์ ์ํ โ detection ์ฐ์ฐ์ ๊ทธ๋๋ก ํ์ฉ โ ํจ์จ์ (cost-free)
๊ฐ์ฅ ํ์ฉ์ฑ์ด ๋์ ๊ฐ์ฒด ํ์ง ๋คํธ์ํฌ๋ค๊ณผ ๊ณ์ฐ์ ๊ณต์ ํ๋ RPN์ ๋์ ํ๋ค.
โ ์์ญ ์ ์์ ๋น์ฉ์ ๋งค์ฐ ์๋ค
๋ํ, Fast R-CNN๊ณผ ๊ฐ์ด, ์ง์ญ ํ์ง๋ฅผ ํ ๋ ์ฌ์ฉ๋๋ feature map์ ์ง์ญ ์ ์์ ํ ๋์๋ ์ฌ์ฉ์ด ๊ฐ๋ฅํ๋ค๋ ๊ฒ์ ํ์ธํ์๋ค.
โ ์ด์ ์ feature map : โํ์งโ์๋ง ์ฌ์ฉ๋์์ผ๋ฉฐ, ์์ญ ์ ์์ ๋ค๋ฅธ regional proposal algorithm์ ์ฌ์ฉ (Selective Search) ํ์ง๋ง, feature map์ด regional proposal์ ํ ๋์๋ ์ฌ์ฉ์ด ๊ฐ๋ฅํ๋ค๋ ๊ฒ์ ์์๋ด์๋ค.
๋ ผ๋ฌธ์์ ์ ์ํ๋ โRPNโ
- ํด๋น ํฉ์ฑ๊ณฑ์ ํน์ฑ ์์, ํด๋น ๋
ผ๋ฌธ์์๋ ํฉ์ฑ๊ณฑ ์ธต์ ์ฌ๋ฌ๊ฐ ์์ RPN์ ์ ์ํ๋ค.
- ์ฌ๋ฌ ๊ฐ์ ํฉ์ฑ๊ณฑ ์ธต์ ๊ฐ๊ฐ์ ์์น์์ regular grid ์์ region bounds์ objectness scores๋ฅผ ๋์์ ์์ธกํ๋ค.
- ํด๋น RPN์ Fully Convolutional Network (FCN)์ด๋ค.
- Fully Convolutional Network โ ํฉ์ฑ๊ณฑ ์ฐ์ฐ์ผ๋ก๋ง ์ด๋ฃจ์ด์ง ๊ณ์ธต์ ์๋ฏธํ๋ค.
- ํนํ ํ์ง ์ ์์ ํ๋ ๋ชฉํ์ ๋ํด end-to-end ๋ฐฉ์์ผ๋ก ํ์ต๊ฐ๋ฅํ๋ค.
๋ค์ํ ํฌ๊ธฐ์ ์ข ํก๋น์ ๋ํด ์์ธก์ด ๊ฐ๋ฅํ๋๋ก ํจ์จ์ ์ผ๋ก ๋์์ธ๋์๋ค.
- ๊ธฐ์กด์ ๊ฐ์ฒด ํ์ง ๋ฐฉ์ (a)(b)
- ๋ค์ํ ํฌ๊ธฐ์ ๊ฐ์ฒด ํ์ง๋ฅผ ์ํด ์ด๋ฏธ์ง์ ํํฐ๋ฅผ ๋ค์ํ ํฌ๊ธฐ๋ก ์ฌ์กฐ์ ํ์ฌ ์ฒ๋ฆฌํ๋ค.
- ๊ฐ๊ฐ์ ํฌ๊ธฐ์ ๋ํด CNN์ ์ผ์ผ์ด ๋๋ ค์ผํ์
- ๋ค์ํ ํฌ๊ธฐ์ ๊ฐ์ฒด ํ์ง๋ฅผ ์ํด ์ด๋ฏธ์ง์ ํํฐ๋ฅผ ๋ค์ํ ํฌ๊ธฐ๋ก ์ฌ์กฐ์ ํ์ฌ ์ฒ๋ฆฌํ๋ค.
- ๋
ผ๋ฌธ์์ ์ ์ํ๋ โโanchorโ boxesโ : ๋ค์ํ ํฌ๊ธฐ์ ์ข
ํก๋น์ ๊ฐ์ฒด๋ค์ ํ์ง ๊ฐ๋ฅํ๋ค.
- anchor boxes : CNN์ ํตํด ์ฐ์ถ๋ feature map์ ์ฌ๋ฌ ํฌ๊ธฐ์ box๋ค์ ๊น์๋๊ณ , ๊ฐ์ฒด์ ์์น๋ฅผ ์์ธกํ๋ค.
- ๋ค์ํ ํฌ๊ธฐ์ ๋ํด ์ด๋ฏธ์ง, ํํฐ๋ค์ ๊ณ์ฐํ ํ์ ์์ด ๊น์๋ anchor box๋ฅผ ํตํด ๊ฐ์ฒด์ ์์น๋ฅผ ์์ธกํ๋ค.
- ๋ฐ์ค์ ํฌ๊ธฐ๊ฐ ์ผ๋ง๋ ์กฐ์ ๋์ด์ผํ๋์ง?
- ๋ฐ์ค ์์ ๊ฐ์ฒด๊ฐ ์์ ํ๋ฅ ?
- ํด๋น ๋ชจ๋ธ์ ๋จ์ผ ํฌ๊ธฐ๋ก ํ์ต๋๊ณ ํ ์คํธ๋ฅผ ํ์์๋ ์ฑ๋ฅ์ด ์ข๊ณ , ์๋๋ ๋น ๋ฅด๋ค.
RPN ๊ณผ Fast R-CNN ๊ฐ์ฒด ํ์ง ์ ๊ฒฝ๋ง๊ณผ ํฉ์น๋ ๋ฐฉ์
- RPN๊ณผ Fast R-CNN์ ํตํฉํ์ฌ end-to-end ๋ฐฉ์์ผ๋ก ํ์ตํ๊ธฐ ์ํด์๋ ์ง์ญ ์ ์(RPN)๊ณผ ๊ฐ์ฒด ํ์ง์ ๋ํด์ ๋ฒ๊ฐ์๊ฐ๋ฉฐ fine-tuningํ๋ ๋ฐฉ์์ ์ ํ
- ๊ฐ์ฒด ํ์ง์ ๋ํด fine-tuning์ ํ ๋์๋ ์ง์ญ ์ ์ (Regional Proposal)์ ๊ณ ์ ํ์ฑ๋ก ์งํ
PASCAL VOC Detection Benchmarks๋ฅผ ํตํด ์์ ๋ฐฉ์์ ํ๊ฐ
- RPN + Fast R-CNN ์ด Selective Search + Fast R-CNN๋ณด๋ค ๋ ์ข์ ์ฑ๋ฅ์ ๋ํ๋๋ค.
- ๋ํ, Fast R-CNN๊ณผ RPN์ ํตํฉํ ๋ฐฉ์์ ๊ธฐ์กด์ Selective Research๋ฅผ ํตํด ๋ฐ์ํ๋ ๊ณ์ฐ๋์ ํผํ ์ ์๊ธฐ ๋๋ฌธ์, ์๊ฐ์ ์ธ ์ธก๋ฉด์์๋ ์ฐ์ํ๋ค.
- CNN์ ๋ฐฑ๋ณธ์ผ๋ก ๊ต์ฅํ ๊น์ ์ ๊ฒฝ๋ง ๋ชจ๋ธ์ ์ฌ์ฉํด๋, ํด๋น ๋ชจ๋ธ์ frame rate : 5fps ๋ก ์๋, ์ ํ๋ ์ธก๋ฉด์์ ์ค์ฉ์ ์ธ ๊ฐ์ฒด ํ์ง ์์คํ ์ด๋ค.
- 3D ๊ฐ์ฒด ํ์ง, ๋ถ๋ถ ๊ฐ์ฒด ํ์ง, ๊ฐ์ฒด ํ์ง ์ธ๋ถํ, ์ด๋ฏธ์ง ์บก์ ์์๋ ์ฌ์ฉ๋๋ค.
โ RPN + Fast R-CNN์ ํจ์จ์ ์ผ ๋ฟ๋ง ์๋๋ผ, ์ค์ฉ์ ์ธ ๋ฐฉ์์ด๋ฉฐ, ๊ฐ์ฒด ํ์ง์ ์ ํ๋๋ฅผ ๋์ด๋ ํจ์จ์ ์ธ ๋ฐฉ์์ด๋ค.
2 Related Work
Object Proposals
- super-pixels๋ฅผ ๊ทธ๋ฃนํํ๋ ๋ฐฉ์์ ๊ธฐ๋ฐ์ผ๋ก ํ๋ค.
- Selective Research
- Sliding Windows๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ํ๋ ๋ฐฉ์
- EdgeBoxes
Object Proposal ๋ฐฉ์๋ค์ ํ์ง (Detectors)์ ๋ ๋ฆฝ์ ์ธ ์ธ๋ถ ๋ชจ๋๋ก ์ฌ์ฉ๋์๋ค.
โ ํ์ง๊ธฐ์ ๊ณ์ฐ ๊ณต์ X
Deep Networks for Object Detection
- R-CNN ๋ฐฉ์์ CNN๋ค์ ์ ์๋ ์ง์ญ์ ๊ฐ์ฒด or ๋ฐฐ๊ฒฝ์ผ๋ก ๋ถ๋ฅํ๊ธฐ ์ํด end-to-end ๋ฐฉ์์ผ๋ก ํ์ต์ํจ๋ค.
- R-CNN์ ์ฃผ๋ก ๋ถ๋ฅ ์ญํ ์ ์ํํ๋ฉฐ, ๊ฐ์ฒด ๊ฒฝ๊ณ๋ฅผ ์์ธกํ์ง๋ ์๋๋ค. (๋ฐ์ค ์์ธก์ ํตํด ์ฌ์กฐ์ ํ๋ ๊ฒ์ ์ ์ธ)
- ๋ถ๋ฅ ์ญํ ์ ํ๋ โ ์ง์ญ ์ ์ (Region Proposal) ๋ชจ๋์ ๋ฐ๋ผ ๋ฌ๋ผ์ง๋ค.
- ์ฌ๋ฌ ๋
ผ๋ฌธ๋ค์์ ๋ฅ๋ฌ๋์ ์ด์ฉํ์ฌ ๊ฐ์ฒด์ bounding box๋ฅผ ์์ธกํ๋ ๋ฐฉ์์ ์ฌ์ฉํด์๋ค.
- OverFeat ๋ฐฉ์์์๋ ์์ ์ฐ๊ฒฐ๊ณ์ธต์ ํ์ต์์ผ ๊ฐ์ฒด์ bounding box๋ฅผ ์์ธกํ๋ค.
- ์ดํ ์์ ์ฐ๊ฒฐ๊ณ์ธต์ ๋ค์คํด๋์ค ๊ฐ์ฒด๋ฅผ ํ์งํ๋ ํฉ์ฑ๊ณฑ ๊ณ์ธต์ผ๋ก ๋ฐ๋์๋ค.
- OverFeat ์ โsingle-boxโ๋ฅผ ํ์ฅ
โ Multibox ๋ฐฉ์์ ๋คํธ์ํฌ์ ๋ง์ง๋ง ์์ ์ฐ๊ฒฐ๊ณ์ธต์ผ๋ก๋ถํฐ ๋ค์์ class-agnostic boxes๋ฅผ ๋์์ ์์ธกํ์ฌ Regional proposal์ ์์ฑํ๋ค.
- ์ด class-agnostic boxes๋ R-CNN์ ์ ์์ ์ฌ์ฉ๋๋ค.
- MultiBox ๋คํธ์ํฌ๋ ๋จ์ผ ์ด๋ฏธ์ง ํน์ ๋ค์์ ํฐ ์ด๋ฏธ์ง์ ์ ์ฉ๋๋ฉฐ, ์ด๋ ๋ ผ๋ฌธ์ ํฉ์ฑ๊ณฑ์ผ๋ก๋ง ์ด๋ฃจ์ด์ง ๋ฐฉ์๊ณผ ๋๋น๋๋ค.
- Proposal๊ณผ detection ๋คํธ์ํฌ ์ฌ์ด์ ํน์ง๋ค์ ๊ณต์ ํ์ง ์๋๋ค.
- ํฉ์ฑ๊ณฑ์ ์ฐ์ฐ์ ๊ณต์ ํ๋ ๊ฒ์ ํจ์จ๊ณผ ์ ํํ ์๊ฐ ์ธ์์ ์ํด ์ฃผ๋ชฉ๋ฐ๊ณ ์๋ค.
OverFeat ๋ฐฉ์
- ์ด๋ฏธ์ง๋ฅผ ์ฌ๋ฌ ์ฌ์ด์ฆ๋ก ๋ง๋ ํ, ๊ฐ๊ฐ์ ์ฌ์ด์ฆ์ ๋ํด ๋ชจ๋ CNN์ ์ ์ฉํ๋ ๋ฐฉ์
SPP ๋ฐฉ์
- ์ด๋ฏธ์ง์ Feature Map์ ์ฌ๋ฌ ์ฌ์ด์ฆ์ anchor boxes๋ฅผ ๋๊ณ ๊ฐ์ฒด๋ฅผ ํ์งํ๋ค.
- ํจ์จ์ ์ผ๋ก ์ง์ญ ๊ธฐ๋ฐ ๊ฐ์ฒด ํ์ง๊ฐ ๊ฐ๋ฅํ๋ค.
Fast R-CNN
- ๊ณต์ ๋ ํฉ์ฑ๊ณฑ์ ํน์ง์์ end-to-end ํ์ง ํ์ต์ด ๊ฐ๋ฅํ๋ฉฐ, ์๋์ ์ ํ๋๊ฐ ๋ชจ๋ ์ฐ์ํ๋ค.
# 3 Faster R-CNN
- Faster R-CNN์ 2๊ฐ์ง ๋ชจ๋๋ก ์ด๋ฃจ์ด์ ธ ์๋ค.
- ๊น์ ํฉ์ฑ๊ณฑ ๋คํธ์ํฌ โ ์ง์ญ์ ์ ์
- Fast R-CNN detector โ ์ ์๋ ์ง์ญ์ ์ฌ์ฉ
- ์ ์ฒด์ ์ธ ์์คํ ์ ํ๋๋ก ํตํฉ๋์ด ์๋ค.
- RPN ๋ชจ๋์ด Fast R-CNN์๊ฒ ์ด๋์ โAttentionโ์ ๋์ง ์๋ ค์ค๋ค.
3.1 Region Proposal Networks
- ์ด๋ฏธ์ง๋ฅผ input์ผ๋ก ๋ฐ์ผ๋ฉฐ, ์ถ๋ ฅ์ผ๋ก๋ ์ง์ฌ๊ฐํ์ ๊ฐ์ฒด/์ง์ญ ์ ์์ ๊ฐ์ง๋ค.
- ์์ ๊ฐ์ ๊ณผ์ ์ ํฉ์ฑ๊ณฑ ๊ณ์ธต์ผ๋ก๋ง ๊ตฌํํ๋ฉฐ, ํด๋น ๋ชจ๋ธ์ ๋ชฉํ๋ ๊ณ์ฐ(์ด๋ฏธ์งโfeature map)์ Fast R-CNN๊ณผ ๊ณต์ ํ๊ธฐ ์ํด์์ด๋ค.
โ ํด๋น ๋ ผ๋ฌธ์ ์คํ์์๋ Zelier and Fergus Model (๊ณต์ ๊ฐ๋ฅํ ํฉ์ฑ๊ณฑ ๊ณ์ธต : 5๊ฐ), Simonyan and Zisserman Model (๊ณต์ ๊ฐ๋ฅํ ํฉ์ฑ๊ณฑ ๊ณ์ธต : 13๊ฐ)
Region Proposal
- ๋ง์ง๋ง ํฉ์ฑ๊ณฑ ๊ณ์ธต์ ์ถ๋ ฅ์ธ Feature Map ์์ small network ๋ฅผ slide ์ํจ๋ค
- small network
- feature map์์์ nxn ํฌ๊ธฐ์ ๋ถ๋ถ์ ์๋์ฐ๋ฅผ ์ ๋ ฅ์ผ๋ก ๊ฐ์ง๋ค.
- ๊ฐ๊ฐ์ ์ฌ๋ผ์ด๋ฉ ์๋์ฐ๋ ์ ์ฐจ์ ํน์ง๋ค๋ก ๋งคํ๋๋ฉฐ (ZF ๋คํธ์ํฌ - 256 ์ฐจ์, VGG - 512์ฐจ์) ์ดํ ReLU ํจ์๋ก ์ ๋ฌ๋๋ค.
โ ํน์ง๋ค์ ์ดํ box-regression layer(reg)์ box-classification layer(cls)๋ก ์ ๋ฌ๋๋ค.
- n=3์ผ๋ก ์ค์ (ํ๋์ ์์น์ ๋ํด 3๊ฐ์ scale์ ์ ์ฉ)
3.1.1 Anchors
- Sliding Window ์์น์์, ๋์์ ๋ค์์ ์ง์ญ ์ ์์ ํ๊ณ , ๊ทธ ๊ฐ์๋ k๋ก ์ ์๋์ด์๋ค.
- reg layer (์์น๋ฅผ ์ผ๋ง๋ ์กฐ์ ํ ๊ฒ์ธ์ง)
- 4k์ ์ถ๋ ฅ (x,y,w,h)
- cls layer (ํด๋น ๊ฐ์ฒด๊ฐ ์ ๊ฒฝ์ธ์ง ๋ฐฐ๊ฒฝ์ธ์ง)
- 2k์ ์ถ๋ ฅ (object, not-object)
- 3๊ฐ์ scales, 3๊ฐ์ aspect ratios๋ฅผ ์ ์ฉํ์ฌ ์ด 9๊ฐ์ anchors๋ฅผ ์ฌ์ฉํ๋ค. (๋ ผ๋ฌธ์์)
- ์ด anchor์ ๊ฐ์
- feature map์ด WxH๋ฉด, ์ด anchor์ ๊ฐ์ = WxHxk์ด๋ค.
- sliding window ๋ feature map ๊ฐ๊ฐ์ ์์น์์ ๋ชจ๋ ์ ์ฉํ๊ธฐ ๋๋ฌธ์ด๋ค.
- feature map์ด WxH๋ฉด, ์ด anchor์ ๊ฐ์ = WxHxk์ด๋ค.
Translation-Invariant Anchors
- ํด๋น ๋
ผ๋ฌธ์ ์ค์ํ ๋ถ๋ถ์ translation invariant ์ด๋ค.
- ๋ง์ฝ ๊ฐ์ฒด์ ์์น๊ฐ ์กฐ๊ธ ๋ฐ๋๋๋ผ๋ ๊ฐ ์์น์ ์ ์ฉ๋๋ anchor๋ค๊ณผ ๊ฐ์ฒด๋ฅผ ํ์งํ๋ ํจ์๋ค๋ก ๊ฐ์ฒด๊ฐ ํ์ง๋๊ฒ๋ ํ๋ ๊ฒ์ด๋ค.
- ๋ง์ฝ ์ด๋ฏธ์ง ๋ด์์ ์ด๋ค ๊ฐ์ฒด๋ฅผ ์ธ์ํ์๋ค๋ฉด, ๋์ผํ ํจ์๊ฐ ํด๋น ๊ฐ์ฒด๋ฅผ ๋ค๋ฅธ ์์น์์๋ ์์ธกํ ์ ์์ด์ผํ๋ค.
- Faster R-CNN์ ์ด๊ฒ์ด ๊ฐ๋ฅํ๋ค! (Multibox๋ K-means๋ฅผ ์ฌ์ฉํ๊ธฐ ๋๋ฌธ์ ๋ถ๊ฐ๋ฅํ๋ค.)
- Translation-Invariant ๋ ๋ํ ๋ชจ๋ธ์ ํฌ๊ธฐ๋ฅผ ์ค์ธ๋ค.
- Multibox์ ๊ฒฝ์ฐ, parameters์ ๊ฐ์๊ฐ 6.1x10^6๊ฐ ์กด์ฌํ๋ฉฐ, ํด๋น ๋ ผ๋ฌธ์ ๋ชจ๋ธ์ ๊ฒฝ์ฐ์ parameters์ ๊ฐ์๊ฐ (512 x (4+2) x 9)๊ฐ์ด๋ค. (VGG-16 ๋ชจ๋ธ์ CNN ๋ฐฑ๋ณธ์ผ๋ก ์ฌ์ฉํ์์๋)
โ parameter๋ค์ ๊ฐ์๋ ์ค์ด๋ฉฐ, ์๊ท๋ชจ ๋ฐ์ดํฐ์ ์ ๋ํด์๋ ๊ณผ์ ํฉ์ ์ํ์ ๋ฎ์ถ ์ ์๋ค.
Multi-Scale Anchors as Regression References
- Faster R-CNN์ ๋ฐฉ์์์๋ ๋ค์ํ ์ด๋ฏธ์ง ํฌ๊ธฐ์ ๋ํ ๊ฐ์ฒด ํ์ง๊ฐ ๊ฐ๋ฅํ๋ฉฐ, ํด๋น ๋ฐฉ์์๋ 2๊ฐ์ง๊ฐ ์๋ค.
- image/feature pyramids๋ฅผ ์ฌ์ฉ (์ด๋ฏธ์ง๋ฅผ ์กฐ์)
- ์ด๋ฏธ์ง๋ค์ด ๋ค์ํ ํฌ๊ธฐ๋ก ์ฌ์กฐ์ ๋๋ฉฐ, ์ฌ์กฐ์ ๋ ์ฌ์ด์ฆ์ ๋ํด feature map ์ด ๊ฐ๊ฐ ์ ์ฉ๋๋ ๋ฐฉ์์ด๋ค.
- Sliding Windows๋ฅผ Feature map์ ๋ํด ๋ค์ํ ํฌ๊ธฐ๋ก ์ฌ์ฉํ๋ ๋ฐฉ์
- ์๋ก ๋ค๋ฅธ ์ข ํก๋น๋ฅผ ๊ฐ์ง ๊ฐ์ฒด ํ์ง ๋ชจ๋ธ๋ค์ ๊ฐ๊ฐ ์๋ก ๋ ๋ฆฝ์ ์ผ๋ก ๋ค์ํ ํฌ๊ธฐ์ ํํฐ๋ค๋ก ํ๋ จ๋๋ค.
- โpyramid of filtersโ๋ผ๊ณ ์๊ฐํ์!
โ ํด๋น ๋ฐฉ์์ 1๋ฒ์ ๋ฐฉ์๊ณผ ํจ๊ป ์ฌ์ฉ๋๊ณค ํ๋ค.
- ์์ 2๊ฐ์ง ๋ฐฉ์๊ณผ ๋น๊ตํ์ฌ, anchor๋ฅผ ์ฌ์ฉํ๋ ๋ฐฉ์์ ํจ์จ์ ์ธ โPyramids of anchorsโ์ ๊ตฌ์กฐ๋ฅผ ๊ฐ์ง๋ค.
- ๋ค์ํ ํฌ๊ธฐ์ anchors ์ฌ์ฉํ๊ธฐ ๋๋ฌธ์, feature map๊ณผ image๋ ๋จ ํ๋์ ํฌ๊ธฐ๋ง์ ๊ฐ์ง๋ค.
- ํด๋น ๋ฐฉ์์ผ๋ก ๋ค์ํ ํฌ๊ธฐ๋ฅผ ๊ฐ์ง ๊ฐ์ฒด๋ค์ ํ์งํ ์ ์๋ค.
3.1.2 Loss Function
- ํ์ตํ๋ RPN์ ์ํด์๋, ์ด์ง๋ถ๋ฅ๋ฅผ ์ํ ํด๋์ค ๋ผ๋ฒจ์ ๋ถ์ฌํ๋ค. (๊ฐ์ฒด์ธ์ง? ์๋์ง?)
- 2๊ฐ์ง์ anchor๋ค์ ์ํด ๊ธ์ ์ ์ธ ๋ผ๋ฒจ์ ๋ถ์ฌํ๋ค.
- ground-truth box ์ ๊ฐ์ฅ ๋์ ์์ญ ๊ฒน์นจ ๋น์จ์ ๊ฐ์ง anchor
- ground-truth box ์ ์์ญ์ด ๊ฒน์น๋ ๋น์จ์ด 0.7 ์ด์์ธ anchor
ground-truth box? : ์ ๋ต ๋ฐ์ค, ์ ๋ต ๊ธฐ์ค, ์ฌ๋์ด ๋ถ์ฌํ ๋ผ๋ฒจ
ํ๋์ ground-truth box๊ฐ ์ ๋ต ๋ผ๋ฒจ์ ๋ค์์ anchor์๊ฒ ํ ๋นํ ์ ์๋ค.
โ 2๋ฒ์งธ ๋ฐฉ์์ด ์ ๋ต ์ํ๋ค์ ๊ฒฐ์ ํ๋๋ฐ ํจ์จ์ ์ด์ง๋ง, ํด๋น ๋ ผ๋ฌธ์์๋ ์ฒซ๋ฒ์งธ ๋ฐฉ์์ ์ฌ์ฉํ๋ค. (๊ฐ๋ ๋๋ฌผ๊ฒ 2๋ฒ์งธ ๋ฐฉ์์ด ์ ๋ต ๋ผ๋ฒจ์ ํ์งํ์ง ๋ชปํ๋ ๊ฒฝ์ฐ๋ฅผ ์ํด)
- ๋ง์ฝ IoU (์ ๋ต ๋ผ๋ฒจ๊ณผ ๊ฒน์น๋ ๋น์จ)์ด 0.3๋ณด๋ค ์์ผ๋ฉด, Negative label(๋ฐฐ๊ฒฝ)์ ๋ถ์ฌํ๋ค.
- Positive/Negative๊ฐ ์๋ anchor๋ค์ ํ์ต์ ๊ด์ฌํ์ง ์๋๋ค!
| ๋ผ๋ฒจ | ์ค๋ช /์ฌ์ฉ |
|---|---|
| Positive Label | Ground-Truth box์ ๊ฒน์น๋ ๋น์จ(IoU)๊ฐ 0.7์ด ๋์๋ (ํ์ต์ ๊ฐ์ฒด ๋ผ๋ฒจ๋ก ์ฌ์ฉ) |
| Negative Label | Ground-Truth box๊ณผ ๊ฒน์น๋ ๋น์จ (IoU)๊ฐ 0.3๋ณด๋ค ์์๋ (ํ์ต์ ๋ฐฐ๊ฒฝ ๋ผ๋ฒจ๋ก ์ฌ์ฉ) |
| 0.3<IoU<0.7 | ํ์ต์ ์ฌ์ฉ X |
์์ ๊ฐ์ ๋ฐฉ์์ผ๋ก Fast R-CNN์์์ ๊ฐ์ฒด ํ์ง (๋ฉํฐ ํ ์คํฌ) ์์ค์ ์ต์ํํ๋ค.
- ์์ ์์์ i๋ ๋ฏธ๋๋ฐฐ์น์์์ anchor์ ์ธ๋ฑ์ค๋ก ์ฌ์ฉ๋๋ค.
- p_i๋ i๋ฒ์งธ anchor๊ฐ ๊ฐ์ฒด๋ก ์์ธก๋ ํ๋ฅ ์ ์๋ฏธํ๋ค.
- p_i* (ground-truth label)์ anchor๊ฐ positive(๊ฐ์ฒด์ด๋ฉด), 1, ๊ฐ์ฒด๊ฐ ์๋๋ฉด(๋ฐฐ๊ฒฝ์ด๋ฉด) 0์ด๋๋ค.
- t_i ์ t^*_i ๋ ๋ ๋ค Anchor๋ฅผ ๊ธฐ์ค์ผ๋ก ํ๋ผ๋ฏธํฐํ๋ ์์น ๋ณด์ ๊ฐ ๋ฒกํฐ์ด๋ฉฐ, ํ๋๋ ๋ชจ๋ธ ์์ธก๊ฐ, ๋ค๋ฅธ ํ๋๋ ๊ทธ anchor์ ์ฐ๊ฒฐ๋ ์ ๋ต ๋ฐ์ค ๊ฐ
- ์ ํ๋ผ๋ฏธํฐํ ํ๋๊ฐ? โ anchor๋ฅผ ๊ธฐ์ค์ผ๋ก ํ ์๋์ ๋ณํ๋์ผ๋ก ํํํ๊ธฐ ๋๋ฌธ!
- Classification_Loss : ๊ฐ์ฒด/๋ฐฐ๊ฒฝ 2๊ฐ์ง์ ํด๋์ค์ log๋ฅผ ์์ด ํํ์ด๋ค.
- Regression Loss : Robus Loss Function์ ์ฌ์ฉํ์ฌ ํ์ต ์์ ์ฑ์ ๋์ธ๋ค.
- p*_i L_reg๋ ํ๊ท ์์ค์ด ์ ๋ต anchor๋ค์ ์ํด์๋ง ํ์ฑํ๋๊ณ , ๋ฐฐ๊ฒฝ anchor๋ค์ ํํด์๋ ํ์ฑํ๋์ง ์๋๋ค.
- cls, reg : cls ๋ ์ง๊ธ ํ์ฌ ๋ฏธ๋๋ฐฐ์น ํฌ๊ธฐ(256)์ ์ํด ์ ๊ทํ๋์์ผ๋ฉฐ, reg๋ anchor์ ๊ฐ์์ ์ํด ์ ๊ทํ๋์๋ค.
- cls : ๊ฐ์ฒด vs ๋ฐฐ๊ฒฝ ๋ถ๋ฅ
- reg : bbox ์์น ๋ณด์
- balancing parameter (ฮป) ๋ Classification term๊ณผ Regression term ๊ฐ์ ์ค์ผ์ผ์ด ๋ค๋ฅด๊ธฐ ๋๋ฌธ์, ๊ทธ๋ฅ ํฉ์น๋ฉด ํ ์ชฝ์ด ๋๋ฌด ํฌ๊ฒ/์๊ฒ ์์ฉํ์ฌ ํ์ต์ด ํ์ชฝ์ผ๋ก ์น์ฐ์น ์ ์๋ค. ์ด๋ฅผ ๋ฐฉ์งํ๊ธฐ ์ํด 2๊ฐ์ loss์ ๋น์ค์ผ๋ก ์กฐ์ ํ๋ ๊ฐ์ค์น์ด๋ค.
โ ์ด์ ๊ฐ์ ์ ๊ทํ ๊ณผ์ ๊ณผ balancing parameter์ ๊ฐ์ ๊ฐ๋ตํ์ํฌ ์ ์๋ค.
bounding box ํ๊ท๋ฅผ ์ํด์๋, ๋ค์๊ณผ ๊ฐ์ ํ๋ผ๋ฏธํฐํ ๊ณผ์ ์ ๊ฑฐ์น๋ค.
โ x,y,๋์ด, ๋๋น ๋ฐฉํฅ์ผ๋ก์ ๋ณํ๋์ ๋น์จ๋ก ๋ํ๋ด์ ์์ธกํ๋ ๋ฐฉ์์ด๋ค.
์์ ๊ฐ์ bounding box regression ๋ฐฉ์์ด ์ด์ RoI ๊ธฐ๋ฐ ๋ฐฉ๋ฒ๋ค๊ณผ ์ด๋ป๊ฒ ๋ค๋ฅธ๊ฐ?
- ์ด์ ์ RoI ๊ธฐ๋ฐ ๋ฐฉ์ ([1],[2] = R-CNN, Fast R-CNN)
- Region Proposal (Selective Search ๋ฑ) โ ํฌ๊ธฐ ์ ๊ฐ๊ฐ์ธ RoI๋ฅผ ์์ฑ
- ๊ฐ RoI์์ feature pooling (RoI Pooling)
- ๊ฐ์ Regression weight๋ฅผ ๋ชจ๋ RoI ํฌ๊ธฐ์ ๋ํด ์ฌ์ฉ
๋ฌธ์ ์ : RoI ํฌ๊ธฐ๊ฐ ๋ค ๋ค๋ฅด์ง๋ง, regression ํ๋ผ๋ฏธํฐ(๊ฐ์ค์น)๋ ํ๋๋ผ์ ํฐ ๋ฌผ์ฒด, ์์ ๋ฌผ์ฒด ๋ชจ๋ ๋๊ฐ์ ๋ฐฉ์์ผ๋ก ๋ณด์ โ ์ต์ ํ ์ด๋ ค์
| ๊ธฐ์กด RoI ๊ธฐ๋ฐ ๋ฐฉ์ | Faster R-CNN (RPN ๋ฐฉ์ |
|---|---|
| ๋ค์ํ ํฌ๊ธฐ์ RoI pooling | feature map์์ ๊ณ ์ ํฌ๊ธฐ(3x3) ์์ญ ์ฌ์ฉ |
| ๋ชจ๋ RoI์ ๋์ผํ regression weight | scale/ratio ๋ณ๋ก ๋ณ๋ regressor ์ฌ์ฉ |
| RoI feature๋ง๋ค ํฌ๊ธฐ ์ฐจ์ด ๋ฐ์ ์ด๋ ค์ | anchor design์ผ๋ก ํฌ๊ธฐ/๋น์จ ์ฐจ์ด๋ฅผ ํด๊ฒฐ |
โ Faster R-CNN์ด ์ข์ ์ด์
- ๊ณ ์ ๋ feature ํฌ๊ธฐ โ ํ์ต ์์ ์ฑ์ด ์ข๊ณ , ๊ตฌํ์ ๋จ์ํํ ์ ์๋ค.
- scale/ratio ๋ณ ๋ณ๋ regressor โ ์์ ๋ฌผ์ฒด/ํฐ ๋ฌผ์ฒด ๊ฐ๊ฐ์ ํนํ๋ weight ํ์ต ๊ฐ๋ฅ
Anchor ๋๋ถ์, ๊ณ ์ feature size์์๋ ๋ค์ํ ํฌ๊ธฐ์ bbox ์์ธก ๊ฐ๋ฅ
3.1.3 Training RPNs
- RPN์ end-to-end back propagation ๋ฐฉ์์ผ๋ก ํ์ต๋๋ค.
- Faster R-CNN ์ ์ฒด ๊ตฌ์กฐ๊ฐ ํ๋์ ์ฐ๊ฒฐ๋ ๋คํธ์ํฌ์ฒ๋ผ ์๋ํ์ฌ ์ ๋ ฅ ์ด๋ฏธ์ง โ ์ต์ข loss ๊น์ง์ ๋ชจ๋ ๊ฒฝ๋ก๊ฐ ์ญ์ ํ๋ก ๋์์ ํ์ต!
- Fast R-CNN์์์ โimage-centricโ ์ํ๋ง ์ ๋ต์ ์ฌ์ฉํ๋ค.
- ๊ฐ๊ฐ์ ๋ฏธ๋๋ฐฐ์น๋ ํ๋์ ์ด๋ฏธ์ง์์ ๋ค์์ ๊ฐ์ฒด/๋ฐฐ๊ฒฝ anchor๋ค์ ๊ฐ์ง๋ค.
- ๋ชจ๋ anchor๋ค์ ๋ํด์ ์์คํจ์๋ฅผ ์ต์ ํ (์์คํจ์์ ๊ฐ์ ๊ฐ๋ฅํํ ์๊ฒ ๋ง๋ฆ)ํ๋ ๊ฒ์ด ๊ฐ๋ฅํ์ง๋ง, negative sample(๋ฐฐ๊ฒฝ ์ํ)์ด ๋ ์ฐ์ธํ๊ธฐ ๋๋ฌธ์, ํ์ต๊ฒฐ๊ณผ๊ฐ negative sample ๋ฐฉํฅ์ผ๋ก ์น์ฐ์น ์๋ ์๋ค.
โ ๊ทธ๋ ๊ธฐ ๋๋ฌธ์ ๋ฌด์์๋ก 256๊ฐ์ anchor๋ฅผ ๋ฝ์์ ๋ฏธ๋๋ฐฐ์น์ ์์คํจ์๋ฅผ ๊ณ์ฐํ๊ธฐ ์ํด ์ฌ์ฉํ๋ค. (์ฌ๊ธฐ์ ์ํ๋ค์ negative์ positive์ ๋น์จ์ด 1:1์ ๊ฐ์ง๋ค.)
๋ง์ฝ ๊ฐ์ฒด ์ํ์ด ํ๋์ ์ด๋ฏธ์ง์ 128๊ฐ๋ณด๋ค ์ ๊ฒ ์์ ๊ฒฝ์ฐ์, negative anchor๋ก ์ฑ์ด๋ค.
3.2 Sharing Features for RPN and Fast R-CNN
- RPN๊ณผ Fast R-CNN์ ๋ ๋ฆฝ์ ์ผ๋ก ํ์ต๋๋ฉฐ, ๊ทธ๋ค์ ConV ๊ณ์ธต์ ์๋ก ๋ค๋ฅธ ๋ฐฉ์์ผ๋ก ์์ ํ ๊ฒ์ด๋ค.
โ ๊ทธ๋ ๊ธฐ ๋๋ฌธ์ ConV ๊ณ์ธต์ 2๊ฐ์ง์ ๋คํธ์ํฌ์์ ๊ณต์ ํ ์ ์๋๋ก ํ๋ ๊ธฐ๋ฒ์ด ํ์ํ๋ค.
Faster R-CNN์ ํต์ฌ!!!! โ Region Proposal(RPN) ๋คํธ์ํฌ์ Fast R-CNN์ด Feature Map์ ๊ณต์ ํ๋ค!!
- Alternating Training
- ํด๋น ์๋ฃจ์ ์์๋, ์ฒซ๋ฒ์งธ๋ก RPN์ ํ์ต์ํค๊ณ , ์ง์ญ ์ ์์ Fast R-CNN์ ํ์ต์ํค๋๋ฐ ์ฌ์ฉํ๋ค.
- Fast R-CNN์ผ๋ก tuned ๋ ๋คํธ์ํฌ๋ RPN์ ์์ํ ๋ ์ฌ์ฉ๋๋ฉฐ, ์ด์ ๊ฐ์ ๊ณผ์ ์ด ๋ฐ๋ณต๋๋ค.
- Approximate joint training (ํ๋ฒ์ forward/backward๋ก ํ์ต)
- RPN๊ณผ Fast R-CNN ๋คํธ์ํฌ๊ฐ ํ์ต์์ ํ๋์ ๋คํธ์ํฌ๋ก ๋ณํฉ๋๋ค.
- ํ ๋ฒ์ forward pass
- Backbone CNN์ด feature map ์์ฑ
- RPN์ด proposal ์์ฑ
- proposal์ ๋ฐ๋ก Fast R-CNN Detector์ ๋ฃ์ด์ Classification & bbox regression ์ํ
- ํ์ต๊ณผ์
- Forward pass
- RPN์ด Proposal ์์ฑ
- Fast R-CNN detector๊ฐ ์ด proposal์ ์ ๋ ฅ์ผ๋ก ๋ฐ์ Loss ๊ณ์ฐ
- Backward pass
- RPN loss์ Fast R-CNN loss ๋ชจ๋ ๊ณต์ ๋ Conv Layer๊น์ง Gradient ์ ํ
- ๊ณต์ ๋ layer์์๋ 2๊ฐ์ gradient๋ฅผ ํฉ์ณ์ ์ ๋ฐ์ดํธ
โ RPN์ด ๋ด๋์ proposal ์ขํ์ ๋ํ gradient๋ ๊ณ์ฐํ์ง ์๋๋ค!
- Forward pass
- Non-approximate joint Training
- RPN์ ์ํด ์์ธก๋ ๊ฒฝ๊ณ ๋ฐ์ค๋ค์ ํจ์(์ ๋ ฅ ์ด๋ฏธ์ง โ RPN โ bounding box)๋ค์ input์ผ๋ก ์ฌ์ฉ๋๋ค.
- Fast R-CNN์์ ์๋ RoI pooling layer๋ input์ผ๋ก์จ convolutional feature๋ค๊ณผ, ์์ธก๋ ๊ฒฝ๊ณ๋ฐ์ค๋ค์ input์ผ๋ก ๋ฐ๋๋ค.
- 2๋ฒ ๋ฐฉ์ (approximate joint Training)์์๋ RPN์ด ์์ฑํ proposal box ์ขํ๋ฅผ ๊ณ ์ ๊ฐ์ฒ๋ผ ์ทจ๊ธํ์ฌ ์ขํ์ ๋ํ gradient๋ ๊ณ์ฐ์ ํ์ง ์์์ง๋ง, ์ด๋ก ์ ์ผ๋ก ์์ ํ joint training์์๋ box ์ขํ๋ ๋คํธ์ํฌ์ ์ถ๋ ฅ์ด๋ฏ๋ก, loss๋ฅผ box์ขํ๊น์ง ์ญ์ ํํด์ผํ๋ค.
โ ์์ ํ joint training์ ํ๊ธฐ ์ํด์๋ box ์ขํ๊น์ง gradient๋ฅผ ์ ํํด์ผํ๋๋ฐ, ์ด๋ฅผ ์ํด์๋ box ์ขํ์ ๋ํด ๋ฏธ๋ถ ๊ฐ๋ฅํ RoI Pooling์ด ํ์ํ๋ค.
4-Step Alternating Training
- ๊ณต์ ๋ features๋ค์ ํ์ตํ๊ธฐ ์ํด์๋ 4-๋จ๊ณ์ ํ์ต ์๊ณ ๋ฆฌ์ฆ์ ์ฌ์ฉํ๋ค.
- RPN์ ํ์ต์ํจ๋ค. (3.1.3์์ ์๊ฐํ ๋ฐฉ์์ผ๋ก!)
- ์ด ๋คํธ์ํฌ๋ ImageNet-pre-trained ๋ชจ๋ธ๋ก๋ถํฐ ์์๋์์ผ๋ฉฐ, ์ง์ญ ์ ์์ ์ํด fine Tuning ๋์๋ค.
- RPN์์ ์ ์ํ ์ง์ญ์ ์์ ํ์ฉํ์ฌ Fast R-CNN์์ ๋์จ detection network๋ฅผ ํ์ต์ํจ๋ค.
- detection network ๋ํ ImageNet-pre-trained ๋ชจ๋ธ์ด๋ค.
- ํด๋น ๊ณผ์ ์์ 2๊ฐ์ ๋คํธ์ํฌ๋ ConV ๊ณ์ธต์ ๊ณต์ ํ์ง ์๋๋ค.
- Detector ๋คํธ์ํฌ๋ฅผ ์ฌ์ฉํ์ฌ RPN ํ์ต
- Fast R-CNN (Detector Network)์ด ํ์ตํ ๋ฐฑ๋ณธ ๊ฐ์ค์น๋ฅผ RPN ์ด๊ธฐํ์ ์ฌ์ฉํ๊ณ , ๋ฐฑ๋ณธ์ ๊ณ ์ ํ ์ฑ RPN ์ ์ฉ ๋ ์ด์ด๋ง ๋ฏธ์ธ ์กฐ์ ํ๋ค.
โ ์ด์ 2๊ฐ์ ๋คํธ์ํฌ๋ convolution layer๋ฅผ ๊ณต์ ํ๋ค.
3.3 Implementation Detatils
- ํด๋น ๋ ผ๋ฌธ์์๋ region proposal๊ณผ object detection network๋ฅผ ๋์์ ํ์ตํ๊ณ ๊ฒ์ฆํ๊ณ ์๋ค. (ํ๋์ ํฌ๊ธฐ์์)
- ์ด๋ฏธ์ง๋ค์ ์งง์ ๋ณ ๊ธธ์ด๋ฅผ 600 ํฝ์ ๋ก ๋ฆฌ์ฌ์ด์ฆํ๋ค.
- ๊ธด ๋ณ๋ค์ ๋น์จ์ ๋ง๊ฒ ์๋ ์กฐ์ ํ๊ณ , ์ข ํก๋น (aspect ratio)๋ ์ ์ง์ํจ๋ค.
- ํฌ๊ธฐ๊ฐ ์กฐ์ ๋ ์ด๋ฏธ์ง๋ค์, ZF์ VGG net์์ ๋ง์ง๋ง Conv ๊ณ์ธต์ 16 ํฝ์
์ ๊ฐ์ง๊ณ ์์ผ๋ฉฐ, Stride๋ฅผ 16์ผ๋ก ์ค์ ํด๋ ์ถฉ๋ถํ ์ข์ ๊ฒฐ๊ณผ๊ฐ ๋์๋ค.
- ZF - net, VGG - net
- ๋ํ์ ์ธ CNN ๋ฐฑ๋ณธ
- Stride
- CNN์์ ํํฐ๊ฐ ํ ๋ฒ์ ์ผ๋ง๋ ๊ฑด๋๋ฐ๋ฉด์ ์ด๋ํ๋์ง ๋ํ๋ด๋ ๊ฐ
- ZF - net, VGG - net
- Anchors
- 3๊ฐ์ ์ค์ผ์ผ๊ณผ 3๊ฐ์ ์ข ํก๋น์ ์ฌ์ฉํ๋ค. (128^2, 256^2, 512^2), (1:1, 1:2, 2:1)
- ํด๋น ๋ ผ๋ฌธ์์์ ๋ฐฉ์์ image pyramid๋ filter pyramid๋ฅผ ์ฌ์ฉํ์ง ์๋๋ค.
์ด๋ฏธ์ง์ ๊ฒฝ๊ณ๋ฅผ ๋๋๋๋ anchor box๋ค์ ๋ํด
- ํ์ต์์๋ ์ด๋ฏธ์ง์ ๊ฒฝ๊ณ๋ฅผ ๋๋๋๋ anchor box๋ค์ ๋ฌด์ํ๋ค.
- ์์ค์ ๊ธฐ์ฌํ ์ ์๊ธฐ ๋๋ฌธ!
- 1000 x 600์ ์ ํ์ ์ธ ์ด๋ฏธ์ง๋ ์ฝ 20000๊ฐ์ anchor๋ค์ ๊ฐ์ง ์ ์๋ค.
- ํ์ง๋ง ๋ง์ฝ ์ด๋ฏธ์ง์ ๊ฒฝ๊ณ๋ฅผ ๋๋๋๋ anchor box๋ค์ ์ ๊ฑฐํ๋ค๋ฉด, 6000๊ฐ์ anchor๋ค๋ง์ด ๋จ๋๋ค. (ํ๋์ ์ด๋ฏธ์ง๋น)
- ๋ช ๊ฐ์ RPN proposal๋ค์ overlap๋๋ ๊ฒฝ์ฐ๋ ์๋ค.
- ์ค๋ณต์ฑ์ ์ค์ด๊ธฐ ์ํด์, ํด๋น ๋ ผ๋ฌธ์์๋ non-maximum suppression ๋ฐฉ์์ proposal regions์ cls(๊ฐ anchor๊ฐ ๊ฐ์ฒด์ธ์ง ์๋์ง) ์ ์์ ๋์ ํ๋ค.
4 Experiments
4.1 Experiments on PASCAL VOC
- Faster R-CNN ๋ฐฉ์์ PASCAL VOC 2007 ํ์ง ๋ฒค์น๋งํฌ๋ฅผ ํตํด ํ๊ฐํ์๋ค.
- ํด๋น ๋ฐ์ดํฐ์ ์ ์ฝ 5์ฒ๊ฐ์ ํ์ต/๊ฒ์ฆ ์ด๋ฏธ์ง์, 5์ฒ๊ฐ์ ํ ์คํธ ์ด๋ฏธ์ง๋ค๋ก ๊ตฌ์ฑ๋๋ค. (20๊ฐ ์ด์์ ๊ฐ์ฒด ์นดํ ๊ณ ๋ฆฌ๋ฅผ ๊ฐ์ง)
ImageNet pre-trained network
- ZF net
- โfastโ version ์ฌ์ฉ
- 5 convolutional layers
- 3 fully-connected layers
- VGG-16 model
- 13 convolutional layers
- 3 fully-connected layers
โ mAP(mean Average Precision) ์ ์ฌ์ฉ (๊ฐ์ฒด ํ์ง์์ ํ์ค์ผ๋ก ์ฌ์ฉ๋๋ ์ต์ข ์ฑ๋ฅ ์งํ)
mAP (mean Average Precision)
ํด๋์ค๋ณ Average Precision์ ๊ณ์ฐ, ์ด๋ฅผ ๋ชจ๋ ํด๋์ค์ ๋ํด ํ๊ท ๋ธ ๊ฐ
- ์์ ํ ์ด๋ธ์์๋ Fast R-CNN์ด ๋ค์ํ region proposal methods๋ฅผ ํตํด ํ์ต๋๊ณ ํ๊ฐ๋ ๊ฒฐ๊ณผ๋ฅผ ๋ณด์ฌ์ค๋ค.
- ํ ์ด๋ธ์ ์ดํด๋ณด๋ฉด, SS (Selective Search)๋ ์ฝ 58.7%์ mAP๋ฅผ ๊ธฐ๋กํ๋ฉฐ, RPN with Fast R-CNN์ 59.9%์ ์ฑ๋ฅ์ ๋ณด์ด๊ณ ์๋ค.
- RPN์ ์ฌ์ฉํ๋ ๊ฒ์ด SS ํน์ EB๋ฅผ ์ฌ์ฉํ๋ ๊ฒ๋ณด๋ค ํจ์ฌ ๋ ๋น ๋ฅด๋ฉฐ, ๊ทธ ์ด์ ๋ convolutional ๊ณ์ฐ์ ๊ณต์ ํ๊ธฐ ๋๋ฌธ์ด๋ค.
Ablation Experiments on RPN
RPN์ proposal method๋ก ์ฌ์ฉํ์์๋ ์ฐจ์ด๋ฅผ ๋ณด๊ธฐ ์ํด์๋, ๋ค์ํ ablation study๋ฅผ ์งํํ์๋ค.
Ablation Study?
โ Ablation Study๋ ๋ชจ๋ธ์ ์ฑ๋ฅ์ ๊ฐ์ฅ ํฐ ์ํฅ์ ๋ฏธ์น๋ ์์๋ฅผ ์ฐพ๊ธฐ ์ํด ๋ชจ๋ธ์ ๊ตฌ์ฑ์์ ๋ฐ feature๋ค์ ๋จ๊ณ์ ์ผ๋ก ์ ๊ฑฐ ํ๊ฑฐ๋ ๋ณ๊ฒฝํด๊ฐ๋ฉฐ ์ฑ๋ฅ์ ๋ณํ๋ฅผ ๊ด์ฐฐํ๋ ๋ฐฉ๋ฒ
- RPN๊ณผ Fast R-CNN ๊ฐ์ง ๋คํธ์ํฌ๊ฐ convolutional layer๋ฅผ ๊ณต์ ํ ๋์ ์ํฅ
- 4-step ํ์ต ๊ณผ์ ์์ 2๋ฒ์งธ ๋จ๊ณ ์ดํ์ ํ์ต์ ๋ฉ์ถ๋ค.
- ๋ถ๋ฆฌ๋ ๋คํธ์ํฌ๋ฅผ ์ฌ์ฉํ๋ฉด, ๊ฒฐ๊ณผ๊ฐ 58.7%๋ก ์กฐ๊ธ ๊ฐ์ํ๋ค.
โ ๊ด์ฐฐ ๊ฒฐ๊ณผ 3๋ฒ์งธ ๋จ๊ณ์์ dector์ ์ํด tuning๋ ํผ์ฒ๋ค์ด RPN์ ๋ฏธ์ธ์กฐ์ ํ๊ธฐ ์ํด ์ฌ์ฉ๋ ๋ ์ฑ๋ฅ์ด ์ค๋ฅธ๋ค๋ ๊ฒ์ ์๊ฒ๋์๋ค.
- Fast R-CNN ํ์ง ๋คํธ์ํฌ์์ RPN์ ์ํฅ์ ํ์ด๋ณด์๋ค.
- ํด๋น ๊ณผ์ ์ ์๋๋ Fast R-CNN ๋ชจ๋ธ์ 2000 SS proposals ์ ZF net์ ์ด์ฉํ์ฌ ํ์ต์์ผฐ๋ค.
- ํด๋น ํ์ง๊ธฐ๋ฅผ ๊ณ ์น๊ณ , proposal regions๋ฅผ ๋ฐ๊พธ๋ฉฐ mAP๋ฅผ ํตํด ํ๊ฐํ์๋ค.
- ํด๋น ablation ๊ณผ์ ์์๋, RPN์ด detector์ features์ ๊ณต์ ํ์ง ์๋๋ค. - Selective Search๋ฅผ 300 RPN Proposals๋ก ๋์ฒดํ์์๋, mAP๊ฐ 56.8%๊ฐ ๋์์ผ๋ฉฐ, mAP๊ฐ ์ค์ด๋ ์ด์ ๋ training/testing proposal์ ๋ถ์ผ์น ๋๋ฌธ์ด์๋ค. - RPN์ ์ฌ์ ํ ๊ฒฝ์์ ์ธ ๊ฒฐ๊ณผ (55.1%)๋ฅผ top-ranked 100proposals๋ฅผ ์ฌ์ฉํ์์๋ ๋ณด์ด๊ณ ์์ผ๋ฉฐ, ์ด๋ top-ranked RPN proposals๊ฐ ์ ํํ๋ค๋ ๊ฒ์ ์๋ฏธํ๋ค.
CLS ์ถ๋ ฅ ์ญํ ๋ถ์
cls layer ์ ๊ฑฐ = proposal ์ ์ ์์
โ NMS (non-max suppression)์ด๋ ranking ๋ถ๊ฐ
๊ฒฐ๊ณผ :
- N=1000 โ mAP ๊ฑฐ์ ๋์ผ (55.8%)
- ์์ ์ ์ ์๊ฐ ๋ง์ผ๋ฉด ranking์ด ํฌ๊ฒ ํ์ํ์ง ์๋ค.
- N=100 โ mAP ๊ธ๋ฝ (44,6%)
- ์ ์ ์์ ์ ์์ ์ธ ๊ฒฝ์ฐ, cls ์ ์ ๊ธฐ๋ฐ ranking์ด ์ ํ๋ ์ ์ง์ ์ค์
โ cls score๋ โ์์ ์์ proposalโ์ ์ ํ๋์ ํฐ ์ํฅ์ ๋ฏธ์น๋ค.
reg ์ถ๋ ฅ ์ญํ ๋ถ์
- reg layer ์ ๊ฑฐ = anchor box ๊ทธ๋๋ก ์ฌ์ฉ
๊ฒฐ๊ณผ :
- mAP 55.8% โ 52.1% ํ๋ฝ
- ์ฌ๋ฌ scale/aspect ratio์ anchor box๋ง์ผ๋ก๋ ์ ํ๋ ๋ถ์กฑ
- bbox regression์ด ์์น ๋ณด์ ์ ํ์
โ reg๋ ์ ์ ์์ญ์ ์ ๋ฐ๋๋ฅผ ๋์ด๋ ํต์ฌ
๋ฐฑ๋ณธ (Backbone) ๋ณ๊ฒฝ ํจ๊ณผ
- ZF-net ์ฌ์ฉ โ mAP = 56.8%
- VGG-16 ์ฌ์ฉ โ mAP=59.2%
- Detector๋ ๋์ผํ๊ฒ SS(Selective Search) + ZF ์ฌ์ฉ
๊ฒฐ๊ณผ:
- ๋ฐฑ๋ณธ์ด ๋ ๊ฐ๋ ฅํด์ง์๋ก RPN ์ ์ ํ์ง๋ ํฅ์
- RPN+ZF๊ฐ ์ด๋ฏธ SS์ ๋น์ทํ ์ฑ๋ฅ
โ RPN+VGG๋ SS๋ณด๋ค ๋ ์ข์ ๊ฐ๋ฅ์ฑ์ด ๋์
Perfomance of VGG-16
Table 3๋ VGG-16์ proposal, detection์ ๊ฒฐ๊ณผ๋ฅผ ๋ชจ๋ ๋ณด์ฌ์ค๋ค.
- RPN+VGG๋ฅผ ์ฌ์ฉํ์์๋, feature ๋ฅผ ์๋ก ๊ณต์ ํ์ง ์๊ณ ๋ 68.5%์ mAP๋ฅผ ๊ธฐ๋กํ๊ณ , SS baseline๋ณด๋ค ์ฝ๊ฐ ๋ ๋์๋ค.
- feature-shared (feature๋ฅผ ์๋ก ๊ณต์ )ํ์ ๊ฒฝ์ฐ์, ๊ฒฐ๊ณผ๊ฐ 69.9%์๋ค.
- PASCAL VOC 2007, 2012 ๋ฐ์ดํฐ ์ ์ผ๋ก ๋ RPN๊ณผ Detection Network๋ฅผ ๋ ํ์ต์์ผฐ์ ๋, mAP๋ 73.2%์๋ค.
- Table 4 ์์๋ PASCAL VOC 2012 test set์ ๋ํ ์ฑ๋ฅ์ ๋ณด์ด๊ณ ์์ผ๋ฉฐ, Table 6,7์์๋ ์์ธํ ๋ด์ฉ์ ๋ด๊ณ ์๋ค.
Table 5
- ์คํ์๋ ๋น๊ต
- Selective Search(SS): 1~2์ด (๋งค์ฐ ๋๋ฆผ)
- Fast R-CNN + VGG-16 :
- SS proposals 2000๊ฐ ์ฌ์ฉ ์ : 320ms
- SVD ์ต์ ํ ์ ์ฉ ์ : 223ms
- Faster R-CNN (RPN+VGG-16)
- ์ ์ฒด : 198ms
- Conv feature ๊ณต์ ๋๋ถ์ RPN ์์ฒด๋ 10ms๋ง ์์
- ZF-Net backbone
- 17fps ์๋ ๋ฌ์ฑ
โ feature ๊ณต์ ์ proposal ์ ์ถ์ ๋๋ถ์ SS ๊ธฐ๋ฐ ๋๋น ํฐ ์๋ ํฅ์
Anchor ์ค์ ์คํ (Table 8)
- ๊ธฐ๋ณธ๊ฐ : 3 scales x 3 aspect ratios โ mAP = 69.9%
- ์ต์ปค 1๊ฐ๋ง ์ฌ์ฉ : mAP 3~4% ํ๋ฝ
- 3 scales + 1 aspect ratio : 69.8% (๊ฑฐ์ ๋์ผ)
- 1 sclale + 3 aspect ratios : mAP ์์น (1 anchor ๋๋น)
โ scale, aspect ratio ๋ชจ๋ ๋ค์ํ๊ฒ ์ฌ์ฉํ๋ ๊ฒ์ด ์ข๋ค.
ฮป ๊ฐ ์ํฅย (Table 9)
- ๊ธฐ๋ณธ๊ฐ ฮป =10 โ cls term๊ณผ reg termdl ์ ๊ทํ ํ ๋น์ทํ ํฌ๊ธฐ
- ฮป์ ๋ฒ์๋ฅผ 1~100๊น์ง ๋ณ๊ฒฝ โ ์ฑ๋ฅ ๋ณํ ์ฝ 1% ์์ค
โ ฮป ๊ฐ์ ๊ด๋ฒ์ํ๊ฒ ๋ฌ๋ ์ฑ๋ฅ์ ๋ฏผ๊ฐ Xย ย
Recall-to-IoU ๋ถ์
- Recall-to-IoU metric
- ํน์ IoU ๊ธฐ์ค ์ด์์์ ์ ์์ด ์ ๋ต ๋ฐ์ค๋ฅผ ์ผ๋ง๋ ๋ง์ด ์ปค๋ฒํ๋์ง?
- ํด๋น ์งํ๋ ์ต์ข mAP์ ์ฝํ ์๊ด๊ด๊ณ๋ง ์์ โ proposal ํ์ง ์ง๋จ์ฉ
- ์คํ ๊ฒฐ๊ณผ (Figure 4)
- ๋น๊ต ๋์ : RPN, SS, Edgeboxes(EB)
- proposal๊ฐ์๋ฅผ 2000 โ 1000 โ 300์ผ๋ก ์ค์์ ๋
โ RPN์ proposal ์๊ฐ ์ ์ด๋ recall์ด ์์ ์ โ ํจ์จ์
One-stage vs Two-stage
- One-stage (OverFeat ์คํ์ผ):
- class-specific detection์ ํ ๋ฒ์ ์ํ (sliding window ๊ธฐ๋ฐ)
- ํ ๋จ๊ณ์์ ์์น + ํด๋์ค ์์ธก ๋์์
- ์คํ ์ธํ
:
- Dense sliding window (3 scales ร 3 aspect ratios)
- Fast R-CNN์ด ์ง์ ํด๋์ค ์ ์์ bbox regression
- 5-scale image pyramid ๋ฒ์ ๋ ํ ์คํธ
- Two-stage (Faster R-CNN):
- Stage 1: class-agnostic RPN โ proposal ์์ฑ
- Stage 2: Fast R-CNN์ด proposal ๊ธฐ๋ฐ์ผ๋ก ํด๋์ค + bbox ์์ธก
- RoI Pooling์ผ๋ก proposal ์์น์ ๋ง๊ฒ feature๋ฅผ ์ ์ถ์ถ
๊ฒฐ๊ณผ (Table 10, ZF backbone):
- One-stage: mAP = 53.9%
- Two-stage: mAP = 58.7% (+4.8% ํฅ์)
- ์๋: one-stage๊ฐ proposal ์๊ฐ ๋ง์์ ์คํ๋ ค ๋๋ฆผ
- ๊ธฐ์กด ์ฐ๊ตฌ([2], [39])์์๋ SS ๋์ sliding window ์ฐ๋ฉด ์ฝ -6% ์ฑ๋ฅ ํ๋ฝ ๋ณด๊ณ ๋จ
โ two-stage ๊ตฌ์กฐ (proposal โ ์ ๋ฐ ๋ถ๋ฅ/๋ณด์ )๊ฐ sliding window ๊ธฐ๋ฐ one-stage๋ณด๋ค ์ ํํ๊ณ ํจ์จ์
MS-COCO ๋ฐ์ดํฐ์ ์ฌ์ฉ
๋ฐ์ดํฐ์ ๊ตฌ์ฑ
- MS COCO : 80๊ฐ ๊ฐ์ฒด ์นดํ ๊ณ ๋ฆฌ
- ์ฌ์ฉ๋ฐ์ดํฐ
- Train : 80k ์ด๋ฏธ์ง
- val : 40k ์ด๋ฏธ์ง
- Test-dev : 20k ์ด๋ฏธ์ง
- ํ๊ฐ์งํ : mAP
๊ฒฐ๊ณผ (Table 11)
mAP@0.5 vs mAP@[.5,.95]
| mAP@0.5 | mAP@[.5,.95] |
|---|---|
| IoU ์๊ณ๊ฐ =0.5 | IoU์๊ณ๊ฐ์ 0.5 ~ 0.95๊น์ง 0.05 ๊ฐ๊ฒฉ์ผ๋ก ๋ณํ์ํค๋ฉฐ ํ๊ท |
| PASCAL VOC์์ ์ฌ์ฉํ๋ ์ ํต์ ์ธ ๋ฐฉ์ | COCO ํ์ค ํ๊ฐ ๋ฐฉ์ |
- Fast R-CNN baseline
- mAP@.5 = 39.3%
- mAP@[.5,.95] = 19.3% (๊ธฐ์กด์ Fast R-CNN๊ณผ ์ ์ฌ)
- Faster R-CNN (Train set ํ์ต)
- mAP@0.5 = 42.1%
- mAP@[.5,.95] = 21.5%
- Faster R-CNN (train+val set ํ์ต)
- mAP@0.5 = 42.7%
- mAP@[.5,.95] = 21.9%
๐ ํต์ฌ ์์ฝ
- COCO ์คํ์์ ์ต์ปค scale ํ๋์ negative sample ๋ฒ์ ํ์ฅ์ผ๋ก ์ฑ๋ฅ ํฅ์
- Faster R-CNN์ Fast R-CNN ๋๋น mAP@0.5์์ +2.8%, mAP@[.5, .95]์์ +2.2% ๊ฐ์
- RPN์ ํนํ ๋์ IoU ๊ธฐ์ค์ localization ์ ํ๋ ๊ฐ์ ์ ํจ๊ณผ์
๋ง์ฝ Faster R-CNN์ ๋ฐฑ๋ณธ์ด ๊ฐ๋ ฅํ ๋คํธ์ํฌ๋ก ๊ต์ฒด๋๋ค๋ฉด?
์ฑ๋ฅ ๋น๊ต (VGG-16 โ ResNet-101)
- ๋ฐ์ดํฐ์ : MS COCO val set
| ๋ฐฑ๋ณธ | ์ฑ๋ฅ (mAP@0.5) | ์ฑ๋ฅ (mAP@[.5,.95]) |
|---|---|---|
| VGG-15 | 41.5% | 48.4% |
| ResNet-101 | 21.2% | 27.2% |
COCO ๋ฐ์ดํฐ๋ก ํ์ตํ ๋ชจ๋ธ์ PASCAL VOC ์ฑ๋ฅ์ ๋ฏธ์น๋ ์ํฅ
๋ฐฐ๊ฒฝ
- MS COCO๋ PASCAL VOC ๋ณด๋ค ํจ์ฌ ํฌ๊ณ , ํด๋์ค ์๋ ๋ง๋ค.
- COCO์ ์นดํ ๊ณ ๋ฆฌ๋ VOC์ ์นดํ ๊ณ ๋ฆฌ๋ฅผ ํฌํจํ๋ Superset
โ COCO ๋ชจ๋ธ์ VOC์ ์ง์ ์ ์ฉ ๊ฐ๋ฅ
์คํ 1 : COCO ๋ชจ๋ธ โ VOC ์ง์ ํ๊ฐ (Fine-Tuning X)
- ๊ฒฐ๊ณผ : VOC 2007 test mAP = 76.1%
- ๋น๊ต : VOC 07 + 12 ๋ฐ์ดํฐ๋ก๋ง ํ์ต : 73.2%
โ VOC ๋ฐ์ดํฐ๋ฅผ ์ ํ ์ฐ์ง ์์๋, COCO๋ก๋ง ํ์ตํ ๋ชจ๋ธ์ด VOC ๋ฐ์ดํฐ๋ก ํ์ตํ ๋ชจ๋ธ๋ณด๋ค ์ฑ๋ฅ์ด ๋๋ค
์คํ 2. COCO ๋ชจ๋ธ์ VOC์ Fine-Tuning
- COCO ๋ชจ๋ธ์ ImageNet-pretrained ๋ชจ๋ธ ๋์ ์ด๊ธฐ ๊ฐ์ค์น๋ก ์ฌ์ฉ
- VOC ๋ฐ์ดํฐ๋ก Fine-Tuning ์งํ (Faster R-CNN ๋ฐฉ์)
- ๊ฒฐ๊ณผ : VOC 2007 test mAP = 78.8%
5 Conclusion
- ํด๋น ๋ ผ๋ฌธ์์๋ RPN๋ฅผ ํตํด ํจ์จ์ ์ด๊ณ ์ ํํ ์ง์ญ ์ ์์ ์ ์ํ๊ณ ์๋ค.
- Convolution Features์ ๊ณต์ ํจ์ผ๋ก์จ, ์ง์ญ ์ ์์ ํ๋ ๋จ๊ณ์์์ ๋น์ฉ์ ์ ๊ฐํ ์ ์๋ค.
- ๋ ผ๋ฌธ์์์ ๋ฐฉ์์ ๋ฅ๋ฌ๋ ๊ธฐ๋ฐ์ ๊ฐ์ฒด ํ์ง ์์คํ ์ผ๋ก์จ, near-real-time ํ์ง๊ฐ ๊ฐ๋ฅํ๋ค.



















