通常のテンプレートマッチング(OpenCVのcv2.matchTemplate
)は、単純な相関計算ですが、
ディープラーニングを使う場合、特徴抽出(CNNなど)+ 類似度計算(コサイン類似度や距離計算) を組み合わせる方法が一般的です。
以下のスクリプトでは、畳み込みニューラルネットワーク(CNN) の特徴量を使い、
テンプレート画像と入力画像の類似度を計算する方法を実装しています。
概要
- 使用モデル:
ResNet18 (pretrained=True)
(事前学習済みのResNet18を使用)
- 手法
- テンプレート画像と入力画像の特徴量をCNNで抽出
- コサイン類似度を計算
- 類似度の高い部分をマッチング結果として出力
- 必要ライブラリ
torch
, torchvision
opencv-python
numpy
import cv2
import torch
import numpy as np
import torch.nn.functional as F
from torchvision import models, transforms
from PIL import Image
# 画像前処理関数 (ResNet用)
def preprocess_image(img, size=224):
transform = transforms.Compose([
transforms.ToPILImage(),
transforms.Resize((size, size)),
transforms.ToTensor(),
transforms.Normalize(mean=[0.485, 0.456, 0.406], std=[0.229, 0.224, 0.225])
])
return transform(img).unsqueeze(0)
# CNNモデル (ResNet18の特徴抽出層)
class FeatureExtractor(torch.nn.Module):
def __init__(self):
super().__init__()
model = models.resnet18(pretrained=True)
self.feature_extractor = torch.nn.Sequential(*list(model.children())[:-2]) # 最終層を除去
self.feature_extractor.eval()
def forward(self, x):
with torch.no_grad():
features = self.feature_extractor(x)
return features
# コサイン類似度を計算
def cosine_similarity(tensor1, tensor2):
tensor1 = tensor1.view(1, -1)
tensor2 = tensor2.view(1, -1)
return F.cosine_similarity(tensor1, tensor2).item()
# テンプレートマッチング関数
def deep_template_matching(input_path, template_path):
# 画像の読み込み
input_img = cv2.imread(input_path)
template_img = cv2.imread(template_path)
# グレースケール変換
input_gray = cv2.cvtColor(input_img, cv2.COLOR_BGR2GRAY)
template_gray = cv2.cvtColor(template_img, cv2.COLOR_BGR2GRAY)
# 特徴抽出
extractor = FeatureExtractor()
input_tensor = preprocess_image(input_gray)
template_tensor = preprocess_image(template_gray)
input_features = extractor(input_tensor)
template_features = extractor(template_tensor)
# 類似度計算
similarity = cosine_similarity(input_features, template_features)
print(f"テンプレートとの類似度: {similarity:.4f}")
# OpenCVで通常のマッチングも試す
res = cv2.matchTemplate(input_gray, template_gray, cv2.TM_CCOEFF_NORMED)
_, max_val, _, max_loc = cv2.minMaxLoc(res)
# 結果表示
h, w = template_gray.shape
result_img = input_img.copy()
cv2.rectangle(result_img, max_loc, (max_loc[0] + w, max_loc[1] + h), (0, 0, 255), 2)
cv2.imshow("Matching Result", result_img)
cv2.waitKey(0)
cv2.destroyAllWindows()
return max_loc, similarity
# 使用例
input_image_path = "input.jpg"
template_image_path = "template.jpg"
location, sim = deep_template_matching(input_image_path, template_image_path)
print(f"最大類似度位置: {location}, 類似度スコア: {sim:.4f}")
説明
- ResNet18を特徴抽出器として使用
- 最終層(分類層)を取り除き、CNNの畳み込み層の出力を利用。
- これにより、テンプレートと入力画像の高レベルな特徴を抽出。
- テンプレートと入力画像の類似度を計算
F.cosine_similarity()
を用いてコサイン類似度を計算。
- 値が 1.0 に近いほど類似 している。
- OpenCVの通常のテンプレートマッチング(参考)
cv2.matchTemplate()
も実行し、どの位置に類似したパターンがあるか を確認。
動物の動きを追跡するために、回転角度(θ) と 位置座標((x, y)) を出力するようにスクリプトを改良します。
物体のサイズは一定であり、1個の物を追跡する前提です。
改良ポイント
- 回転(角度θ)の検出
ORB(Oriented FAST and Rotated BRIEF)
特徴点を用いて、テンプレートと入力画像の相対的な回転を求める。
cv2.estimateAffinePartial2D()
を使用し、テンプレートの回転角度を算出。
- 位置(座標)を特定
cv2.matchTemplate()
を使用し、最も類似する位置を検出。
cv2.minMaxLoc()
で最適な座標 (x, y)
を取得。
- 出力
import cv2
import numpy as np
import torch
import torch.nn.functional as F
from torchvision import models, transforms
from PIL import Image
# 画像前処理関数 (ResNet用)
def preprocess_image(img, size=224):
transform = transforms.Compose([
transforms.ToPILImage(),
transforms.Resize((size, size)),
transforms.ToTensor(),
transforms.Normalize(mean=[0.485, 0.456, 0.406], std=[0.229, 0.224, 0.225])
])
return transform(img).unsqueeze(0)
# CNNモデル (ResNet18の特徴抽出層)
class FeatureExtractor(torch.nn.Module):
def __init__(self):
super().__init__()
model = models.resnet18(pretrained=True)
self.feature_extractor = torch.nn.Sequential(*list(model.children())[:-2]) # 最終層を除去
self.feature_extractor.eval()
def forward(self, x):
with torch.no_grad():
features = self.feature_extractor(x)
return features
# コサイン類似度を計算
def cosine_similarity(tensor1, tensor2):
tensor1 = tensor1.view(1, -1)
tensor2 = tensor2.view(1, -1)
return F.cosine_similarity(tensor1, tensor2).item()
# ORBを使って回転角度を推定
def estimate_rotation(template_img, input_img):
orb = cv2.ORB_create()
# 特徴点とディスクリプタを検出
kp1, des1 = orb.detectAndCompute(template_img, None)
kp2, des2 = orb.detectAndCompute(input_img, None)
if des1 is None or des2 is None:
print("特徴点が見つかりませんでした。")
return 0 # 回転なしとする
# 特徴点マッチング
bf = cv2.BFMatcher(cv2.NORM_HAMMING, crossCheck=True)
matches = bf.match(des1, des2)
matches = sorted(matches, key=lambda x: x.distance)
if len(matches) < 4:
print("マッチングする特徴点が少なすぎます。")
return 0
# マッチした点を取得
src_pts = np.float32([kp1[m.queryIdx].pt for m in matches]).reshape(-1, 1, 2)
dst_pts = np.float32([kp2[m.trainIdx].pt for m in matches]).reshape(-1, 1, 2)
# アフィン変換行列を推定
matrix, _ = cv2.estimateAffinePartial2D(src_pts, dst_pts)
if matrix is None:
print("アフィン変換が推定できませんでした。")
return 0
# 回転角度を計算
angle = np.arctan2(matrix[1, 0], matrix[0, 0]) * (180 / np.pi)
return angle
# テンプレートマッチング関数
def deep_template_matching(input_path, template_path):
# 画像の読み込み
input_img = cv2.imread(input_path)
template_img = cv2.imread(template_path)
# グレースケール変換
input_gray = cv2.cvtColor(input_img, cv2.COLOR_BGR2GRAY)
template_gray = cv2.cvtColor(template_img, cv2.COLOR_BGR2GRAY)
# 特徴抽出(CNN)
extractor = FeatureExtractor()
input_tensor = preprocess_image(input_gray)
template_tensor = preprocess_image(template_gray)
input_features = extractor(input_tensor)
template_features = extractor(template_tensor)
# 類似度計算
similarity = cosine_similarity(input_features, template_features)
print(f"テンプレートとの類似度: {similarity:.4f}")
# OpenCVで通常のテンプレートマッチング
res = cv2.matchTemplate(input_gray, template_gray, cv2.TM_CCOEFF_NORMED)
_, max_val, _, max_loc = cv2.minMaxLoc(res)
# 回転角度を推定
angle = estimate_rotation(template_gray, input_gray)
# 結果表示
h, w = template_gray.shape
result_img = input_img.copy()
cv2.rectangle(result_img, max_loc, (max_loc[0] + w, max_loc[1] + h), (0, 0, 255), 2)
cv2.putText(result_img, f"Angle: {angle:.2f} deg", (max_loc[0], max_loc[1] - 10),
cv2.FONT_HERSHEY_SIMPLEX, 0.6, (0, 255, 0), 2)
cv2.imshow("Matching Result", result_img)
cv2.waitKey(0)
cv2.destroyAllWindows()
return max_loc, angle, similarity
# 使用例
input_image_path = "input.jpg"
template_image_path = "template.jpg"
location, angle, sim = deep_template_matching(input_image_path, template_image_path)
print(f"最大類似度位置: {location}, 回転角度: {angle:.2f} 度, 類似度スコア: {sim:.4f}")
改良点
- 回転角度(θ)を算出
- ORB (Oriented FAST and Rotated BRIEF) を使用し、テンプレートと入力画像の特徴点の相対角度 を計算。
cv2.estimateAffinePartial2D()
を利用し、アフィン変換行列から回転成分を抽出。
- 位置((x, y))を出力
cv2.matchTemplate()
で最もマッチする位置 (x, y)
を取得。
- 類似度スコア(テンプレートとの一致度)
- CNN(ResNet18)で特徴を抽出し、コサイン類似度を計算。
出力例
テンプレートとの類似度: 0.9234
最大類似度位置: (120, 80)
回転角度: 15.2 度
応用
まとめ
✅ 座標 (x, y) + 回転角度 (θ) を出力
✅ ディープラーニング(CNN)とORB特徴点を併用
✅ 動物1匹の追跡に最適化
このスクリプトで、動物の位置と回転を検出できます