深層学習を用いたテンプレートマッチング pythonプログラム

通常のテンプレートマッチング(OpenCVのcv2.matchTemplate)は、単純な相関計算ですが、
ディープラーニングを使う場合、特徴抽出(CNNなど)+ 類似度計算(コサイン類似度や距離計算) を組み合わせる方法が一般的です。

以下のスクリプトでは、畳み込みニューラルネットワーク(CNN) の特徴量を使い、
テンプレート画像と入力画像の類似度を計算する方法を実装しています。


概要

  • 使用モデル: ResNet18 (pretrained=True)(事前学習済みのResNet18を使用)
  • 手法
    1. テンプレート画像と入力画像の特徴量をCNNで抽出
    2. コサイン類似度を計算
    3. 類似度の高い部分をマッチング結果として出力
  • 必要ライブラリ
    • torch, torchvision
    • opencv-python
    • numpy
import cv2
import torch
import numpy as np
import torch.nn.functional as F
from torchvision import models, transforms
from PIL import Image

# 画像前処理関数 (ResNet用)
def preprocess_image(img, size=224):
    transform = transforms.Compose([
        transforms.ToPILImage(),
        transforms.Resize((size, size)),
        transforms.ToTensor(),
        transforms.Normalize(mean=[0.485, 0.456, 0.406], std=[0.229, 0.224, 0.225])
    ])
    return transform(img).unsqueeze(0)

# CNNモデル (ResNet18の特徴抽出層)
class FeatureExtractor(torch.nn.Module):
    def __init__(self):
        super().__init__()
        model = models.resnet18(pretrained=True)
        self.feature_extractor = torch.nn.Sequential(*list(model.children())[:-2])  # 最終層を除去
        self.feature_extractor.eval()

    def forward(self, x):
        with torch.no_grad():
            features = self.feature_extractor(x)
        return features

# コサイン類似度を計算
def cosine_similarity(tensor1, tensor2):
    tensor1 = tensor1.view(1, -1)
    tensor2 = tensor2.view(1, -1)
    return F.cosine_similarity(tensor1, tensor2).item()

# テンプレートマッチング関数
def deep_template_matching(input_path, template_path):
    # 画像の読み込み
    input_img = cv2.imread(input_path)
    template_img = cv2.imread(template_path)
    
    # グレースケール変換
    input_gray = cv2.cvtColor(input_img, cv2.COLOR_BGR2GRAY)
    template_gray = cv2.cvtColor(template_img, cv2.COLOR_BGR2GRAY)

    # 特徴抽出
    extractor = FeatureExtractor()
    input_tensor = preprocess_image(input_gray)
    template_tensor = preprocess_image(template_gray)

    input_features = extractor(input_tensor)
    template_features = extractor(template_tensor)

    # 類似度計算
    similarity = cosine_similarity(input_features, template_features)
    print(f"テンプレートとの類似度: {similarity:.4f}")

    # OpenCVで通常のマッチングも試す
    res = cv2.matchTemplate(input_gray, template_gray, cv2.TM_CCOEFF_NORMED)
    _, max_val, _, max_loc = cv2.minMaxLoc(res)

    # 結果表示
    h, w = template_gray.shape
    result_img = input_img.copy()
    cv2.rectangle(result_img, max_loc, (max_loc[0] + w, max_loc[1] + h), (0, 0, 255), 2)
    
    cv2.imshow("Matching Result", result_img)
    cv2.waitKey(0)
    cv2.destroyAllWindows()

    return max_loc, similarity

# 使用例
input_image_path = "input.jpg"
template_image_path = "template.jpg"
location, sim = deep_template_matching(input_image_path, template_image_path)
print(f"最大類似度位置: {location}, 類似度スコア: {sim:.4f}")

説明

  1. ResNet18を特徴抽出器として使用
    • 最終層(分類層)を取り除き、CNNの畳み込み層の出力を利用。
    • これにより、テンプレートと入力画像の高レベルな特徴を抽出。
  2. テンプレートと入力画像の類似度を計算
    • F.cosine_similarity() を用いてコサイン類似度を計算。
    • 値が 1.0 に近いほど類似 している。
  3. OpenCVの通常のテンプレートマッチング(参考)
    • cv2.matchTemplate() も実行し、どの位置に類似したパターンがあるか を確認。

 

動物の動きを追跡するために、回転角度(θ)位置座標((x, y)) を出力するようにスクリプトを改良します。
物体のサイズは一定であり、1個の物を追跡する前提です。


改良ポイント

  1. 回転(角度θ)の検出
    • ORB(Oriented FAST and Rotated BRIEF) 特徴点を用いて、テンプレートと入力画像の相対的な回転を求める。
    • cv2.estimateAffinePartial2D() を使用し、テンプレートの回転角度を算出。
  2. 位置(座標)を特定
    • cv2.matchTemplate() を使用し、最も類似する位置を検出。
    • cv2.minMaxLoc() で最適な座標 (x, y) を取得。
  3. 出力
    • 座標 (x, y)
    • 回転角度 θ
import cv2
import numpy as np
import torch
import torch.nn.functional as F
from torchvision import models, transforms
from PIL import Image

# 画像前処理関数 (ResNet用)
def preprocess_image(img, size=224):
    transform = transforms.Compose([
        transforms.ToPILImage(),
        transforms.Resize((size, size)),
        transforms.ToTensor(),
        transforms.Normalize(mean=[0.485, 0.456, 0.406], std=[0.229, 0.224, 0.225])
    ])
    return transform(img).unsqueeze(0)

# CNNモデル (ResNet18の特徴抽出層)
class FeatureExtractor(torch.nn.Module):
    def __init__(self):
        super().__init__()
        model = models.resnet18(pretrained=True)
        self.feature_extractor = torch.nn.Sequential(*list(model.children())[:-2])  # 最終層を除去
        self.feature_extractor.eval()

    def forward(self, x):
        with torch.no_grad():
            features = self.feature_extractor(x)
        return features

# コサイン類似度を計算
def cosine_similarity(tensor1, tensor2):
    tensor1 = tensor1.view(1, -1)
    tensor2 = tensor2.view(1, -1)
    return F.cosine_similarity(tensor1, tensor2).item()

# ORBを使って回転角度を推定
def estimate_rotation(template_img, input_img):
    orb = cv2.ORB_create()

    # 特徴点とディスクリプタを検出
    kp1, des1 = orb.detectAndCompute(template_img, None)
    kp2, des2 = orb.detectAndCompute(input_img, None)

    if des1 is None or des2 is None:
        print("特徴点が見つかりませんでした。")
        return 0  # 回転なしとする

    # 特徴点マッチング
    bf = cv2.BFMatcher(cv2.NORM_HAMMING, crossCheck=True)
    matches = bf.match(des1, des2)
    matches = sorted(matches, key=lambda x: x.distance)

    if len(matches) < 4:
        print("マッチングする特徴点が少なすぎます。")
        return 0

    # マッチした点を取得
    src_pts = np.float32([kp1[m.queryIdx].pt for m in matches]).reshape(-1, 1, 2)
    dst_pts = np.float32([kp2[m.trainIdx].pt for m in matches]).reshape(-1, 1, 2)

    # アフィン変換行列を推定
    matrix, _ = cv2.estimateAffinePartial2D(src_pts, dst_pts)
    if matrix is None:
        print("アフィン変換が推定できませんでした。")
        return 0

    # 回転角度を計算
    angle = np.arctan2(matrix[1, 0], matrix[0, 0]) * (180 / np.pi)
    return angle

# テンプレートマッチング関数
def deep_template_matching(input_path, template_path):
    # 画像の読み込み
    input_img = cv2.imread(input_path)
    template_img = cv2.imread(template_path)

    # グレースケール変換
    input_gray = cv2.cvtColor(input_img, cv2.COLOR_BGR2GRAY)
    template_gray = cv2.cvtColor(template_img, cv2.COLOR_BGR2GRAY)

    # 特徴抽出(CNN)
    extractor = FeatureExtractor()
    input_tensor = preprocess_image(input_gray)
    template_tensor = preprocess_image(template_gray)

    input_features = extractor(input_tensor)
    template_features = extractor(template_tensor)

    # 類似度計算
    similarity = cosine_similarity(input_features, template_features)
    print(f"テンプレートとの類似度: {similarity:.4f}")

    # OpenCVで通常のテンプレートマッチング
    res = cv2.matchTemplate(input_gray, template_gray, cv2.TM_CCOEFF_NORMED)
    _, max_val, _, max_loc = cv2.minMaxLoc(res)

    # 回転角度を推定
    angle = estimate_rotation(template_gray, input_gray)

    # 結果表示
    h, w = template_gray.shape
    result_img = input_img.copy()
    cv2.rectangle(result_img, max_loc, (max_loc[0] + w, max_loc[1] + h), (0, 0, 255), 2)
    cv2.putText(result_img, f"Angle: {angle:.2f} deg", (max_loc[0], max_loc[1] - 10),
                cv2.FONT_HERSHEY_SIMPLEX, 0.6, (0, 255, 0), 2)

    cv2.imshow("Matching Result", result_img)
    cv2.waitKey(0)
    cv2.destroyAllWindows()

    return max_loc, angle, similarity

# 使用例
input_image_path = "input.jpg"
template_image_path = "template.jpg"
location, angle, sim = deep_template_matching(input_image_path, template_image_path)
print(f"最大類似度位置: {location}, 回転角度: {angle:.2f} 度, 類似度スコア: {sim:.4f}")

改良点

  1. 回転角度(θ)を算出
    • ORB (Oriented FAST and Rotated BRIEF) を使用し、テンプレートと入力画像の特徴点の相対角度 を計算。
    • cv2.estimateAffinePartial2D() を利用し、アフィン変換行列から回転成分を抽出。
  2. 位置((x, y))を出力
    • cv2.matchTemplate() で最もマッチする位置 (x, y) を取得。
  3. 類似度スコア(テンプレートとの一致度)
    • CNN(ResNet18)で特徴を抽出し、コサイン類似度を計算。

出力例

テンプレートとの類似度: 0.9234
最大類似度位置: (120, 80)
回転角度: 15.2 度

応用

  • 動物行動解析
    • 動物の移動パターン(座標)
    • 体の向き(回転角度)
  • ロボットビジョン
    • 回転や位置が変化する対象の追跡
  • スポーツ解析
    • プレイヤーの位置と姿勢の変化

まとめ

座標 (x, y) + 回転角度 (θ) を出力
ディープラーニング(CNN)とORB特徴点を併用
動物1匹の追跡に最適化

このスクリプトで、動物の位置と回転を検出できます