docs/doxygen/AMDGPUResourceUsageAnalysis_8cpp_source.html

//===- AMDGPUResourceUsageAnalysis.h ---- analysis of resources -----------===//

//

// Part of the LLVM Project, under the Apache License v2.0 with LLVM Exceptions.

// See https://llvm.org/LICENSE.txt for license information.

// SPDX-License-Identifier: Apache-2.0 WITH LLVM-exception

//

//===----------------------------------------------------------------------===//

//

/// \file

/// \brief Analyzes how many registers and other resources are used by

/// functions.

///

/// The results of this analysis are used to fill the register usage, flat

/// usage, etc. into hardware registers.

///

//===----------------------------------------------------------------------===//


#include "AMDGPUResourceUsageAnalysis.h"

#include "AMDGPU.h"

#include "GCNSubtarget.h"

#include "SIMachineFunctionInfo.h"

#include "llvm/CodeGen/MachineFrameInfo.h"

#include "llvm/CodeGen/MachineModuleInfo.h"

#include "llvm/CodeGen/TargetPassConfig.h"

#include "llvm/IR/GlobalValue.h"

#include "llvm/Target/TargetMachine.h"


using namespace llvm;

using namespace llvm::AMDGPU;


#define DEBUG_TYPE "amdgpu-resource-usage"


char llvm::AMDGPUResourceUsageAnalysisWrapperPass::ID = 0;

char &llvm::AMDGPUResourceUsageAnalysisID =

    AMDGPUResourceUsageAnalysisWrapperPass::ID;


// In code object v4 and older, we need to tell the runtime some amount ahead of

// time if we don't know the true stack size. Assume a smaller number if this is

// only due to dynamic / non-entry block allocas.

static cl::opt<uint32_t> clAssumedStackSizeForExternalCall(

    "amdgpu-assume-external-call-stack-size",

    cl::desc("Assumed stack use of any external call (in bytes)"), cl::Hidden,

    cl::init(16384));


static cl::opt<uint32_t> clAssumedStackSizeForDynamicSizeObjects(

    "amdgpu-assume-dynamic-stack-object-size",

    cl::desc("Assumed extra stack use if there are any "

             "variable sized objects (in bytes)"),

    cl::Hidden, cl::init(4096));


INITIALIZE_PASS(AMDGPUResourceUsageAnalysisWrapperPass, DEBUG_TYPE,

                "Function register usage analysis", true, true)


static const Function *getCalleeFunction(const MachineOperand &Op) {

  if (Op.isImm()) {

    assert(Op.getImm() == 0);

    return nullptr;

  }

  return cast<Function>(Op.getGlobal()->stripPointerCastsAndAliases());

}


static bool hasAnyNonFlatUseOfReg(const MachineRegisterInfo &MRI,

                                  const SIInstrInfo &TII, unsigned Reg) {

  for (const MachineOperand &UseOp : MRI.reg_operands(Reg)) {

    if (!UseOp.isImplicit() || !TII.isFLAT(*UseOp.getParent()))

      return true;

  }


  return false;

}


bool AMDGPUResourceUsageAnalysisWrapperPass::runOnMachineFunction(

    MachineFunction &MF) {

  auto *TPC = getAnalysisIfAvailable<TargetPassConfig>();

  if (!TPC)

    return false;


  const TargetMachine &TM = TPC->getTM<TargetMachine>();

  const MCSubtargetInfo &STI = *TM.getMCSubtargetInfo();


  // By default, for code object v5 and later, track only the minimum scratch

  // size

  uint32_t AssumedStackSizeForDynamicSizeObjects =

      clAssumedStackSizeForDynamicSizeObjects;

  uint32_t AssumedStackSizeForExternalCall = clAssumedStackSizeForExternalCall;

  if (AMDGPU::getAMDHSACodeObjectVersion(*MF.getFunction().getParent()) >=

          AMDGPU::AMDHSA_COV5 ||

      STI.getTargetTriple().getOS() == Triple::AMDPAL) {

    if (!clAssumedStackSizeForDynamicSizeObjects.getNumOccurrences())

      AssumedStackSizeForDynamicSizeObjects = 0;

    if (!clAssumedStackSizeForExternalCall.getNumOccurrences())

      AssumedStackSizeForExternalCall = 0;

  }


  ResourceInfo = AMDGPUResourceUsageAnalysisImpl().analyzeResourceUsage(

      MF, AssumedStackSizeForDynamicSizeObjects,

      AssumedStackSizeForExternalCall);


  return false;

}


AnalysisKey AMDGPUResourceUsageAnalysis::Key;

AMDGPUResourceUsageAnalysis::Result


AMDGPUResourceUsageAnalysis::run(MachineFunction &MF,

                                 MachineFunctionAnalysisManager &MFAM) {

  const MCSubtargetInfo &STI = *TM.getMCSubtargetInfo();


  // By default, for code object v5 and later, track only the minimum scratch

  // size

  uint32_t AssumedStackSizeForDynamicSizeObjects =

      clAssumedStackSizeForDynamicSizeObjects;

  uint32_t AssumedStackSizeForExternalCall = clAssumedStackSizeForExternalCall;

  if (AMDGPU::getAMDHSACodeObjectVersion(*MF.getFunction().getParent()) >=

          AMDGPU::AMDHSA_COV5 ||

      STI.getTargetTriple().getOS() == Triple::AMDPAL) {

    if (!clAssumedStackSizeForDynamicSizeObjects.getNumOccurrences())

      AssumedStackSizeForDynamicSizeObjects = 0;

    if (!clAssumedStackSizeForExternalCall.getNumOccurrences())

      AssumedStackSizeForExternalCall = 0;

  }


  return AMDGPUResourceUsageAnalysisImpl().analyzeResourceUsage(

      MF, AssumedStackSizeForDynamicSizeObjects,

      AssumedStackSizeForExternalCall);

}


AMDGPUResourceUsageAnalysisImpl::SIFunctionResourceInfo


AMDGPUResourceUsageAnalysisImpl::analyzeResourceUsage(

    const MachineFunction &MF, uint32_t AssumedStackSizeForDynamicSizeObjects,

    uint32_t AssumedStackSizeForExternalCall) const {

  SIFunctionResourceInfo Info;


  const SIMachineFunctionInfo *MFI = MF.getInfo<SIMachineFunctionInfo>();

  const GCNSubtarget &ST = MF.getSubtarget<GCNSubtarget>();

  const MachineFrameInfo &FrameInfo = MF.getFrameInfo();

  const MachineRegisterInfo &MRI = MF.getRegInfo();

  const SIInstrInfo *TII = ST.getInstrInfo();

  const SIRegisterInfo &TRI = TII->getRegisterInfo();


  Info.UsesFlatScratch = MRI.isPhysRegUsed(AMDGPU::FLAT_SCR_LO) ||

                         MRI.isPhysRegUsed(AMDGPU::FLAT_SCR_HI) ||

                         MRI.isLiveIn(MFI->getPreloadedReg(

                             AMDGPUFunctionArgInfo::FLAT_SCRATCH_INIT));


  Info.NumNamedBarrier = MFI->getNumNamedBarriers();


  // Even if FLAT_SCRATCH is implicitly used, it has no effect if flat

  // instructions aren't used to access the scratch buffer. Inline assembly may

  // need it though.

  //

  // If we only have implicit uses of flat_scr on flat instructions, it is not

  // really needed.

  if (Info.UsesFlatScratch && !MFI->getUserSGPRInfo().hasFlatScratchInit() &&

      (!hasAnyNonFlatUseOfReg(MRI, *TII, AMDGPU::FLAT_SCR) &&

       !hasAnyNonFlatUseOfReg(MRI, *TII, AMDGPU::FLAT_SCR_LO) &&

       !hasAnyNonFlatUseOfReg(MRI, *TII, AMDGPU::FLAT_SCR_HI))) {

    Info.UsesFlatScratch = false;

  }


  Info.PrivateSegmentSize = FrameInfo.getStackSize();


  // Assume a big number if there are any unknown sized objects.

  Info.HasDynamicallySizedStack = FrameInfo.hasVarSizedObjects();

  if (Info.HasDynamicallySizedStack)

    Info.PrivateSegmentSize += AssumedStackSizeForDynamicSizeObjects;


  if (MFI->isStackRealigned())

    Info.PrivateSegmentSize += FrameInfo.getMaxAlign().value();


  Info.UsesVCC =

      MRI.isPhysRegUsed(AMDGPU::VCC_LO) || MRI.isPhysRegUsed(AMDGPU::VCC_HI);

  Info.NumExplicitSGPR = TRI.getNumUsedPhysRegs(MRI, AMDGPU::SGPR_32RegClass,

                                                /*IncludeCalls=*/false);

  if (ST.hasMAIInsts())

    Info.NumAGPR = TRI.getNumUsedPhysRegs(MRI, AMDGPU::AGPR_32RegClass,

                                          /*IncludeCalls=*/false);


  // If there are no calls, MachineRegisterInfo can tell us the used register

  // count easily.

  // A tail call isn't considered a call for MachineFrameInfo's purposes.

  if (!FrameInfo.hasCalls() && !FrameInfo.hasTailCall()) {

    Info.NumVGPR = TRI.getNumUsedPhysRegs(MRI, AMDGPU::VGPR_32RegClass,

                                          /*IncludeCalls=*/false);

    return Info;

  }


  int32_t MaxVGPR = -1;

  Info.CalleeSegmentSize = 0;


  for (const MachineBasicBlock &MBB : MF) {

    for (const MachineInstr &MI : MBB) {

      for (unsigned I = 0; I < MI.getNumOperands(); ++I) {

        const MachineOperand &MO = MI.getOperand(I);


        if (!MO.isReg())

          continue;


        Register Reg = MO.getReg();

        switch (Reg) {

        case AMDGPU::NoRegister:

          assert(MI.isDebugInstr() &&

                 "Instruction uses invalid noreg register");

          continue;


        case AMDGPU::XNACK_MASK:

        case AMDGPU::XNACK_MASK_LO:

        case AMDGPU::XNACK_MASK_HI:

          llvm_unreachable("xnack_mask registers should not be used");


        case AMDGPU::LDS_DIRECT:

          llvm_unreachable("lds_direct register should not be used");


        case AMDGPU::TBA:

        case AMDGPU::TBA_LO:

        case AMDGPU::TBA_HI:

        case AMDGPU::TMA:

        case AMDGPU::TMA_LO:

        case AMDGPU::TMA_HI:

          llvm_unreachable("trap handler registers should not be used");


        case AMDGPU::SRC_VCCZ:

          llvm_unreachable("src_vccz register should not be used");


        case AMDGPU::SRC_EXECZ:

          llvm_unreachable("src_execz register should not be used");


        case AMDGPU::SRC_SCC:

          llvm_unreachable("src_scc register should not be used");


        default:

          break;

        }


        const TargetRegisterClass *RC = TRI.getPhysRegBaseClass(Reg);

        assert((!RC || TRI.isVGPRClass(RC) || TRI.isSGPRClass(RC) ||

                TRI.isAGPRClass(RC) || AMDGPU::TTMP_32RegClass.contains(Reg) ||

                AMDGPU::TTMP_64RegClass.contains(Reg) ||

                AMDGPU::TTMP_128RegClass.contains(Reg) ||

                AMDGPU::TTMP_256RegClass.contains(Reg) ||

                AMDGPU::TTMP_512RegClass.contains(Reg)) &&

               "Unknown register class");


        if (!RC || !TRI.isVGPRClass(RC))

          continue;


        if (MI.isCall() || MI.isMetaInstruction())

          continue;


        unsigned Width = divideCeil(TRI.getRegSizeInBits(*RC), 32);

        unsigned HWReg = TRI.getHWRegIndex(Reg);

        int MaxUsed = HWReg + Width - 1;

        MaxVGPR = std::max(MaxUsed, MaxVGPR);

      }


      if (MI.isCall()) {

        // Pseudo used just to encode the underlying global. Is there a better

        // way to track this?


        const MachineOperand *CalleeOp =

            TII->getNamedOperand(MI, AMDGPU::OpName::callee);


        const Function *Callee = getCalleeFunction(*CalleeOp);


        // Avoid crashing on undefined behavior with an illegal call to a

        // kernel. If a callsite's calling convention doesn't match the

        // function's, it's undefined behavior. If the callsite calling

        // convention does match, that would have errored earlier.

        if (Callee && AMDGPU::isEntryFunctionCC(Callee->getCallingConv()))

          report_fatal_error("invalid call to entry function");


        auto isSameFunction = [](const MachineFunction &MF, const Function *F) {

          return F == &MF.getFunction();

        };


        if (Callee && !isSameFunction(MF, Callee))

          Info.Callees.push_back(Callee);


        bool IsIndirect = !Callee || Callee->isDeclaration();


        // FIXME: Call site could have norecurse on it

        if (!Callee || !Callee->doesNotRecurse()) {

          Info.HasRecursion = true;


          // TODO: If we happen to know there is no stack usage in the

          // callgraph, we don't need to assume an infinitely growing stack.

          if (!MI.isReturn()) {

            // We don't need to assume an unknown stack size for tail calls.


            // FIXME: This only benefits in the case where the kernel does not

            // directly call the tail called function. If a kernel directly

            // calls a tail recursive function, we'll assume maximum stack size

            // based on the regular call instruction.

            Info.CalleeSegmentSize = std::max(

                Info.CalleeSegmentSize,

                static_cast<uint64_t>(AssumedStackSizeForExternalCall));

          }

        }


        if (IsIndirect) {

          Info.CalleeSegmentSize =

              std::max(Info.CalleeSegmentSize,

                       static_cast<uint64_t>(AssumedStackSizeForExternalCall));


          // Register usage of indirect calls gets handled later

          Info.UsesVCC = true;

          Info.UsesFlatScratch = ST.hasFlatAddressSpace();

          Info.HasDynamicallySizedStack = true;

          Info.HasIndirectCall = true;

        }

      }

    }

  }


  Info.NumVGPR = MaxVGPR + 1;


  return Info;

}


MRI
unsigned const MachineRegisterInfo * MRI
Definition AArch64AdvSIMDScalarPass.cpp:103

assert
assert(UImm &&(UImm !=~static_cast< T >(0)) &&"Invalid immediate!")

const
aarch64 promote const
Definition AArch64PromoteConstant.cpp:228

clAssumedStackSizeForDynamicSizeObjects
static cl::opt< uint32_t > clAssumedStackSizeForDynamicSizeObjects("amdgpu-assume-dynamic-stack-object-size", cl::desc("Assumed extra stack use if there are any " "variable sized objects (in bytes)"), cl::Hidden, cl::init(4096))

hasAnyNonFlatUseOfReg
static bool hasAnyNonFlatUseOfReg(const MachineRegisterInfo &MRI, const SIInstrInfo &TII, unsigned Reg)
Definition AMDGPUResourceUsageAnalysis.cpp:62

clAssumedStackSizeForExternalCall
static cl::opt< uint32_t > clAssumedStackSizeForExternalCall("amdgpu-assume-external-call-stack-size", cl::desc("Assumed stack use of any external call (in bytes)"), cl::Hidden, cl::init(16384))

AMDGPUResourceUsageAnalysis.h
Analyzes how many registers and other resources are used by functions.

AMDGPU.h

MBB
MachineBasicBlock & MBB
Definition ARMSLSHardening.cpp:71

GCNSubtarget.h
AMD GCN specific subclass of TargetSubtarget.

DEBUG_TYPE
#define DEBUG_TYPE
Definition GenericCycleImpl.h:31

GlobalValue.h

TII
const HexagonInstrInfo * TII
Definition HexagonCopyToCombine.cpp:118

MI
IRTranslator LLVM IR MI
Definition IRTranslator.cpp:110

F
#define F(x, y, z)
Definition MD5.cpp:55

I
#define I(x, y, z)
Definition MD5.cpp:58

MachineFrameInfo.h

MachineModuleInfo.h

Reg
Register Reg
Definition MachineSink.cpp:2117

TRI
Register const TargetRegisterInfo * TRI
Definition MachineSink.cpp:2118

INITIALIZE_PASS
#define INITIALIZE_PASS(passName, arg, name, cfg, analysis)
Definition PassSupport.h:56

SIMachineFunctionInfo.h

TargetPassConfig.h
Target-Independent Code Generator Pass Configuration Options pass.

llvm::AMDGPUMachineFunction::getNumNamedBarriers
uint32_t getNumNamedBarriers() const
Definition AMDGPUMachineFunction.h:95

llvm::AMDGPUResourceUsageAnalysis::run
Result run(MachineFunction &MF, MachineFunctionAnalysisManager &MFAM)
Definition AMDGPUResourceUsageAnalysis.cpp:104

llvm::AMDGPUResourceUsageAnalysis::Result
AMDGPUResourceUsageAnalysisImpl::SIFunctionResourceInfo Result
Definition AMDGPUResourceUsageAnalysis.h:82

llvm::Function
Definition Function.h:64

llvm::GCNSubtarget
Definition GCNSubtarget.h:34

llvm::GCNUserSGPRUsageInfo::hasFlatScratchInit
bool hasFlatScratchInit() const
Definition GCNSubtarget.h:1885

llvm::GlobalValue::getParent
Module * getParent()
Get the module that this global value is contained inside of...
Definition GlobalValue.h:663

llvm::MCSubtargetInfo
Generic base class for all target subtargets.
Definition MCSubtargetInfo.h:77

llvm::MCSubtargetInfo::getTargetTriple
const Triple & getTargetTriple() const
Definition MCSubtargetInfo.h:111

llvm::MachineBasicBlock
Definition MachineBasicBlock.h:122

llvm::MachineFrameInfo
The MachineFrameInfo class represents an abstract stack frame until prolog/epilog code is inserted.
Definition MachineFrameInfo.h:111

llvm::MachineFunction
Definition MachineFunction.h:286

llvm::MachineFunction::getSubtarget
const TargetSubtargetInfo & getSubtarget() const
getSubtarget - Return the subtarget for which this machine code is being compiled.
Definition MachineFunction.h:762

llvm::MachineFunction::getFrameInfo
MachineFrameInfo & getFrameInfo()
getFrameInfo - Return the frame info object for the current function.
Definition MachineFunction.h:778

llvm::MachineFunction::getRegInfo
MachineRegisterInfo & getRegInfo()
getRegInfo - Return information about the registers currently in use.
Definition MachineFunction.h:772

llvm::MachineFunction::getFunction
Function & getFunction()
Return the LLVM function that this machine code represents.
Definition MachineFunction.h:733

llvm::MachineFunction::getInfo
Ty * getInfo()
getInfo - Keep track of various per-function pieces of information for backends that would like to do...
Definition MachineFunction.h:860

llvm::MachineInstr
Representation of each machine instruction.
Definition MachineInstr.h:72

llvm::MachineOperand
MachineOperand class - Representation of each machine instruction operand.
Definition MachineOperand.h:48

llvm::MachineOperand::isReg
bool isReg() const
isReg - Tests if this is a MO_Register operand.
Definition MachineOperand.h:328

llvm::MachineOperand::getReg
Register getReg() const
getReg - Returns the register number.
Definition MachineOperand.h:368

llvm::MachineRegisterInfo
MachineRegisterInfo - Keep track of information for virtual and physical registers,...
Definition MachineRegisterInfo.h:53

llvm::Pass::getAnalysisIfAvailable
AnalysisType * getAnalysisIfAvailable() const
getAnalysisIfAvailable<AnalysisType>() - Subclasses use this function to get analysis information tha...
Definition PassAnalysisSupport.h:213

llvm::Register
Wrapper class representing virtual and physical registers.
Definition Register.h:19

llvm::SIInstrInfo
Definition SIInstrInfo.h:90

llvm::SIMachineFunctionInfo
This class keeps track of the SPI_SP_INPUT_ADDR config register, which tells the hardware which inter...
Definition SIMachineFunctionInfo.h:412

llvm::SIMachineFunctionInfo::getUserSGPRInfo
GCNUserSGPRUsageInfo & getUserSGPRInfo()
Definition SIMachineFunctionInfo.h:698

llvm::SIMachineFunctionInfo::isStackRealigned
bool isStackRealigned() const
Definition SIMachineFunctionInfo.h:1089

llvm::SIMachineFunctionInfo::getPreloadedReg
MCRegister getPreloadedReg(AMDGPUFunctionArgInfo::PreloadedValue Value) const
Definition SIMachineFunctionInfo.h:981

llvm::SIRegisterInfo
Definition SIRegisterInfo.h:40

llvm::TargetMachine
Primary interface to the complete machine description for the target machine.
Definition TargetMachine.h:83

llvm::TargetRegisterClass
Definition TargetRegisterInfo.h:45

llvm::Triple::AMDPAL
@ AMDPAL
Definition Triple.h:241

llvm::Triple::getOS
OSType getOS() const
Get the parsed operating system type of this triple.
Definition Triple.h:422

llvm::cl::opt
Definition CommandLine.h:1455

uint32_t

uint64_t

llvm_unreachable
#define llvm_unreachable(msg)
Marks that the current location is not supposed to be reachable.
Definition ErrorHandling.h:164

TargetMachine.h

llvm::AMDGPU
Definition AMDGPUMetadataVerifier.h:34

llvm::AMDGPU::AMDHSA_COV5
@ AMDHSA_COV5
Definition AMDGPUBaseInfo.h:61

llvm::AMDGPU::getAMDHSACodeObjectVersion
unsigned getAMDHSACodeObjectVersion(const Module &M)
Definition AMDGPUBaseInfo.cpp:202

llvm::AMDGPU::isEntryFunctionCC
LLVM_READNONE constexpr bool isEntryFunctionCC(CallingConv::ID CC)
Definition AMDGPUBaseInfo.h:1461

llvm::cl::Hidden
@ Hidden
Definition CommandLine.h:139

llvm::cl::init
initializer< Ty > init(const Ty &Val)
Definition CommandLine.h:445

llvm
This is an optimization pass for GlobalISel generic memory operations.
Definition AddressRanges.h:18

llvm::AMDGPUResourceUsageAnalysisID
char & AMDGPUResourceUsageAnalysisID
Definition AMDGPUResourceUsageAnalysis.cpp:34

llvm::MachineFunctionAnalysisManager
AnalysisManager< MachineFunction > MachineFunctionAnalysisManager
Definition MachineFunctionAnalysisManager.h:24

llvm::report_fatal_error
LLVM_ABI void report_fatal_error(Error Err, bool gen_crash_diag=true)
Definition Error.cpp:167

llvm::divideCeil
constexpr T divideCeil(U Numerator, V Denominator)
Returns the integer ceil(Numerator / Denominator).
Definition MathExtras.h:394

llvm::Op
DWARFExpression::Operation Op
Definition DWARFExpressionPrinter.cpp:22

llvm::cast
decltype(auto) cast(const From &Val)
cast<X> - Return the argument parameter cast to the specified type.
Definition Casting.h:559

llvm::AMDGPUFunctionArgInfo::FLAT_SCRATCH_INIT
@ FLAT_SCRATCH_INIT
Definition AMDGPUArgumentUsageInfo.h:112

llvm::AMDGPUResourceUsageAnalysisImpl::SIFunctionResourceInfo
Definition AMDGPUResourceUsageAnalysis.h:32

llvm::AMDGPUResourceUsageAnalysisImpl
Definition AMDGPUResourceUsageAnalysis.h:28

llvm::AMDGPUResourceUsageAnalysisImpl::analyzeResourceUsage
SIFunctionResourceInfo analyzeResourceUsage(const MachineFunction &MF, uint32_t AssumedStackSizeForDynamicSizeObjects, uint32_t AssumedStackSizeForExternalCall) const
Definition AMDGPUResourceUsageAnalysis.cpp:128

llvm::AMDGPUResourceUsageAnalysisWrapperPass
Definition AMDGPUResourceUsageAnalysis.h:55

llvm::AMDGPUResourceUsageAnalysisWrapperPass::runOnMachineFunction
bool runOnMachineFunction(MachineFunction &MF) override
runOnMachineFunction - This method must be overloaded to perform the desired machine code transformat...
Definition AMDGPUResourceUsageAnalysis.cpp:72

llvm::AMDGPUResourceUsageAnalysisWrapperPass::ID
static char ID
Definition AMDGPUResourceUsageAnalysis.h:61

llvm::AMDGPUResourceUsageAnalysisWrapperPass::ResourceInfo
FunctionResourceInfo ResourceInfo
Definition AMDGPUResourceUsageAnalysis.h:58

llvm::AnalysisKey
A special type used by analysis passes to provide an address that identifies that particular analysis...
Definition Analysis.h:29

llvm::cl::desc
Definition CommandLine.h:411