doxygen/AMDGPULowerIntrinsics_8cpp_source.html

//===-- AMDGPULowerIntrinsics.cpp -------------------------------------------=//

//

// Part of the LLVM Project, under the Apache License v2.0 with LLVM Exceptions.

// See https://llvm.org/LICENSE.txt for license information.

// SPDX-License-Identifier: Apache-2.0 WITH LLVM-exception

//

//===----------------------------------------------------------------------===//

//

// Lower intrinsics that would otherwise require separate handling in both

// SelectionDAG and GlobalISel.

//

//===----------------------------------------------------------------------===//


#include "AMDGPU.h"

#include "AMDGPUTargetMachine.h"

#include "GCNSubtarget.h"

#include "llvm/IR/IRBuilder.h"

#include "llvm/IR/IntrinsicInst.h"

#include "llvm/IR/IntrinsicsAMDGPU.h"

#include "llvm/InitializePasses.h"

#include "llvm/Transforms/Utils/BasicBlockUtils.h"


#define DEBUG_TYPE "amdgpu-lower-intrinsics"


using namespace llvm;


namespace {


class AMDGPULowerIntrinsicsImpl {

public:

  Module &M;

  const AMDGPUTargetMachine &TM;


  AMDGPULowerIntrinsicsImpl(Module &M, const AMDGPUTargetMachine &TM)

      : M(M), TM(TM) {}


  bool run();


private:

  bool visitBarrier(IntrinsicInst &I);

};


class AMDGPULowerIntrinsicsLegacy : public ModulePass {

public:

  static char ID;


  AMDGPULowerIntrinsicsLegacy() : ModulePass(ID) {}


  bool runOnModule(Module &M) override;


  void getAnalysisUsage(AnalysisUsage &AU) const override {

    AU.addRequired<TargetPassConfig>();

  }

};


template <class T> static void forEachCall(Function &Intrin, T Callback) {

  for (User *U : make_early_inc_range(Intrin.users())) {

    if (auto *CI = dyn_cast<IntrinsicInst>(U))

      Callback(CI);

  }

}


} // anonymous namespace


bool AMDGPULowerIntrinsicsImpl::run() {

  bool Changed = false;


  for (Function &F : M) {

    switch (F.getIntrinsicID()) {

    default:

      continue;

    case Intrinsic::amdgcn_s_barrier:

    case Intrinsic::amdgcn_s_barrier_signal:

    case Intrinsic::amdgcn_s_barrier_signal_isfirst:

    case Intrinsic::amdgcn_s_barrier_wait:

    case Intrinsic::amdgcn_s_cluster_barrier:

      forEachCall(F, [&](IntrinsicInst *II) { Changed |= visitBarrier(*II); });

      break;

    }

  }


  return Changed;

}


// Optimize barriers and lower s_(cluster_)barrier to a sequence of split

// barrier intrinsics.

bool AMDGPULowerIntrinsicsImpl::visitBarrier(IntrinsicInst &I) {

  assert(I.getIntrinsicID() == Intrinsic::amdgcn_s_barrier ||

         I.getIntrinsicID() == Intrinsic::amdgcn_s_barrier_signal ||

         I.getIntrinsicID() == Intrinsic::amdgcn_s_barrier_signal_isfirst ||

         I.getIntrinsicID() == Intrinsic::amdgcn_s_barrier_wait ||

         I.getIntrinsicID() == Intrinsic::amdgcn_s_cluster_barrier);


  const GCNSubtarget &ST = TM.getSubtarget<GCNSubtarget>(*I.getFunction());

  bool IsSingleWaveWG = false;


  if (TM.getOptLevel() > CodeGenOptLevel::None) {

    unsigned WGMaxSize = ST.getFlatWorkGroupSizes(*I.getFunction()).second;

    IsSingleWaveWG = WGMaxSize <= ST.getWavefrontSize();

  }


  IRBuilder<> B(&I);


  // Lower the s_cluster_barrier intrinsic first. There is no corresponding

  // hardware instruction in any subtarget.

  if (I.getIntrinsicID() == Intrinsic::amdgcn_s_cluster_barrier) {

    // The default cluster barrier expects one signal per workgroup. So we need

    // a workgroup barrier first.

    if (IsSingleWaveWG) {

      B.CreateIntrinsic(B.getVoidTy(), Intrinsic::amdgcn_wave_barrier, {});

    } else {

      Value *BarrierID_32 = B.getInt32(AMDGPU::Barrier::WORKGROUP);

      Value *BarrierID_16 = B.getInt16(AMDGPU::Barrier::WORKGROUP);

      Value *IsFirst = B.CreateIntrinsic(

          B.getInt1Ty(), Intrinsic::amdgcn_s_barrier_signal_isfirst,

          {BarrierID_32});

      B.CreateIntrinsic(B.getVoidTy(), Intrinsic::amdgcn_s_barrier_wait,

                        {BarrierID_16});


      Instruction *ThenTerm =

          SplitBlockAndInsertIfThen(IsFirst, I.getIterator(), false);

      B.SetInsertPoint(ThenTerm);

    }


    // Now we can signal the cluster barrier from a single wave and wait for the

    // barrier in all waves.

    Value *BarrierID_32 = B.getInt32(AMDGPU::Barrier::CLUSTER);

    Value *BarrierID_16 = B.getInt16(AMDGPU::Barrier::CLUSTER);

    B.CreateIntrinsic(B.getVoidTy(), Intrinsic::amdgcn_s_barrier_signal,

                      {BarrierID_32});


    B.SetInsertPoint(&I);

    B.CreateIntrinsic(B.getVoidTy(), Intrinsic::amdgcn_s_barrier_wait,

                      {BarrierID_16});


    I.eraseFromParent();

    return true;

  }


  bool IsWorkgroupScope = false;


  if (I.getIntrinsicID() == Intrinsic::amdgcn_s_barrier_wait ||

      I.getIntrinsicID() == Intrinsic::amdgcn_s_barrier_signal ||

      I.getIntrinsicID() == Intrinsic::amdgcn_s_barrier_signal_isfirst) {

    int BarrierID = cast<ConstantInt>(I.getArgOperand(0))->getSExtValue();

    if (BarrierID == AMDGPU::Barrier::TRAP ||

        BarrierID == AMDGPU::Barrier::WORKGROUP ||

        (BarrierID >= AMDGPU::Barrier::NAMED_BARRIER_FIRST &&

         BarrierID <= AMDGPU::Barrier::NAMED_BARRIER_LAST))

      IsWorkgroupScope = true;

  } else {

    assert(I.getIntrinsicID() == Intrinsic::amdgcn_s_barrier);

    IsWorkgroupScope = true;

  }


  if (IsWorkgroupScope && IsSingleWaveWG) {

    // Down-grade waits, remove split signals.

    if (I.getIntrinsicID() == Intrinsic::amdgcn_s_barrier ||

        I.getIntrinsicID() == Intrinsic::amdgcn_s_barrier_wait) {

      B.CreateIntrinsic(B.getVoidTy(), Intrinsic::amdgcn_wave_barrier, {});

    } else if (I.getIntrinsicID() ==

               Intrinsic::amdgcn_s_barrier_signal_isfirst) {

      // If we're the only wave of the workgroup, we're always first.

      I.replaceAllUsesWith(B.getInt1(true));

    }

    I.eraseFromParent();

    return true;

  }


  if (I.getIntrinsicID() == Intrinsic::amdgcn_s_barrier &&

      ST.hasSplitBarriers()) {

    // Lower to split barriers.

    Value *BarrierID_32 = B.getInt32(AMDGPU::Barrier::WORKGROUP);

    Value *BarrierID_16 = B.getInt16(AMDGPU::Barrier::WORKGROUP);

    B.CreateIntrinsic(B.getVoidTy(), Intrinsic::amdgcn_s_barrier_signal,

                      {BarrierID_32});

    B.CreateIntrinsic(B.getVoidTy(), Intrinsic::amdgcn_s_barrier_wait,

                      {BarrierID_16});

    I.eraseFromParent();

    return true;

  }


  return false;

}


PreservedAnalyses AMDGPULowerIntrinsicsPass::run(Module &M,

                                                 ModuleAnalysisManager &MAM) {

  AMDGPULowerIntrinsicsImpl Impl(M, TM);

  if (!Impl.run())

    return PreservedAnalyses::all();

  return PreservedAnalyses::none();

}


bool AMDGPULowerIntrinsicsLegacy::runOnModule(Module &M) {

  auto &TPC = getAnalysis<TargetPassConfig>();

  const AMDGPUTargetMachine &TM = TPC.getTM<AMDGPUTargetMachine>();


  AMDGPULowerIntrinsicsImpl Impl(M, TM);

  return Impl.run();

}


#define PASS_DESC "AMDGPU lower intrinsics"

INITIALIZE_PASS_BEGIN(AMDGPULowerIntrinsicsLegacy, DEBUG_TYPE, PASS_DESC, false,

                      false)

INITIALIZE_PASS_DEPENDENCY(TargetPassConfig)

INITIALIZE_PASS_END(AMDGPULowerIntrinsicsLegacy, DEBUG_TYPE, PASS_DESC, false,

                    false)


char AMDGPULowerIntrinsicsLegacy::ID = 0;


ModulePass *llvm::createAMDGPULowerIntrinsicsLegacyPass() {

  return new AMDGPULowerIntrinsicsLegacy;

}


assert
assert(UImm &&(UImm !=~static_cast< T >(0)) &&"Invalid immediate!")

PASS_DESC
#define PASS_DESC
Definition AMDGPULowerBufferFatPointers.cpp:2595

AMDGPUTargetMachine.h
The AMDGPU TargetMachine interface definition for hw codegen targets.

AMDGPU.h

BasicBlockUtils.h

B
static GCRegistry::Add< OcamlGC > B("ocaml", "ocaml 3.10-compatible GC")

GCNSubtarget.h
AMD GCN specific subclass of TargetSubtarget.

DEBUG_TYPE
#define DEBUG_TYPE
Definition GenericCycleImpl.h:31

IRBuilder.h

IntrinsicInst.h

InitializePasses.h

F
#define F(x, y, z)
Definition MD5.cpp:54

I
#define I(x, y, z)
Definition MD5.cpp:57

T
#define T
Definition Mips16ISelLowering.cpp:282

II
uint64_t IntrinsicInst * II
Definition NVVMIntrRange.cpp:46

MAM
ModuleAnalysisManager MAM
Definition PassBuilderBindings.cpp:63

INITIALIZE_PASS_DEPENDENCY
#define INITIALIZE_PASS_DEPENDENCY(depName)
Definition PassSupport.h:42

INITIALIZE_PASS_END
#define INITIALIZE_PASS_END(passName, arg, name, cfg, analysis)
Definition PassSupport.h:44

INITIALIZE_PASS_BEGIN
#define INITIALIZE_PASS_BEGIN(passName, arg, name, cfg, analysis)
Definition PassSupport.h:39

forEachCall
static bool forEachCall(Function &Intrin, T Callback)
Definition PreISelIntrinsicLowering.cpp:80

llvm::AMDGPUTargetMachine
Definition AMDGPUTargetMachine.h:30

llvm::AnalysisUsage
Represent the analysis usage information of a pass.
Definition PassAnalysisSupport.h:48

llvm::AnalysisUsage::addRequired
AnalysisUsage & addRequired()
Definition PassAnalysisSupport.h:76

llvm::Function
Definition Function.h:64

llvm::IntrinsicInst
A wrapper class for inspecting calls to intrinsic functions.
Definition IntrinsicInst.h:49

llvm::ModulePass
ModulePass class - This class is used to implement unstructured interprocedural optimizations and ana...
Definition Pass.h:255

llvm::Module
A Module instance is used to store all the information related to an LLVM module.
Definition Module.h:67

llvm::PreservedAnalyses
A set of analyses that are preserved following a run of a transformation pass.
Definition Analysis.h:112

llvm::PreservedAnalyses::none
static PreservedAnalyses none()
Convenience factory function for the empty preserved set.
Definition Analysis.h:115

llvm::PreservedAnalyses::all
static PreservedAnalyses all()
Construct a special preserved set that preserves all passes.
Definition Analysis.h:118

llvm::TargetMachine::getOptLevel
CodeGenOptLevel getOptLevel() const
Returns the optimization level: None, Less, Default, or Aggressive.
Definition TargetMachine.h:289

llvm::TargetMachine::getSubtarget
const STC & getSubtarget(const Function &F) const
This method returns a pointer to the specified type of TargetSubtargetInfo.
Definition TargetMachine.h:199

llvm::TargetPassConfig
Target-Independent Code Generator Pass Configuration Options.
Definition TargetPassConfig.h:84

llvm::User
Definition User.h:44

llvm::Value::users
iterator_range< user_iterator > users()
Definition Value.h:426

Changed
Changed
Definition ObjCARCOpts.cpp:2369

false
Definition MachinePipeliner.cpp:244

llvm::AMDGPU::Barrier::CLUSTER
@ CLUSTER
Definition SIDefines.h:1117

llvm::AMDGPU::Barrier::WORKGROUP
@ WORKGROUP
Definition SIDefines.h:1119

llvm::AMDGPU::Barrier::NAMED_BARRIER_LAST
@ NAMED_BARRIER_LAST
Definition SIDefines.h:1121

llvm::AMDGPU::Barrier::NAMED_BARRIER_FIRST
@ NAMED_BARRIER_FIRST
Definition SIDefines.h:1120

llvm::AMDGPU::Barrier::TRAP
@ TRAP
Definition SIDefines.h:1118

llvm::ARM_MB::ST
@ ST
Definition ARMBaseInfo.h:73

llvm::CallingConv::ID
unsigned ID
LLVM IR allows to use arbitrary numbers as calling convention identifiers.
Definition CallingConv.h:24

llvm::sandboxir::Instruction
friend class Instruction
Iterator for Instructions in a `BasicBlock.
Definition BasicBlock.h:73

llvm
This is an optimization pass for GlobalISel generic memory operations.
Definition AddressRanges.h:18

llvm::Value
FunctionAddr VTableAddr Value
Definition InstrProf.h:137

llvm::dyn_cast
decltype(auto) dyn_cast(const From &Val)
dyn_cast<X> - Return the argument parameter cast to the specified type.
Definition Casting.h:643

llvm::make_early_inc_range
iterator_range< early_inc_iterator_impl< detail::IterOfRange< RangeT > > > make_early_inc_range(RangeT &&Range)
Make a range that does early increment to allow mutation of the underlying range without disrupting i...
Definition STLExtras.h:632

llvm::createAMDGPULowerIntrinsicsLegacyPass
ModulePass * createAMDGPULowerIntrinsicsLegacyPass()
Definition AMDGPULowerIntrinsics.cpp:211

llvm::IRBuilder
IRBuilder(LLVMContext &, FolderTy, InserterTy, MDNode *, ArrayRef< OperandBundleDef >) -> IRBuilder< FolderTy, InserterTy >

llvm::cast
decltype(auto) cast(const From &Val)
cast<X> - Return the argument parameter cast to the specified type.
Definition Casting.h:559

llvm::SplitBlockAndInsertIfThen
LLVM_ABI Instruction * SplitBlockAndInsertIfThen(Value *Cond, BasicBlock::iterator SplitBefore, bool Unreachable, MDNode *BranchWeights=nullptr, DomTreeUpdater *DTU=nullptr, LoopInfo *LI=nullptr, BasicBlock *ThenBlock=nullptr)
Split the containing block at the specified instruction - everything before SplitBefore stays in the ...
Definition BasicBlockUtils.cpp:1575

llvm::ModuleAnalysisManager
AnalysisManager< Module > ModuleAnalysisManager
Convenience typedef for the Module analysis manager.
Definition MIRParser.h:39

llvm::AMDGPULowerIntrinsicsPass::run
PreservedAnalyses run(Module &M, ModuleAnalysisManager &MAM)
Definition AMDGPULowerIntrinsics.cpp:186